CFC-Net: A Critical Feature Capturing Network for Arbitrary-Oriented Object Detection in Remote Sensing Images
I. INTRODUCTION
作者的动机在于认为现在的模型并不能提取和利用复杂的的特征也不能区分特征,并且提前设置anchor可能会造成以下问题:
大部分的anchor都是背景,很多只会徒增运算量
需要大量的参数
有很多低质量的样本不能让网络很好的收敛
上图解释了什么是关键特征,并且作者发现用于分类和回归的特征有时候并不是均匀的分布在物体上,并且有实验数据可以得到一些信息,并不是所有的正样本最终都能够得到精确的结果。
因此,作者提出了CFC-Net,本篇论文的贡献如下:
- 指出了存在关键特征
- 提出了CFC-Net用来提取关键特征利用高质量anchor
- 提出polarized attention来解耦回归和分类问题
- 使用到了之前作者写的DAL
III. PROPOSED METHOD
概述:通过PAM进行任务解耦,之后利用R-ARM产生高质量旋转框(anchor)最后使用DAL进行样本选择loss计算。
A. Polarization Attention Module
其实就是魔改之后的CBAM模块,进行完CBAM操作之后,由于分类任务需要抑制掉背景噪声,突出关键的响应所以后面接了魔改的sigmoid模块。
$$
ψ_{cls} (x)=1/(1+e^{−η(x−0.5)})
$$
其中的超参设置为15,这样就可以抑制掉小于0.5的噪声。而用于回归的特征图,更加倾向于响应均匀分布,所以需要如下的激活函数。
$$
ψ_{reg}(x)=x \quad if\quad x<0.5\
ψ_{reg} (x)=1−x\quad otherwise
$$
上述的总体公式如下:
$$
M=M_C (F)×M_S (F)\
F^′=M+ψ(σ(M))⋅F+F
$$
B. Rotation Anhcor Refinement Module
其实就是通过水平anchor预测旋转anchor。
C.Dynamic Anchor Learning
DAL对采样标准进行重新定义。
$$
md=αIoU_{in}+(1−α)⋅IoU_{out}−u^γ
$$
主要是计算GT与anchor和GT与predict bbox的IoU
$$
u=|IoU_{in}−IoU_{out} |
$$
引入上述匹配度的概念之后,分类的损失可以写为
$$
L_{cls}=1/N_n ∑_{i∈ψ_n}FL(p_i,p_i^∗)+1/N_p ∑_{j∈ψ_p}(w_j+1)⋅FL(p_j,p_j^∗)
$$
其中w是根据匹配度重新计算的权重,根据采样的正样本找到最大的匹配度
$$
Δmd=1−md_{max}\
w=md_{pos}+Δmd
$$
回归损失即为
$$
L_reg=1/N_p∑_{j∈ψ_p}w_j⋅Lsmooth_{L1} (t_j,t_j^∗)
$$