PolorMask:one-stage实例分割新思路

前置知识

FCOS

​ FCOS是一个基于全卷积的one-stage检测网络,类似于语义分割针对每个像素进行预测。FCOS是anchor free,proposal free的检测器,可以减少大量的内存计算以及内存占用,并且不需要调优设计anchor和proposal的超参数。事实上这个anchor free方法还是有anchor的只不过不再是box形式,而是用点作为anchor,既减少了anchor数量又取消了超参。此外文章还提出了一个思路:将检测问题可以统一到其他FCN_solvable问题,可以简单的重用其他任务的idea。

​ 网络结构图如下:

​ 可以从图中看出网络结构中也运用了FPN的结构但是没有使用backbone的所有卷积层,但考虑了多尺度的问题直接加入了P5的下采样P6/P7。最后的损失函数也分为三个分支,classification、regression(不同于boxes,回归的4D向量为[l, r, t, b]代表每个像素点向四周的延伸)、centerness。

​ 文章还解决了重叠区域问题,引入了参数$m_i$为特征层$i$的最大距离,如果一个像素点(x, y)满足$max(l^,t^,r^,b^)>m_i \or max(l^,t^,r^,b^)<m_{i-1}$ 那么在该特征层将其视为负样本,不进行回归。

​ 此外,作者还运用了Center-ness($\sqrt{\frac{min(l^,r^)}{max(l^, r^)}\times\frac{min(t^, b^)}{max(t^,b^)}}$)对离物体中心较远质量差的预测边框进行了抑制。通过BCE Loss来进行训练。可以在预测时降低远离物体中心边框的得分。

PolorMask解决的问题

将实例分割问题转化为基于实例中心分类(instance center classification)密集距离回归(dense distance regression)的极坐标轮廓建模问题。提供了一种新的建模方式,让实例分割建模变得简单且高效。

PolorMask细节

Polor Representation

文章提出了一种新的mask表示,极坐标轮廓表示。这种表示方法有三个优势:

  1. 极坐标的原点可以看作物体的中心
  2. 轮廓上的点由距离和角度确定
  3. 角度是确定的,所以将点连接到轮廓十分方便。(这是笛卡尔坐标系不存在的优势)

网络结构

ps:k = nr_class of dataset, n = the number of raws

在网络结构上,PolorMask与FCOS十分相似,只是在head部分将bbox分支换成了mask分支。在网络结构复杂度上与FCOS相似。

Polar Segmentation建模

经过网络可以得到中心点的位置和n(n=36 is best in our setting)根射线的距离,根据角度和长度计算出轮廓上的这些点的坐标,从0°开始连接这些点,最后把联通区域内的区域当做实例分割的结果。

center sample(中心采样)

采取了在实例质心周围1.5个步幅内的像素点为正采样,否则为负采样,这样做的好处是避免了正负样本的过于不平衡以及有更多的候选点作为真正的中心。

Polar IoU Loss & Polar Centerness

Polar IoU Loss

采用从0-2Π的积分形式来进行IoU计算

Polar IoU Loss采用的是BCE LOSS,在不用调权重的情况下,相比Smooth L1 Loss提了2.6个点

Polar Centerness

Polar Centerness是基于FCOS的Center ness的变化,也是为了定义高质量的正样本抑制低质量的正样本。

$Polar \ Centerness=\sqrt\frac{min(\{d_1,d_2,…,d_n\})}{max(\{d_1,d_2,…,d_n\})}$如下图所示,右边的mask更加符合要求。

实验部分

  • 关于实例中心的选择:实验表明使用质心(mass-center)比检测框中心(box-center)有更好的效果(可能是质心相比检测框中心更普遍在实例中?)
  • 关于polar segmentation的建模上限问题:作者在这实验证明了IoU能够达到90左右,逐像素法也会因下采样等操作而达不到100%。
Number of rays Loss centerness box brunch backbone scale
influence 实验表明当数量增加时性能会提升但到72时接近饱和 Polar IoU Loss 表现明显优于Smooth L1 Loss Polar centerness在大实例/高精度表现更好 polar mask无需边界框 更好的特征提取网络会提高性能 较大的图像尺寸会以较低的推理速度产生较高的精度
best 36 - - - ResNeXt-101 -

优点

  1. 不需要检测框,与FCOS一样是简洁高效的结构,包括在loss部分都不需要过多的超参数调节,在推理速度实验上也略优于two-stage model和其他one-stage model
  2. 将目标检测和实例分割统一到了一个模型,为之后anchor free模型的研究与改进提供了一个思路

不足

  1. 在精度方面与sota模型还是有差距
  2. center采样的过程在论文中没有详细描述这样采样的原因是什么
  3. 在数据处理会更加复杂,会处理实例质心相关的问题