目前 DETR 类模型已经成为了目标检测的一个主流范式。但 DETR 算法模型复杂度高,推理速度低,严重影响了高准确度目标检测模型在端侧设备的部署,加大了学术研究和产业应用之间的鸿沟。

-
论文地址:https://arxiv.org/abs/2307.12612
-
代码地址 – mindspore:https://github.com/linxid/Focus-DETR
-
代码地址 – torch:https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR

图 1:多个 DETR 类检测器的计算量和时延对比分析
网络结构

图 2 :Focus-DETR 整体网络结构
计算量降低:前景筛选策略

图 3:Focus-DETR 和 Sparse DETR 在不同 feature map 上保留的 token 对比
不同特征映射的包围框
设置了一个大小范围。与传统的多尺度特征
标签分配
方法不同,它
允许相邻两个特征尺度之间的范围重叠
,以增强边界附近的预测能力。对每个拥有步长

的特征

,其中

代表多尺度特征的层级序号,

代表在二维特征图上的位置坐标,作者定义该特征在原图上的映射位置为

,那么

,因此

特征所对应的标签应该为:

代表坐标和真值框中心之间的最大棋盘距离,

代表真值目标框,

分别代表被第

层特征图预测的目标的尺度的最大值和最小值,由于尺度重叠设置,

。

图 4. 前背景标签分配可视化
此外,来自不同特征映射的特征选择的差异也被忽略,这限制了从最合适的分辨率选择特征的潜力。
为弥补这一差距,Focus-DETR 构造了
基于多尺度 feature map 的自顶向下的评分调制模块,
如图 5 所示。为了充分利用多尺度特征图之间的语义关联,作者首先使用
多层感知器 (MLP)
模块来预测每个特征图中的多类别语义得分。
考虑到高层语义特征,低层语义特征包含更丰富的语义信息,作者利用高层 feature map 的 token 重要性得分,作为补充信息来调制低层 feature map 的预测结果。
图 5:top-down 前景筛选评分调制策略
细粒度特征增强策略
位置信息和类别语义信息
的堆叠策略。具体来说,预测器

(・) 计算出的前景评分

和类别评分

的乘积将作为作者最终的标准

来确定注意力计算中涉及的细粒度特征,即:


和

分别代表前景得分和类别概率。
实验结果
主要结果

表 1:总体对比实验结果
模型效能分析

图 6 不同模型测试精度和计算复杂度之间的关联分析
消融实验

表 2 本研究提出的前景特征剪枝策略和细粒度特征自注意力增强模块对实验性能的影响

图 7 多尺度特征保留的 token

表 3. 多尺度特征图前景评分的关联方法,作者尝试自顶向下和自底向上的调制。

表 4.Focus-DETR、Sparse DETR 和 DINO+Sparse DETR 保留前景 token 的比例
总结
前景和细粒度特征,并且对细粒度特征进行语义增强,
使得模型复杂度和精度实现更好平衡。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...