• 论文
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会

基于跨模态注意力融合的煤炭异物检测方法

2024-02-06


研究背景

       煤炭异物RGB图像缺乏目标空间与边缘信息,待检目标与背景之间颜色、纹理相似,对比度低,待检目标存在相互重叠及遮挡等现象,导致煤炭异物特征提取不充分,现有异物检测方法难以取得理想效果。针对上述问题,提出一种基于跨模态注意力融合的煤炭异物检测方法。



研究内容

       基于跨模态注意力融合的煤炭异物检测模型主要由双特征金字塔网络(DFPN)、跨模态注意力融合模块(CAFM)、检测子网络组成。DFPN包括RGB特征提取分支和Depth特征提取分支:RGB图像经过复杂度较高的深层卷积网络后,得到不同分辨率的RGB特征;Depth图像经过复杂度较低的卷积神经网络后,得到不同分辨率的Depth特征。CAFM用于提高模型对RGB图像中遮挡煤炭异物的可见部分的关注程度,充分利用Depth特征中的几何信息,用Depth信息辅助RGB信息,实现双模态特征信息的互补与高效融合,同时采用特征金字塔网络(FPN)强化不同尺度融合特征的联系。检测子网络通过R-CNN输出异物图像的分类、回归与分割结果。


1、DFPN

       为了充分提取 RGB图像和Depth图像特征,避免因网络层数过多而引起模型梯度消失或爆炸,选用深度残差网络(ResNet)提取不同梯度和分辨率的RGB图像特征,Depth图像特征提取网络的设计参考ResNet基础结构的卷积块(Conv Block)。


2、 CAFM

       基于注意力机制提出CAFM。其由RGB特征与Depth特征2个分支组成。RGB特征与Depth 特征依次输入各自分支的注意力模块中,强化模型对RGB特征中煤炭异物可见部分的关注程度,同时充分利用Depth特征中的几何信息,生成注意力图ARGB与AD,随后将各注意力图与输入特征FRGB逐元素相乘,得到细化后的特征F,实现多模态特征高效融合。


3、检测子网络

       检测子网络选用双阶段经典检测网络结构,包括区域生成网络(RPN)、ROI Align与Head Architecture。将融合后特征作为RPN网络输入,生成候选目标框,经过RoI Align层对候选目标区域进行准确裁剪和特征提取,最后经Head Architecture输出异物图像分类、回归与分割结果。



实验结果

       将本文模型与实例分割领域的单阶段模型SOLOv2、BlendMask及双阶段模型Mask-RCNN、MS RCNN、Mask transfiner进行对比。RGB图像特征提取网络均选择ResNet101-FPN。相较于单阶段、双阶段的其他实例分割模型,本文模型综合性能最优。在检测精度方面,本文模型的平均分割精度AP较两阶段模型中较优的Mask transfiner高出3.9%。在检测效率方面,本文模型的单帧检测时间为110.5 ms,能够满足异物检测实时性需求。本文模型在检测精度与检测效率上达到了良好的平衡,更加适用于煤炭异物检测。

       将本文模型与单阶段模型BlendMask、双阶段模型MS RCNN、Mask transfiner进行对比(P-R曲线包络的面积越大,代表精度越高)。本文模型的P-R曲线相比其他模型更靠近右上角,对各类异物的综合检测能力明显优于其他模型。

作者简介


曹现刚(1970—),男,山东莒南人,教授,博士,研究方向为设备健康维护与管理、机器人技术、煤矿机电装备智能化,E-mail:caoxg@xust.edu.cn。

引用格式

曹现刚,李虎,王鹏,等. 基于跨模态注意力融合的煤炭异物检测方法[J]. 工矿自动化,2024,50(1):57-65.

CAO Xiangang, LI Hu, WANG Peng, et al. A coal foreign object detection method based on cross modal attention fusion[J]. Journal of Mine Automation,2024,50(1):57-65.

扫码阅读全文

  责任编辑:宫在芹

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16  技术支持:云智互联