• 全部
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会

基于自注意力机制的矿井次光照图像语义分割研究

2023-11-13


基于自注意力机制的矿井次光照图像语义分割研究



杨克虎1,3,4, 龙启航1, 汪嘉文1, 彭宝山2, 金波2, 杨学孟2


作者单位

1.中国矿业大学(北京) 机电与信息工程学院; 2.国网能源新疆准东煤电有限公司; 3.应急管理部煤矿智能化与机器人创新应用重点实验室;4.中国矿业大学(北京) 内蒙古研究院




基金项目

国家自然科学基金项目 61973307;国家自然科学基金项目 52121003;高等学校学科创新引智计划(“111计划”)项目 B21014;鄂尔多斯科学技术研究计划项目 




作者简介





     杨克虎教授,博士生导师,现任中国矿业大学(北京)人工智能学院院长,教育部/科技部“矿山机器人工程”学科创新引智基地执行主任。兼任中国系统仿真学会智能物联系统建模与仿真专业委员会副主任委员,中国自动化学会智慧矿山专委会委员,中国人工智能学会教育工作委员会委员,《矿业科学学报》编委,《工矿自动化》、《系统仿真学报》青年编委。目前主要从事矿山智能化、矿山人工智能、智能化放顶煤、矿山5G与物联网、功率变换器建模与控制等领域的研究工作。近年来,承担了国家自然科学基金面上/重点项目子课题/青年基金各1项,国家重点研发计划项目子课题1项,北京市自然科学基金面上项目/北京市青年英才计划项目1项,以及郑煤机/淮北矿业/陕煤曹家滩/国家能源集团/国家电力投资集团等委托课题多项。发表科研论文50余篇,其中IEEE TPEL/TIE/JESTPE 等行业顶级期刊近20余篇,申请发明专利15项,已授权10项。科研成果“基于机器证明理论和算法的智能电网谐波消除方法”于2018年获第八届吴文俊人工智能自然科学奖三等奖,2021年作为主研人员(排名第4)完成的“图像识别智能放煤技术”获中国煤炭工业协会科学技术奖一等奖,2022年作为主研人员(排名第4)完成的“图像识别智能放煤技术开发与应用”获教育部高等学校科学技术进步奖一等奖。




摘要

     引入图像语义分割技术,对矿井次光照环境中的目标物进行分割,将图像分成原始清晰图像和次光照图像两类,采用基于深度学习的图像增强方法对次光照条件下拍摄的图像增强细节后替换,再利用单应变换算法对数据集进行扩充,进而构建矿井巷道图像语义分割标准数据集。提出一种基于自注意力机制的轻量级编码—解码结构网络:以DeepLab V3+编码—解码网络为基础网络,在编码结构中,提取矿井图像深、浅层语义特征信息,将深层语义特征信息经由轻量级自注意力机制模块进行特征激活,而浅层语义特征信息直接送入解码器中,在解码结构中拼接深、浅层语义特征信息,恢复原始图像尺寸,输出分割结果。与传统算法就图像预测进行对比实验,结果表明:在网络复杂度方面,对于3通道512×512像素大小的图像,算法的网络理论计算量FLOPs仅48.80 G,参数量仅11.90 M;在网络分割精度方面,平均交并比76.50%,平均像素精度87.75%,领先其他主流网络;在速度方面,推理一张图像的速度能达到0.032 s,可满足轻量级网络的要求。
扫码阅读全文


主要内容

01

1.   矿井图像语义分割数据集构建

图  1  矿井巷道图像数据集构建过程

1.1   图像增强


图  2  矿井巷道图像数据集构建

图  3  微光图像增强前后对比图

1.2   图像标签掩码生成


图  4  矿井巷道图像数据集

表  1  标签信息

图  5  数据集每个对象数量统计

图  6  数据集扩充过程



02

2.  基于自注意力机制的轻量级编码—解码网络

2.1   整体网络结构

图  7  基于自注意力机制的编码—解码网络模型


2.2  语义特征信息提取

图  8  语义特征信息提取结构

表  2  主干网络结构

2.3   自注意力机制计算


图  9  Transformer结构

图  10 自注意力计算

图  11  Unfold过程示意图

2.4   网络解码结构



03

3. 对比实验

3.1   实验过程

3.2   实验结果

表  3  各网络计算量及参数


表  4  各网络训练精度及推理速度

表  5  各网络在每一类别上的像素精度

表  6  各网络在每一类别上的交并比

3.3   图像分割效果


图  12  复杂图像推理效果对比


图  13  各种算法预测效果对比



04

4.  结束语

   

1) 采集多地矿井巷道图像,针对次光照图像进行图像细节增强,并标注出人员、设备等10种类别,构建了标准的矿井语义分割图像数据集。

2) 提出基于自注意力机制的编码—解码结构网络,以DeepLab V3+网络为基础,在编码器部分加入轻量级自注意力机制模块进行特征信息提取,在解码器部分对深、浅层语义特征信息进行拼接,恢复原始图像尺寸,输出语义分割结果。

3) 针对3通道512×512像素大小的图像,基于自注意力机制的编码—解码结构网络的理论计算量FLOPs为48.80 G、模型参数量为11.90 M;在P100显卡上,推理速度能达到0.032 s/张;在分割精度上mPA为87.75%、mIoU为76.50%,优于PSPNet和以MobileNet为主干的DeepLab V3+、BiSeNet网络;在具体类别像素精度上,矿车的分割精度能达到97.80%,货车的分割精度能达到97.19%;而在每一类别的交并比表现上,巷道壁交并比能达到93.45%。分割准确率高,鲁棒性强。



引用本文



杨克虎, 龙启航, 汪嘉文, 彭宝山, 金波, 杨学孟. 基于自注意力机制的矿井次光照图像语义分割研究[J]. 矿业安全与环保, 2023, 50(5): 9-18. doi: 10.19835/j.issn.1008-4495.2023.05.002.

YANG Kehu, LONG Qihang, WANG Jiawen, PENG Baoshan, JIN Bo, YANG Xuemeng. Research on semantic segmentation of mine sub-illumination images based on self-attention mechanism[J]. Mining Safety & Environmental Protection, 2023, 50(5): 9-18. doi: 10.19835/j.issn.1008-4495.2023.05.002.

  责任编辑:宫在芹
今日专家
亮点论文

深部地热能系统主要挑战与耦合储能的增强型创新开发模式侯正猛 1,吴旭宁 1,2,罗佳顺 1,2,张烈辉 2,李早元 2,曹 成 2,吴 林 1,2,陈前均 1 作者单位(1. 克劳斯塔尔工业大...

今日企业

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16  技术支持:云智互联