基于自注意力机制的矿井次光照图像语义分割研究
杨克虎1,3,4, 龙启航1, 汪嘉文1, 彭宝山2, 金波2, 杨学孟2
1.中国矿业大学(北京) 机电与信息工程学院; 2.国网能源新疆准东煤电有限公司; 3.应急管理部煤矿智能化与机器人创新应用重点实验室;4.中国矿业大学(北京) 内蒙古研究院
国家自然科学基金项目 61973307;国家自然科学基金项目 52121003;高等学校学科创新引智计划(“111计划”)项目 B21014;鄂尔多斯科学技术研究计划项目
摘要
主要内容
1. 矿井图像语义分割数据集构建
图 1 矿井巷道图像数据集构建过程
1.1 图像增强
图 2 矿井巷道图像数据集构建
图 3 微光图像增强前后对比图
1.2 图像标签掩码生成
图 4 矿井巷道图像数据集
表 1 标签信息
图 5 数据集每个对象数量统计
图 6 数据集扩充过程
2. 基于自注意力机制的轻量级编码—解码网络
2.1 整体网络结构
图 7 基于自注意力机制的编码—解码网络模型
2.2 语义特征信息提取
图 8 语义特征信息提取结构
表 2 主干网络结构
2.3 自注意力机制计算
图 9 Transformer结构
图 10 自注意力计算
图 11 Unfold过程示意图
2.4 网络解码结构
3. 对比实验
3.1 实验过程
3.2 实验结果
表 3 各网络计算量及参数
表 4 各网络训练精度及推理速度
表 5 各网络在每一类别上的像素精度
表 6 各网络在每一类别上的交并比
3.3 图像分割效果
图 12 复杂图像推理效果对比
图 13 各种算法预测效果对比
4. 结束语
1) 采集多地矿井巷道图像,针对次光照图像进行图像细节增强,并标注出人员、设备等10种类别,构建了标准的矿井语义分割图像数据集。
2) 提出基于自注意力机制的编码—解码结构网络,以DeepLab V3+网络为基础,在编码器部分加入轻量级自注意力机制模块进行特征信息提取,在解码器部分对深、浅层语义特征信息进行拼接,恢复原始图像尺寸,输出语义分割结果。
3) 针对3通道512×512像素大小的图像,基于自注意力机制的编码—解码结构网络的理论计算量FLOPs为48.80 G、模型参数量为11.90 M;在P100显卡上,推理速度能达到0.032 s/张;在分割精度上mPA为87.75%、mIoU为76.50%,优于PSPNet和以MobileNet为主干的DeepLab V3+、BiSeNet网络;在具体类别像素精度上,矿车的分割精度能达到97.80%,货车的分割精度能达到97.19%;而在每一类别的交并比表现上,巷道壁交并比能达到93.45%。分割准确率高,鲁棒性强。
杨克虎, 龙启航, 汪嘉文, 彭宝山, 金波, 杨学孟. 基于自注意力机制的矿井次光照图像语义分割研究[J]. 矿业安全与环保, 2023, 50(5): 9-18. doi: 10.19835/j.issn.1008-4495.2023.05.002.
YANG Kehu, LONG Qihang, WANG Jiawen, PENG Baoshan, JIN Bo, YANG Xuemeng. Research on semantic segmentation of mine sub-illumination images based on self-attention mechanism[J]. Mining Safety & Environmental Protection, 2023, 50(5): 9-18. doi: 10.19835/j.issn.1008-4495.2023.05.002.