红外和可见光图像融合的隧道火源深度估计技术
作者
胡青松,袁淑雅,罗渝嘉,李世银
作者单位
中国矿业大学 信息与控制工程学院
一
研究背景
矿井巷道、交通隧道等场景受火灾威胁的困扰,采用基于图像的智能火灾探测方法在火灾初期快速识别其发生位置具有重要意义。现有方法面临时间序列一致性问题,且对相机姿态变化具有高度敏感性,在复杂动态环境中的识别性能下降。针对该问题,提出一种红外(IR)和可见光(RGB)图像融合的隧道火源深度估计方法,在复杂动态环境中对火源探测具有较高的准确性和可靠性。
二
研究方法
构建隧道火源自监督单目深度估计网络模型。模型采用深度估计网络和位姿网络相结合的方式进行自监督训练。深度估计网络包括基于UNet的IR和RGB特征编码器、IR−RGB特征融合模块、深度估计解码器。IR和RGB源视图经编码器提取特征,两模式特征由IR−RGB特征融合模块融合,再经深度估计解码器输出初步的深度图。位姿网络预测相机的位姿变化,经投影函数处理,将深度信息与源视图对齐。通过比较重建视图与源视图的一致性,得到用于自监督训练的损失值。

深度估计网络采用两阶段训练方法。在第1阶段,依次使用RGB,IR视频帧训练RGB−UNet和IR−UNet,在IR−UNet训练过程中采用有效通道注意力(ECA)模块提取RGB图像的注意力图并注入IR特征。在第2阶段,IR−RGB特征融合模块将IR和RGB 2种模态的图像特征进行融合,通过深度估计解码器进行深度估计。R−RGB特征融合模块采用非对称UNet架构,根据中心核对齐(CKA)相似性结果来指导不同模态特征的有效融合,确保特征空间分布的一致性。
深度估计网络训练过程中,引入相机高度损失,进一步提高复杂动态环境中火源探测的准确性和可靠性。
三
研究结果
将本文模型与目前最先进的单目深度估计模型进行对比实验,包括Lite−Mono,MonoDepth,MonoDepth2,VAD。当骨干网络为Resnet18时,本文模型的绝对值相对误差(AbsRel)和均方误差(RMSE)最优,精确度阈值为1.25和1.252时深度估计准确性最优。当骨干网络为Resnet50时,本文模型的AbsRel、平方相对误差(SqRel)、RMSE、对数均方误差(RMSELog)均最优,精确度阈值为1.252和1.253时深度估计准确性最优。整体上,本文模型具有更准确的深度预测结果。
在自制数据集上进行消融实验。基准模型(Base)采用MonoDepth2,编码器主干网络采用Resnet18。虽然本文模型(Base+FU+LH)在部分指标上较基准模型没有显著改善,但引入IR−RGB特征融合模块和相机高度损失可有效增强模型对不同模态特征的感知能力,提高深度估计精度。

采用本文模型对自制数据集中的图像进行识别。与DepthAnything,MonoDepth2,Lite−Mono等模型相比,本文模型对于近景区域中物体(如火源)和远景区域中物体(如车辆)的预测效果均最优。

作者介绍

胡青松,教授,博导,中国矿业大学地下空间智能控制教育部工程研究中心副主任,国际数字地球学会中国委员会数字能源专业委员会委员,中国煤炭学会科学传播专家,中国有色金属学会矿山信息化智能化专业委员会委员,中国指挥与控制学会多域复杂环境智能感知委员会委员,《工矿自动化》杂志青年专家委员。长期从事目标定位与跟踪、物联网、无线通信、救灾通信方面的研究工作。主持国家自然科学基金面上与青年项目各1项,国家科技支撑计划子课题、国家重点研发项目子课题各1项,江苏省科技支撑计划、江苏省自然科学基金面上项目、江苏省重大科技成果转化项目等省部级项目6项。研究成果获省部级科技奖励7项。发表SCI/EI收录高水平学术论文50多篇,出版著作3部,获授权发明专利16件。
引用格式
胡青松,袁淑雅,罗渝嘉,等. 红外和可见光图像融合的隧道火源深度估计技术[J]. 工矿自动化,2024,50(11):26-33.
HU Qingsong, YUAN Shuya, LUO Yujia, et al. Tunnel fire source depth estimation technology based on infrared and visible light image fusion[J]. Journal of Mine Automation,2024,50(11):26-33.

扫码阅读全文