一
研究背景
人员轨迹预测技术通过学习个体或群体移动模式预测未来行动路径,结合电子围栏,能提前识别潜在危险,保障井下安全生产。与循环神经网络(RNN)、长短期记忆(LSTM)网络等相比,Transformer在处理数据时显著降低了计算负担,同时有效解决了梯度消失导致的长时依赖问题。然而,Transformer在处理单人轨迹预测方面表现出色,但当环境中涉及多人同时运动时,其对于场景中所有人员未来轨迹的预测会出现明显偏差。目前在井下多人轨迹预测领域尚未出现一种同时采用Transformer并考虑个体之间相互影响的模型。针对上述问题,本文基于Transformer设计交互层,提出了一种基于Social Transformer的井下多人轨迹预测方法。
二
方法原理
基于Social Transformer的井下多人轨迹预测方法的网络模型结构如下图所示。首先通过Transformer编码器对多人历史轨迹信息进行特征提取,接着由全连接层对特征进行表示;然后通过交互层相互连接,该交互层允许空间上接近的网络彼此共享信息,计算预测对象在受到周围邻居影响时对周围邻居分配的注意力,提取其邻居的运动模式,进而更新特征矩阵;最后新的特征矩阵由Transformer解码器进行解码,输出对于未来时刻的人员位置信息预测。
![](/d/mmbiz/2024-06-18/sfp4UZct7bicmy0Uib2iaXFQSGJXuicBh1IaoSmMska1DvibdRZnrnS1wAJkzruGicFR1H8nn1Jdx4ic8Pu0TL9PGicXMA.png)
三
实验验证
1、定量实验
在定量实验中,对于场景中的每一个人,预测其12帧(4.8 s)内的运动轨迹。将Social Transformer与LSTM,Transformer,S-GAN,Trajectron++,Social-STGCNN进行比较,每种方法重复运行20次,最终取平均值,结果见下表。可看出,Social Transformer在5种数据集的测试中,平均位移误差(ADE)均为最低。
![](/d/mmbiz/2024-06-18/sfp4UZct7bicmy0Uib2iaXFQSGJXuicBh1IaTeHTTFETCY3ISdN7LL4mdFibhyvPWWvwjkcvTp1JpiaNJmsvfSicxQ49w.png)
井下场所的智能视频分析对于实时性要求很高,因此对上述6种方法的训练时间及预测时间进行比较,结果如下图所示。可看出Social Transformer在训练和预测2个阶段都表现出较高的效率,具有最短的训练时间和预测时间,分别为29 h、22 ms,在6种轨迹预测方法中耗时最少。
![](/d/mmbiz/2024-06-18/sfp4UZct7bicmy0Uib2iaXFQSGJXuicBh1IaRic0MkiblwRGOfqaEibkrByzV9jhib3MO1uZQURPMSZnkEhyHKAoGQW5mw.png)
2、定性实验
采用井下多人场景(中央变电所、水泵房及副井口车辆转载点)的视频进行定性实验,分别使用LSTM,Transformer,Social Transformer对人员未来7帧(2.8 s)的运动轨迹进行预测,并对视频中人员预测轨迹与基准轨迹的重合程度进行主观判断,预测效果如下图所示,红色方框为人员历史轨迹,蓝色方框为人员基准轨迹,黄色方框为人员预测轨迹。
![](/d/mmbiz/2024-06-18/sfp4UZct7bicmy0Uib2iaXFQSGJXuicBh1Ia6Qzh49VZvRhj7Trjz2EUO9CspTIchgd3xFUM5KtxRjU2goiatLbk5Vg.png)
中央变电所1人员轨迹预测效果
![](/d/mmbiz/2024-06-18/sfp4UZct7bicmy0Uib2iaXFQSGJXuicBh1Ia6o2F5k2mWvggCkC1VAxyzsyiaYE0To8iciaKDkaUFyoLzABRMnBX1dRrQ.png)
中央变电所2人员轨迹预测效果
![](/d/mmbiz/2024-06-18/sfp4UZct7bicmy0Uib2iaXFQSGJXuicBh1IaHgq1L0nyJYqfyObg1RlHdibE2KVb2sdWcGyRchzuYibmGDq4BeCUSjyQ.png)
水泵房人员轨迹预测效果
![](/d/mmbiz/2024-06-18/sfp4UZct7bicmy0Uib2iaXFQSGJXuicBh1Ia8qYnd4TS9AkOq0EgSBocSdiaz6fibWuMLzia2TBN5j2XgiaibY7unug7wnw.png)
副井口车辆转载点人员轨迹预测效果
可看出,对单人场景的人员轨迹进行预测时,Transformer与Social Transformer的预测效果基本相同,预测轨迹和基准轨迹基本无偏差,而使用LSTM处理后的预测轨迹则与基准轨迹产生少量偏差。对多人场景的人员轨迹进行预测时,采用Social Transformer预测时,尽管每一帧的预测位置与基准位置略有偏差,但由于考虑了周围人员的运动状态,使得整体预测轨迹与基准轨迹保持近似。因此Social Transformer相较于LSTM和Transformer,在进行多人场景的人员轨迹预测时具有一定的精度提升效果。
作者简介
![](/d/mmbiz/2024-06-18/sfp4UZct7bicmy0Uib2iaXFQSGJXuicBh1IamGzbk3KItnqkibBWNCuM4m0iaich2UKK2Ogyn48XXKnab92eDdyVTQJ8g.png)
马征(1996—),男,山东济宁人,硕士,现从事矿井视频分析技术方面的研究工作,E-mail:mazheng@ccrise.cn。
引用格式
马征,杨大山,张天翔. 基于Social Transformer的井下多人轨迹预测方法[J]. 工矿自动化,2024,50(5):67-74.
MA Zheng, YANG Dashan, ZHANG Tianxiang. Multi-personnel underground trajectory prediction method based on Social Transformer[J]. Journal of Mine Automation,2024,50(5):67-74.
![](/d/mmbiz/2024-06-18/sfp4UZct7bicmy0Uib2iaXFQSGJXuicBh1IaLt1cicsFua3ibENCPaYdUmsUqtwCQfandWnf8Yb29V0XBJsOKsGNPWYQ.jpg)
扫码阅读全文