基于Social Transformer的井下多人轨迹预测方法

一

研究背景

人员轨迹预测技术通过学习个体或群体移动模式预测未来行动路径，结合电子围栏，能提前识别潜在危险，保障井下安全生产。与循环神经网络（RNN）、长短期记忆（LSTM）网络等相比，Transformer在处理数据时显著降低了计算负担，同时有效解决了梯度消失导致的长时依赖问题。然而，Transformer在处理单人轨迹预测方面表现出色，但当环境中涉及多人同时运动时，其对于场景中所有人员未来轨迹的预测会出现明显偏差。目前在井下多人轨迹预测领域尚未出现一种同时采用Transformer并考虑个体之间相互影响的模型。针对上述问题，本文基于Transformer设计交互层，提出了一种基于Social Transformer的井下多人轨迹预测方法。

二

方法原理

基于Social Transformer的井下多人轨迹预测方法的网络模型结构如下图所示。首先通过Transformer编码器对多人历史轨迹信息进行特征提取，接着由全连接层对特征进行表示；然后通过交互层相互连接，该交互层允许空间上接近的网络彼此共享信息，计算预测对象在受到周围邻居影响时对周围邻居分配的注意力，提取其邻居的运动模式，进而更新特征矩阵；最后新的特征矩阵由Transformer解码器进行解码，输出对于未来时刻的人员位置信息预测。

三

实验验证

1、定量实验

在定量实验中，对于场景中的每一个人，预测其12帧（4.8 s）内的运动轨迹。将Social Transformer与LSTM，Transformer，S-GAN，Trajectron++，Social-STGCNN进行比较，每种方法重复运行20次，最终取平均值，结果见下表。可看出，Social Transformer在5种数据集的测试中，平均位移误差（ADE）均为最低。

井下场所的智能视频分析对于实时性要求很高，因此对上述6种方法的训练时间及预测时间进行比较，结果如下图所示。可看出Social Transformer在训练和预测2个阶段都表现出较高的效率，具有最短的训练时间和预测时间，分别为29 h、22 ms，在6种轨迹预测方法中耗时最少。

2、定性实验

采用井下多人场景（中央变电所、水泵房及副井口车辆转载点）的视频进行定性实验，分别使用LSTM，Transformer，Social Transformer对人员未来7帧（2.8 s）的运动轨迹进行预测，并对视频中人员预测轨迹与基准轨迹的重合程度进行主观判断，预测效果如下图所示，红色方框为人员历史轨迹，蓝色方框为人员基准轨迹，黄色方框为人员预测轨迹。

中央变电所1人员轨迹预测效果

中央变电所2人员轨迹预测效果

水泵房人员轨迹预测效果

副井口车辆转载点人员轨迹预测效果

可看出，对单人场景的人员轨迹进行预测时，Transformer与Social Transformer的预测效果基本相同，预测轨迹和基准轨迹基本无偏差，而使用LSTM处理后的预测轨迹则与基准轨迹产生少量偏差。对多人场景的人员轨迹进行预测时，采用Social Transformer预测时，尽管每一帧的预测位置与基准位置略有偏差，但由于考虑了周围人员的运动状态，使得整体预测轨迹与基准轨迹保持近似。因此Social Transformer相较于LSTM和Transformer，在进行多人场景的人员轨迹预测时具有一定的精度提升效果。

作者简介

马征（1996—），男，山东济宁人，硕士，现从事矿井视频分析技术方面的研究工作，E-mail：mazheng@ccrise.cn。

引用格式

马征，杨大山，张天翔. 基于Social Transformer的井下多人轨迹预测方法[J]. 工矿自动化，2024，50（5）：67-74.

MA Zheng, YANG Dashan, ZHANG Tianxiang. Multi-personnel underground trajectory prediction method based on Social Transformer[J]. Journal of Mine Automation，2024，50（5）：67-74.

扫码阅读全文

　　责任编辑：宫在芹

基于Social Transformer的井下多人轨迹预测方法

煤问提

煤传媒

煤视界

科技创新50强

会员中心