题目:基于大语言模型的矿山事故知识图谱构建
作者:张朋杨1,2,生龙1,2,王巍1,2, 魏忠诚1,2, 赵继军1,2
作者单位:1. 河北工程大学 信息与电气工程学院;2. 河北工程大学 河北省安防信息感知与处理重点实验室
链接网址:
http://www.gkzdh.cn/article/doi/10.13272/j.issn.1671-251x.2024080031
识别二维码可阅读全文
研究背景
在矿山领域,大量的事故信息通常以报告文本的形式存在,结构化程度低,难以实现事故信息的数据挖掘及知识推理。构建矿山事故知识图谱可提高矿山事故信息的结构化程度,为矿山风险识别与预防、应急响应与决策支持、事故分析与原因追溯、事故预防措施制订等一系列矿山智能化安全管理系统建设提供数据支撑。现有矿山领域知识图谱构建方法在预训练阶段需要大量人工标注的高质量监督数据,人力成本高且效率低。大语言模型(LLM)可在少量人工标注的高质量数据下显著提高信息抽取的质量且效率较高,然而LLM结合Prompt的方法会产生灾难性遗忘问题。本文将图结构信息嵌入到Prompt模板中,提出了图结构Prompt,通过在LLM上嵌入图结构Prompt,提升矿山事故知识图谱的构建质量。
研究方法
采用自顶向下的方式构建矿山事故知识图谱,流程如下图所示。通过网络爬虫技术,收集煤矿安全生产网公开的矿山事故报告,经过预处理得到原始语料,使用LLM对事故报告中的名词、名词短语及动词进行批量化抽取。在模式层中,实体集由事故报告中的名词、名词短语组成,关系集由事故报告中的动词组成。通过LLM对实体集和关系集中的元素进行聚类分析,同时结合《矿山生产安全事故报告和调查处理办法》《生产安全事故报告和调查处理条例》《煤矿安全生产条例》中要求事故报告应包含的内容,构建矿山事故本体。本体构建完成后,对原始语料进行少量的人工标注,标注数据用于LLM的学习与微调。按照本体中的概念定义设计信息抽取模板。在数据层中,将矿山事故报告中不同文本中实体及实体间关系的图结构信息嵌入到信息抽取模板中,使用LLM进行实体及关系抽取,得到矿山事故文本中的实体关系三元组,完成数据的实例化。

实验验证
用于实验验证的LLM包括GPT−3.5,GLM_4,ERNIE−4.0及Qwen−7B−chat,将LLM的信息抽取结果与通用信息抽取(UIE)模型的信息抽取结果进行对比,见下表。在实体抽取任务中,UIE模型表现稳定但整体略差于LLM;在关系抽取任务中,LLM表现显著优于UIE模型。

在GPT−3.5,GLM_4,ERNIE−4.0和Qwen−7B−chat上开展嵌入图结构Prompt和未嵌入图结构Prompt的对比实验,进行实体抽取和关系抽取,结果见下表。在LLM中嵌入图结构Prompt后的信息抽取结果明显优于未嵌入图结构Prompt。未嵌入图结构Prompt的LLM虽能捕捉一定的语义信息,但在精确率和召回率上存在局限性,尤其在处理复杂图结构数据时,难以充分利用节点和边之间的关系信息。而嵌入图结构Prompt可帮助LLM更好地理解图中节点和边之间的关系,并将图结构信息保留至低维空间表征中,提升捕捉实体间复杂关系的能力。

作者简介

生龙,副教授,博士,硕士生导师,中国计算机学会会员,中国认证认可协会信息安全管理体系(ISMS)注册审核员、信息技术服务管理体系(ITSMS)注册审核员。长期从事人工智能、信息安全和复杂网络方面的教学和科研工作。主持和参与省部级科研项目、企业委托项目10余项。发表SCI/EI检索论文20余篇。获授权国家发明专利20余项,国家软件著作10余项。
第一作者:张朋杨(1998—),男,河北邯郸人,硕士研究生,主要研究方向为自然语言处理、知识图谱,E-mail:zhangpy996@163.com。
引用格式
张朋杨,生龙,王巍,等. 基于大语言模型的矿山事故知识图谱构建[J]. 工矿自动化,2025,51(2):76-83, 105.
ZHANG Pengyang, SHENG Long, WANG Wei, et al. Construction of a mine accident knowledge graph based on Large LanguageModels[J]. Journal of Mine Automation,2025,51(2):76-83, 105.
期刊简介
《工矿自动化》1973年创刊,月刊,是由中国煤炭科工集团有限公司主管、中煤科工集团常州研究院有限公司主办的一份集中报道我国煤矿自动化、信息化、智能化技术的专业性技术期刊。为中国科学引文数据库(CSCD)来源期刊、中文核心期刊、中国科技核心期刊、RCCSE中国核心学术期刊(A),瑞典开放存取期刊目录数据库(DOAJ)、英国《科学文摘(网络版)》(INSPEC)、美国《地质学参考数据库》(GeoRef)、美国《艾博思科数据库》(EBSCOhost)、日本《科学技术振兴机构(中国数据库)》(JSTChina)、波兰《哥白尼索引》(IC)、J-Gate数据库来源期刊、欧洲学术出版中心数据库(EuroPub)等收录,中国地学/煤炭领域高质量科技期刊T2类。
刊登范围:煤矿安全监测监控技术,煤矿智能开采技术,煤矿机械自动化控制技术,煤矿机电设备状态监测与控制技术,煤矿电力驱动与控制技术,煤矿通信技术,煤矿抢险救灾装备与技术,矿用仪器仪表技术,煤矿供配电技术,煤矿信息化技术,煤矿机器人技术,智能矿山与物联网技术等。