随着现代对地观测系统小时级的全球监测,地球科学研究已经进入了一个全球覆盖、全天候监测、全要素观测的大数据时代。同时, 作为典型的数据密集型科学, 地球科学在数据集成与共享、数据挖掘与知识发现等方面面临诸如数据混杂、机理缺乏的空间统计分析的挑战, 大数据的众多潜在优势在地球科学相关研究中尚未得到充分发挥, 知识驱动的地球科学大数据分析的理论与方法亟待发展, 构建全域地学知识图谱、探讨地学知识演化等, 是当代地学知识研究的前沿领域和战略重点。
人工智能是大数据价值挖掘与提升的关键, 而知识图谱则是人工智能的重要基石之一, 是实现统计表征与物理表征融合的核心基础。
近日一个由中国科学院、中国科学院大学、中国地质大学(北京)、上海交通大学等10个科研单位的14位科研人员组成的研究团队从地学知识表达的图模型、地学知识图谱构建方法和地学知识图谱应用等方面, 阐述和讨论了面向地学大数据分析的地学知识图谱研究的关键科学问题与前沿方向,成果发表于《中国科学:地球科学》。
知识图谱概念和雏形可以追溯到20世纪60年代,并在图书情报领域得到广泛应用。2012年谷歌正式发布知识图谱引擎,建成了包含6亿多实体、180多亿条属性或关系的知识节点,创建了用于从非结构化网络文本中获取事实信息的新一代知识图谱“Knowledge Vault”,极大地推动了知识图谱技术方法的发展和应用。自2017年以来, 美国将开放知识网络( O p e n Knowledge Network)作为一项国家科技战略予以重点推动。2019年美国国家自然科学基金会(NSF)资助的43项学科融合加速先导项目(总预算3900万美元)中, 包含了21项以开放知识网络为主题的项目, 并计划继续投入更大的资金支持该方向。
地学知识图谱以地球科学共同认可的知识体系为基础, 是对地球科学领域内的所有知识节点(包括已知的各种现象与事实、基本的概念与定义、自然原理与规律、观测与分析技术方法等)以及这些知识点之间的相互关系进行清晰、明确的阐释, 是一种可以为机器所理解的地球科学知识库和“推理机”。
根据地学知识的来源和可靠性等, 对于相对稳定和成熟的知识体系, 特别是领域的事实性知识和概念性知识多采用人机协同编辑导入策略, 如群智协同构建方法; 对于散布在大量文献资料中的知识, 特别是出版的学术论文、图书、研究报告, 多采用文本文献资料挖掘与知识发现的方法, 如网络文本解析与知识发现方法。 随着知识图谱的进一步发展, 领域专家知识和文本动态知识将会融合发展, 相互补充和支撑, 形成混合型的构建体系。
为了从海量结构化与非结构化、出版发行和内部使用的地学文本文献中, 挖掘隐含的大量地学知识, 特别是最新的动态知识,研究人员提出了基于深度解析的多模态地学数据动态知识图谱构建方法,包括:
(1)基于多源地学数据深度解析的非结构话数据感知。针对海量的文本、图片、数据表格、地图等非结构化的文本资料进行分类, 并对同一来源的数据标记其关联属性, 如地图的名称、区域等, 实现文本关联与多源数据感知;在标记的基础上, 对所处理的文本进行分割、纯文本提取、文本分词和句法分析等, 特别是采用一定已有规则知识消除文本中的非实质性的半结构化文本; 采用文本匹配和统计学习等方法, 对不同来源、具有一定相似性的图-文-数进行标记关联, 特别是通过基于规则过滤以及神经网络模型, 对文本描述中关键词信息的抽取。
(2)基于关键词的实体对象与知识抽取。深度学习的关键之一是有大量优质的训练语料样本, 而依靠人工选取、标注训练语料的方式难以实现, 发展高效、可信的无监督学习算法至为关键, 如基于关键词图模型的对象抽取。在该类算法中, 采用基于海量文本分词结果和词频-逆向文档频率(TF-IDF)算法量化地学领域实体的统计特征, 依据排序结果搭建常用词表, 构建海量文本的语言网络图; 基于图特征大小和向量匹配排序, 在语言网络图上寻找具有重要作用的词或者短语, 筛选出文本中的关键词, 抽取相应的对象实体, 构建图文数-关键词的索引关系, 完成地学知识中图表-文本描述-数字间的匹配, 从而实现基于非结构化文本的地学知识提取。
(3)知识歧义消除与动态地学知识图谱构建。针对由多数据源引起的知识歧义和冲突问题, 以地学知识图谱中实体概念特定的语义时空关联为特征通过深度强化学习进行分类和聚类, 以分别解决一词多义和多词同义问题; 并以信源属性为特征, 通过特征学习训练信源可信度完成属性对齐以消除知识冲突。
地学知识图谱是地球科学研究的前沿方向, 构建地学知识图谱是地球科学界的一项系统性知识工程。地学知识图谱的广泛应用可以推动地球科学与信息科学、数据科学的交叉融合, 促进学科发展。基于知识驱动的时空地学大数据分析有助于实现更加精准的地学分析, 推动基于统计表征和物理表征的地学大数据综合分析; 基于已有地学知识库和知识引擎, 可以推动地学知识体系研究, 理解地学知识演化的特征,发现新的地学知识, 形成新的研究突破点和创新点;将地学知识和地图编制知识融合, 可以推动地图制图的智能化与自动化发展; 将地学知识与地球系统模型结合, 可以推动矿产资源的探测与预测研究。
全域地学知识图谱自适应表达模型
基于深度解析的多模态地学数据动态知识图谱构建框架