-
作者
郭军
-
单位
煤炭科学研究总院有限公司矿山大数据研究院煤炭资源高效开采与洁净利用国家重点实验室
-
摘要
利用真三维网格化地质模型实现煤矿地质环境的多分辨率表达和多参数的融合是煤矿地学大数据研究的重点内容之一,其核心问题是三维地质模型数据组织、存储和管理等。针对煤矿三维地质网格模型的数据规模、分布式存储和查询性能等问题,提出了一种基于HDF5的煤矿地质三维层叠网格模型分布式存储方案。在网格数据组织方面,采用层叠网格模型对三维地质模型数据进行压缩和分块组织,通过数据分块解决大规模地质网格模型数据的组织问题,数据分块同时将空间相近的数据集中在相邻的硬盘扇区或存储设备中,有利于提高数据调度效率。在数据存储方面,HDF5作为存储的持久化层,用来存储所有的原始数据,采用内存数据库Redis存储热点数据、HDF5元数据等相关信息。在Web服务方面,使用H5Serv发送和接收HDF5数据。在HDF5实现分布式方面,利用网络文件系统(NFS)实现HDF5数据在不同节点服务器之间的共享;利用Rsync和Inotify实现HDF5数据在不同节点服务器的数据实时同步;通过Nginx实现访问时反向代理和数据服务节点的负载均衡。使用Docker容器技术将数据节点服务和Nginx服务进行统一部署,通过JupyterLab交互式分析平台实现实时数据资源的调度和管理。实验结果表明:基于层叠网格的地质模型数据组织和基于HDF5的分布式存储可实现煤矿三维地质网格模型的有效存储管理和空间查询;相对于体素模型和八叉树模型,层叠网格模型数据量小,便于实现地质界面的空间快速查询,空间查询性能优于关系型数据库MySQL和非关系型数据库MongoDB,更适合煤系沉积地层结构的网格化表达和数据组织;基于HDF5的文件存储明显比MySQL和MongoDB数据库存储更加节省空间,主要原因在于HDF5的DataSet可直接存储数据块,不需要额外存储信息。基于层叠网格模型和HDF5的数据组织和存储方案可为煤矿三维地质网格模型的有效存储管理提供借鉴。
-
关键词
煤矿地质模型三维层叠网格分布式存储网格数据组织空间查询HDF5
-
基金项目(Foundation)
北京市科技计划应用技术协同创新资助项目(Z201100004520015);中国煤炭科工集团科技创新创业资金专项重点项目(2022-TD-ZD003);
-
文章目录
0 引言
1 基于三维层叠网格的煤矿地质模型表达
1.1 三维层叠网格模型数据组织
1.2 三维地质网格模型分块组织
2 三维地质模型数据存储设计
2.1 HDF5数据存储设计
2.2 My SQL和Mongo DB数据存储设计
3 基于HDF5的分布式存储
3.1 整体架构
3.2 基于NFS的HDF5文件共享
3.3 基于Rsync+Inotify的HDF5文件实时同步
3.4 基于Nginx的HDF5访问负载均衡实现
3.5 基于Jupyter Lab的数据管理和调度实现
4 实验分析
4.1 实验数据
4.2 测试环境
4.3 单存储节点测试
4.4 分布式存储测试
5 结论
-
引用格式
郭军.基于HDF5的煤矿地质三维层叠网格模型分布式存储研究[J].工矿自动化,2023,49(01):153-161.DOI:10.13272/j.issn.1671-251x.18056.