成果解读|《大模型应用成熟度评估方法》(AIIA/PG 0177-2024)

一、行业背景
在当前大数据与人工智能技术迅速发展的背景下,大模型场景落地百花齐放,针对行业场景的应用效能十分显著,已加速赋能金融、工业、教育、医疗、政务等行业智能化升级。与此同时,矿山行业正面临着智能化转型重大机遇,大模型技术同样为矿山行业在研发设计、生产制造与经营管理等诸多环节的高质量发展带来重大机遇。
目前,包括“太阳石矿山大模型”、“盘古矿山大模型”在内的矿山行业大模型虽然已有10余个,但由于大模型应用范式仍处于探索阶段,矿山企业在应用可靠性、服务能力及评价管理等方面面临着复杂的多维掣肘,大模型落地应用备受关注,亟需通过相关标准进行规范引导。

 成果解读|《大模型应用成熟度评估方法》(AIIA/PG 0177-2024)

2024年11月29日,“可信 AI”评估体系的重要研究成果《大模型应用成熟度评估方法》(AIIA/PG 0177-2024)标准正式发布,该标准由煤科总院牵头制定,旨在通过评估为大模型在矿山行业的高效应用给予明确指引,也将为矿山人工智能的高质量发展夯实重要基础。

成果解读|《大模型应用成熟度评估方法》(AIIA/PG 0177-2024)

二、内容解读

该标准的核心内容涵盖了基础设施成熟度、数据资源成熟度、算法模型成熟度及应用服务成熟度四个方面。这些评估维度可帮助矿山企业全面诊断自身在以上领域的资源配备情况。

成果解读|《大模型应用成熟度评估方法》(AIIA/PG 0177-2024)

① 基础设施成熟度

基础设施成熟度评估将关注矿山企业在高性能服务器和计算能力上的配备情况,确保其能够支持实时训练与推理,进而提升矿山智能系统的运行效率。
基础设施成熟度评估主要关注硬件设备、软件设施、平台工具以及综合效能四个方面:
1.硬件设备:评估高性能服务器、计算芯片、存储器等硬件设备的完备程度,要求读写速度能够满足模型实时训练与推理的需求。
2.软件设施:评估软件框架、操作系统以及向量数据库等软件设施的完备程度,要求支持数据加载和预处理的多步并行流水线、训练监控和日志记录功能等。
3.平台工具:评估大模型平台、工具及插件的完备程度,要求支持深度学习平台、插件管理平台、API管理平台等多种平台,以及科学计算工具、代码处理工具、模型微调工具等多种工具。
4.综合效能:评估大模型的训练性能与推理性能,要求支持并行计算与分布式处理能力,具备优化策略,推理时延应低于100毫秒,模型推理速度应满足实际应用需求。

② 数据资源成熟度

数据资源成熟度方面,矿山企业可以通过标准的指导,建立完善的数据采集和管理体系,确保数据的安全性、可访问性及质量。这将为矿山人工智能模型的训练提供强有力的数据支持,提升模型的准确性和泛化能力。
数据资源成熟度评估主要关注数据采集、数据存储、数据管理、数据应用以及数据审查五个方面:
1.数据采集:评估大模型训练、推理过程中数据采集能力情况,要求支持结构化和非结构化的数据采集接入,支持多种数据格式,如文本、图片、音频、视频等。
2.数据存储:评估数据存储能力,确保数据的安全性和可访问性。
3.数据管理:评估数据资源的维护情况,要求支持数据分类、分级,支持数据集的创建、查询、修改、删除等操作。
4.数据应用:评估数据资源的应用情况,要求建立完善的数据质量管理体系、数据安全体系等。
5.数据审查:评估数据资源的审查机制,要求支持数据审计、质量评估、唯一性评估、时效性评估等。

③ 算法模型成熟度

算法模型成熟度的评估将促使矿山企业在任务丰富度、模态支持和模型性能等方面进行优化,从而提升矿山智能系统的整体性能。特别是在支持多模态数据处理方面,矿山企业能够借助该标准推动智能化应用的多样性和灵活性。
算法模型成熟度评估主要关注任务丰富度、模态丰富度、模型性能以及综合能力四个方面:
1.任务丰富度:评估大模型应用过程中所支持的能力以及能够处理的任务类型,要求支持识别、理解、预测、生成等多种任务。
2.模态丰富度:评估大模型对模态的支持度,要求支持文本、语音、图片等多种模态。
3.模型性能:评估算法模型的准确率、泛化能力、并发路数以及响应速度。
4.综合能力:评估大模型的稳定性、鲁棒性和可扩展性,要求模型在参数扰动时保持良好性能,能够适应不同程度的数据结构或类型变化,具备可扩展的架构。

④ 应用服务成熟度

应用服务成熟度评估则强调了微调方式、服务体验和运营管理等关键因素。矿山企业可以通过实施多种微调方式和灵活的部署策略,提高人工智能应用的用户体验和服务质量,实现智能化技术的快速落地。
应用服务成熟度评估主要关注微调方式、大小模型协同、部署方式、服务体验、运营管理以及效能优化六个方面:
1.微调方式:评估大模型能否支持多种微调方式,如全量微调、PEFT中的高效微调方式等。
2.大小模型协同:评估能否实现大小模型的优势互补,以提高整体应用效果。
3.部署方式:评估大模型是否支持多种环境的灵活部署方式,如API和SDK、主流的云服务平台等。
4.服务体验:评估大模型应用服务体验的友好性与可扩展性,要求支持多种反馈渠道,服务内容具备多样性。
5.运营管理:评估大模型系统的流程化、自动化以及持续闭环能力,要求支持监控模型性能、资源消耗等,具备可观测性。
6.效能优化:评估大模型在各类场景中的渗透率以及业务优化率,要求覆盖多种应用场景,持续改进业务流程、运营效率等。

三、评价标准

在此基础上,该标准将大模型应用能力成熟度分为入门级、基础级、增强级、专业级、卓越级五类,矿山行业企业可据此明确矿山行业大模型应用成熟度所处等级。
① 入门级
具备简易的基础设施、少量规模的数据资源、基础的算法模型,能够进行基础的应用服务,可帮助小型团队基于大模型完成场景化落地应用。
② 基础级
基础设施配置基本满足大模型训练和推理需求,支持基础的数据全流程能力,具备基础的算法模型能力,提供较为完备的大模型应用服务。
③ 增强级

基础设施配置能够满足大模型训练和推理需求,具备完善的数据全流程能力,大模型功能丰富,算法模型能力较好,大模型应用服务体验良好。

④ 专业级
基础设施配置较为先进,支持完备的数据全流程能力,具备大规模高质量数据集,算法模型功能丰富,性能较优,具备高效的模型调优能力,大模型应用服务体验较佳。
⑤ 卓越级
基础设施配置高端,支持完备的数据全流程能力,具备大规模高质量数据集,算法模型具有创新性,模型功能、性能、综合能力优越,能够为客户提供优质的应用服务,运营管理流程规范并支持自动化处理,大模型效能优异。

四、趋势分析

同时,本标准多项细则中蕴含的行业大模型技术发展关键点同样值得关注,其关键点可以归纳为4个方面:

① 基础设施趋势分析

硬件需要关注大模型推理中的故障检测、隔离与恢复,任务级别的算力动态调整,以及存储方面的动态混合负载;软件不仅需要关注全自动并行推理、模型调度、监测评估等核心能力,更要重视大模型推理决策可解释等能力建设;平台方面则需关注API管理、Agent管理和行业小模型工具管理等能力建设。

② 数据资源趋势分析

采集方面需要关注实时数据流、数据增强与数据修复等功能;存储方面需关注数据要素的更新与管理,包括但不限于数据集名称、标注标签、来源、模态、分布、时间等;此外,需要额外重视数据审查、安全保护、多轮质检能力的建设工作。

③ 算法模型趋势分析

行业大模型的应用需要重视行业具体场景中的逻辑推理能力建设。此外,多维度的评价指标也是企业发展矿山人工智能大模型的关键,其中,跨结构、跨语言、跨领域和跨任务的泛化能力是重中之重。

④ 应用能力趋势分析

行业大模型需关注行业具体场景的大小模型协同推理能力,包括但不限于协同策略和知识蒸馏等方向。同时,面向矿山行业的具体应用,企业应当重点提升多模型编排的稳定性和鲁棒性。

五、总结展望

《大模型应用成熟度评估方法》的发布,不仅为矿山人工智能的应用提供了规范和依据,更为行业的未来发展描绘了新的蓝图。该标准从基础设施成熟度、数据资源成熟度、算法模型成熟度及应用服务成熟度四个方面,为实现全面智能化转型,促进矿山行业高质量发展探明了方向。
作为煤炭行业科技创新的先锋,煤科总院也将继续以《大模型应用成熟度评估方法》为指南,推动矿山行业的智能化进程,助力新型工业化发展。未来,煤科总院将在太阳石矿山大模型基础上,积极参与矿山人工智能生态建设。通过制定和优化相关标准,进一步提升矿山行业的智能化水平,为行业的可持续发展注入强劲动力,欢迎业界同仁携手前行。

成果解读|《大模型应用成熟度评估方法》(AIIA/PG 0177-2024)

来源:矿山人工智能公众号

特别声明:

本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。

更多精彩内容,关注“传煤”微信公众号,或点击“期刊群”免费获取科研论文

 
用微信扫描左侧二维码,关注“传煤”公众号,第一时间获取煤炭行业新鲜资讯,享全方位煤炭科技知识信息服务。
煤科热搜
版本:Bate 1.2

来对平台产品吐槽CCAJ有关的所有问题您都可以咨询,全天在线,欢迎反馈