大模型在这里“刷题”!国内首个人工智能数据训练基地启用

如果把人工智能大模型比作一位小学生,那么数据训练时所用的“语料”和“算力”,就相当于小学生“刷题”时使用的习题册和计算器,帮助他掌握知识点、更快给出正确答案。



大模型在这里“刷题”!国内首个人工智能数据训练基地启用


如今,北京的大模型有了更全面的“习题册”、更强大的“计算器”。3月29日,在2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会上,国内第一个人工智能数据训练基地、北京规模最大的公共算力平台正式启用


为解决算力不足等问题,近两年本市布局建设了多处公共算力平台。这就像电力公司供电一样,只不过这些机柜里提供的是算力。因为规模大、稳定,所以公共算力可提高训练的效率,进而降低大模型训练耗费的时长。


此次北京亦庄人工智能公共算力平台正式点亮,算力规模在北京最大,可提供算力3000P。1P相当于每秒1000万亿次的计算速度。也就是说,这里每秒就进行300亿亿次的计算,相当于超过百万台高性能电脑的算力。以往企业自己要算几个月的事,在这里十几天就能搞定。



大模型在这里“刷题”!国内首个人工智能数据训练基地启用


“经开区规划了超10000P的算力规模。”经开区相关负责人说,未来将推出支持政策,为人工智能企业提供公共普惠的算力、创新领先的算网服务、细致完善的解决方案,助推大模型训练和行业应用。


大模型的自我学习仰仗训练。同日启用的北京人工智能数据训练基地里,已经有多款大模型正练就“最强大脑”。训练中,大模型依靠基地“投喂”的语料,像学生“刷题”一样不断提升自己的能力,从而在未来上线后应付现实中的各种难题。


这是国内最早启用的人工智能数据训练基地,可以组织数据供给方、加工服务方、模型训练方“进场”合作,推动高质量数据价值释放,助力通用模型和行业垂类模型训练精调。


成为“第一个”,不只依靠算力“硬件”。“训练基地要干的,不只是训练。”运营训练基地的北京亦庄智能城市研究院公司总经理颜敏解释,使用数据时会面临所有权归谁、是否可信、如何保障安全、收益如何分配等各种问题,都需要建立机制来规范。为此,基地针对大模型训练的数据合规和场景应用了“监管沙盒”机制,为新技术创新迭代提供开放包容的政策保障,免除后顾之忧。


数据不像普通的商品,使用方一旦获得了会不会复制外泄?为此,基地里专门的存储设备能让数据“可用不可见”。从采集到存储,再到初加工、精加工,最后到模型训练,整个链条都是在训练基地进行,跑不出去。“一旦发生纠纷,也有纠纷解决的兜底机制,会邀请互联网法院、知识产权局等来帮忙协调。”颜敏说。


大模型的训练、算力使用都要面临一笔不小的支出,初创企业能否应付得了?“我们每年会发放1亿元算力券,企业可申领用于算力租用,即领即享。”经开区管委会主任孔磊介绍。



大模型在这里“刷题”!国内首个人工智能数据训练基地启用

图为北京亦庄人工智能公共算力平台 、北京数据基础制度先行区公共智算中心。 


近日,经开区专门发布了《关于加快打造AI原生产业创新高地的若干政策》,从推动算力赋能产业发展、构建高效协同创新体系、高水平建设北京数据基础制度先行区、推动人工智能应用场景赋能与开放、打造人工智能产业集聚区、优化产业发展生态6个方面提出14条具体措施。


除了算力券,亦庄每年还会发放1亿元模型券,对购买技术自主可控基座大模型产品及服务进行补贴;开展“大模型+”行动,在自动驾驶、具身智能、医药健康、工业制造等领域开放高质量应用场景,推动AI赋能千行百业。


通过政策集成与创新,亦庄将持续推进人工智能核心技术取得重大突破,全面构建自主可控软硬件人工智能产业生态。到2026年,亦庄将培育性能达到国际先进水平的通用大模型,打造人工智能标杆应用场景10个,集聚人工智能产业链企业100家,实现园区营业收入1000亿元,建成人工智能算力10000P。



大模型在这里“刷题”!国内首个人工智能数据训练基地启用
NEXT

来源:北京日报



特别声明:

本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。

更多精彩内容,关注“传煤”微信公众号,或点击“期刊群”免费获取科研论文

 
用微信扫描左侧二维码,关注“传煤”公众号,第一时间获取煤炭行业新鲜资讯,享全方位煤炭科技知识信息服务。
煤科热搜
版本:Bate 1.2

来对平台产品吐槽CCAJ有关的所有问题您都可以咨询,全天在线,欢迎反馈