国内多数AI模型训练使用的中文数据占比已超60%
中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数据局近日发布的数据显示,目前国内多数AI模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。

图片来源于网络,如有侵权,请联系删除
国家数据局局长刘烈宏表示,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。作为人工智能发展的核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,高质量数据集的建设至关重要。
“在人工智能时代,Token,也就是大家通常所说的词元,是处理文本的最小数据单元,如同互联网时代大家所说的‘流量’。”刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,到今年6月底,日均Token消耗量已经突破30万亿,一年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。
据介绍,截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB(1PB可存储约5亿张2MB大小的高清照片),400PB的总量相当于中国国家图书馆数字资源总量的140倍左右。
人工智能模型的训练也推动了数据交易需求的攀升。截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。
下一步,国家数据局将通过体系化布局持续推进高质量数据集建设,加快打造具身智能、低空经济、生物制造等重点领域数据高地,推动全社会强化数据要素价值认同,加快推进数据要素价值共创,培育“为优质数据买单”的市场共识。(记者高亢)
【责任编辑:凌纪伟】
扫描二维码推送至手机访问。
版权声明:本文由发布,如需转载请注明出处。
“国内多数AI模型训练使用的中文数据占比已超60%” 的相关文章
(原标题:销售火爆!首批20只A500场外基金发售首日认购金额超200亿元)图片来源于网络,如有侵权,请联系删除 出品/公司研究室基金组图片来源于网络,如有侵权,请联系删除 文/曲奇 雪梅 近日,随着A股行情走好,中证A500指数的火爆也从场内延续到了场外。 10月25日,20只中证A...
(原标题:江南新材即将上会:经营现金流常年净流出,募投项目业务策略可持续性遭问询)图片来源于网络,如有侵权,请联系删除 11月15日,江西江南新材料科技股份有限公司(以下简称“江南新材”)即将迎来上会“大考”。图片来源于网络,如有侵权,请联系删除 毛利率低于同行业...
(原标题:营收增速放缓、净利负增长)图片来源于网络,如有侵权,请联系删除 11月22日,胜科纳米(苏州)股份有限公司(以下简称:胜科纳米)即将上会,保荐机构为华泰联合证券。 作为国内半导体第三方检测的头部企业,胜科纳米近几年营收增速下降,且较为依赖供应商,甚至有承接大客户亏损...
(原标题:出行365母公司盛威时代赴港IPO:9成GTV来自高德,网约车毛利转负)图片来源于网络,如有侵权,请联系删除 近日,盛威时代科技股份有限公司(以下简称“盛威时代”)向港交所递交了主板IPO申请,保荐机构为中信建投国际。 作为中小型网约车平台的代表之一,盛威时代持续亏...
(原标题:天有为上会在即:实控人5倍赔偿求诉讼和解,大客户压价毛利率却逆势上升)图片来源于网络,如有侵权,请联系删除 12月6日,汽车仪表生产商黑龙江天有为电子股份有限公司(以下简称“天有为”)上交所主板IPO即将上会,保荐机构为中信建投证券。图片来源于网络,如有侵权,请联系删除...
(原标题:蓝宇股份开启申购:国内数码喷印墨水头部企业,经营业绩稳健增长)图片来源于网络,如有侵权,请联系删除 12月6日,国内数码喷印墨水领域优秀企业――浙江蓝宇数码科技股份有限公司(简称:蓝宇股份)开启申购。据悉,公司本次募集资金主要投向“浙江蓝宇数码科技股份有限公司水溶性数码印花墨水建设...