语料数据集是人工智能大模型的数据输入集合,是发挥人工智能作用的基石。语料数据集规模是大模型能力涌现的基础。数据集规模和模型参数规模达到一定量级时,模型能力实现“涌现性”突破,并随着模型体量的增加持续攀升。语料数据集质量是大模型能力提升的关键。高质量数据集可以更好地模拟客观世界,提升模型准确度,扩展在真实场景中的泛化能力,可以在不大幅增加推理成本的情况下,提高大模型性能。

我国人工智能大模型语料集建设已形成政策、产业、技术协同推进的良好格局。政策层面,顶层设计与行业、地方政策联动,构建起标准统一的制度体系,数据市场化与价值化加速推进。产业层面,多模态、垂直领域语料库逐步发展,公共数据开放深化,形成规模化发展态势。技术层面,标准化体系、版权保护与分布式共享技术筑牢支撑,保障语料质量与安全流通。同时,语料集发展仍面临多重挑战。供给端存在总量不足、质量偏低、结构失衡等问题,语料规模高价值数据更新滞后,多模态数据集紧缺。流通端受基础设施滞后、治理技术不足、利益分配机制缺失制约,数据交易乱象扰乱秩序,全生命周期安全难以保障,场内交易成交率仅17.9%。应用端则因数据质量差导致“不能用”,合规风险高造成“不敢用”,场景适配不足引发“不好用”,难以满足千行百业数智化转型需求。

语料数据集的上述问题,不利于夯实我国人工智能产业发展根基,直接影响我国在全球激烈竞争中的主导权。由此,在优化供给机制、提高流通效率、拓展应用深度上下功夫,确保数据“供得出”“流得动”“用得好”。

源头布局破解“数据荒漠”,打造“供得出”的数据供给侧协同机制。一是健全公共数据共享机制。聚焦国家数据主权安全与战略资源整合,建立跨层级、跨部门的公共数据统筹共享机制。加快促进公众对政府数据的访问、利用和创新。进一步明确企业对政府数据共享和利用的具体规则。二是完善政产学研垂直数据协同机制。实施“关键领域语料补强计划”,由政府部门联合平台企业、国家实验室组建产业数据联盟,重点针对新一代信息技术、新能源、新材料等战略领域,共建垂类共享数据库,激活数据资源的战略储备价值。通过授予企业特许经营权、制定激励政策等方式,引导将企业数据纳入开放数据范畴。三是建立多模态应用创新机制。面向智慧医疗、智能制造、智能网联等国家重大战略场景,健全多模态数据标准体系,打通跨领域多模态数据融合壁垒。进一步深化数据要素产业链链长制,发挥领军企业辐射作用,链接各大创新主体,通过真实产业场景驱动,倒逼数据采集、标注、清洗等全链条能力提升,培育具有国际竞争力的多模态大模型产品矩阵。

多元协同打破“数据藩篱”,构建“流得动”的数据要素化制度性通道。一是打造“流通基座融通工程”。统筹布局国家级数据集流通基础设施,以“全国一体化算力网”为底座,实现政务、工业、医疗等20—30个重点领域数据资源的“一网通览”。此外,可通过公共机构之间共享数据集,强化数据规范、元数据、数据共享和绩效评估等举措。二是启动“数据安全筑基工程”。将数据安全治理纳入国家安全能力建设范畴,开展隐私计算、区块链存证等核心技术攻关,制定覆盖采集、传输、存储、共享、销毁等全流程的主权数据安全标准体系,保证高价值、高敏感数据集“可用不可见”“可控可计量”“可溯可审计”。三是实施“数据价值赋能工程”。以数据要素市场化推进价值化,推动数据确权、定价、交易有序开展。探索数据信托、数据保险等新模式,实现语料数据合规高效流通使用,赋能实体经济。创新国家数据资产化制度范式,支持高价值语料数据集通过资产入表、收益权质押等方式实现资本化流通。

多措并举释放“数据潜能”,打造“用得好”的数据价值化长效体系。一是坚持问题导向,提升语料数据可用性。以质量攻坚夯实数据底座,聚焦“数据污染”防控,制定国家级语料数据质量标准体系,强化全流程质量管控。建立完善数据合规机制,破除应用壁垒,明确数据采集、标注、流转等环节的合规边界,探索以数据使用场景、使用主体、应用深度为基础的“分级授权”新型数据版权交易模式,降低合规使用数据的成本与风险。二是坚持场景牵引,持续完善行业赋能标准。强化数据集应用示范场景建设,打造工业互联网、视联网、数字医疗等领域多模态创新示范区。鼓励自动驾驶、具身智能等新质生产力应用重点领域企业积极参与制定垂直行业规范,为行业提供可复制、可推广的应用模板。三是坚持生态驱动,推动国家级语料数据集价值孵化。实施语料数据集培育专项计划,推出引导鼓励平台企业的财税金融等“一揽子”支持政策。对开展跨域数据融合创新的主体给予数据资产折旧加速、研发费用加计扣除等政策激励。引导社会资本通过数据银行等创新模式参与高价值语料开发,形成政府主导、市场运作的发展生态。

文章来源:《学习时报》2025年11月28日第3版

本期编辑:杨洋