川观新闻记者 段玉清 薛维睿

人工智能火了。但要让其更聪明、更懂人类,就要采集更多数据,为人工智能“划重点”。随后训练师将这些数据“投喂”给人工智能,对其进行高效训练。其中,“划重点”的过程就是数据标注。

如何为人工智能“喂养”更多高质量数据?未来又将如何在数据标注产业发力?3月20日,由工业和信息化部电子第五研究所、中国移动通信集团信息技术中心、航天科工网络信息发展有限公司联合主办的2025年数据标注产业供需对接会(成都)上,相关专家、业内人士进行探讨。

发布产业图谱

这些成都企业、机构可为人工智能制作数据“营养餐”

已建成7万平方米产业载体,包括数据标注产业聚集区、“数据标注+”产业聚集区、产业服务机构聚集区……会议前,与会人员前往成都市新津区,到刚开园不久的成都市国家数据标注基地牧山园区进行参观。

“几天前,园区还现场发布四川方言高质量数据集、四川方言大模型、四川方言AI+政务服务热线应用等。”成都市新津区数据局相关负责人介绍。

其实,不光这一园区。随着技术的不断进步,人工智能对高质量数据的需求越来越大。

去年,我国发布首批数据标注试点基地,包括成都在内的7个城市入围。同年,成都将数据标注产业纳入人工智能产业规划布局,积极推动数据标注产业生态构建、能力提升和场景应用。

除了政策优势,业内人士介绍,成都相关高校院所多,同时四川还有12款已备案或已登记的大模型。“这些都为成都发展数据标注产业提供了人才和市场优势。目前,成都高新区、新津区、金牛区以及彭州市等地都在积极发展数据标注产业。”

如何为这些数据标注企业寻找更多合作机遇?当天现场发布成都市数据标注产业图谱,全景呈现成都数据标注产业发展现状。

该图谱汇聚数据采集、数据标注服务平台等12个数据标注产业细分赛道,收录成都全市100余家行业相关重点企业、机构,清晰展示成都市数据标注产业的系统布局和发展现状。“通俗地说,图谱中的企业、机构都可为人工智能制作数据‘营养餐’。”成都数据集团相关负责人介绍。

值得一提的是,在大模型及数据标注领域,图谱还收录轾崖铎锋科技、向己科技、索贝运维数码等22家成都企业。这些企业在智能驾驶、智慧金融、智能制造等领域形成了特色化标注能力。

同时,成都数据标注公共服务平台——“蓉数·智能数据标注生成管理平台”已完成一期建设,并服务成都市国家数据标注基地牧山园区多个数据标注企业,构建数据集超1T。”成都市数据集团相关负责人表示。

寻找供需“合伙人”

现场达成12亿元意向订单

“以前主要为北京的企业做数据标注,现在首批6家杭州数据企业已入驻保定。”会上,河北省保定市数据局局长张闯分享了数据标注产业从京津冀走向全国的案例。

作为7个数据标注试点基地之一,河北保定已构建“数据金库-数据产品共享工厂-数据流通交易平台”全链条服务体系,同时“杭州数商产业(保定)基地”已经正式揭牌运营。

同样,成都数据标注产业也在积极“走出去”。“成都数据标注产业不仅服务本地市场。”业内人士表示,目前,成都的高质量数据集、大量的中文语料集可为国内大模型训练提供更丰富充足的语料。

记者注意到,当天对接会汇聚了入选首批数据标注试点基地7座城市的众多企业、科研机构及地方政府,涉及交通、金融、医疗、网络安全、科学、制造、政务等重点行业领域,签约12亿元数据标注业务合作意向订单。

各地也纷纷向成都抛出合作橄榄枝。

“此前,长沙已向全国征集标注基地建设‘合伙人’71家。” 长沙市数据局党组书记、局长周娟平介绍,音视频文创产业是长沙的特色,长沙正在积极推动科技与文化融合建设,形成文旅数据集1万余TB。同时,湖南大数据交易所也已上线数据集交易专板,上架省内外数据集产品284个。“成都文旅资源丰富,希望能与成都相关机构、企业进一步合作,互通有无,协同发展。”