原标题:高质量数据集的建设发展与创新实践

数据作为新型生产要素是驱动数字经济高质量发展的核心引擎,而这一引擎的强大马力直接取决于其“燃料”,即高质量数据集的供给水平和建设质量。夯实数据基础,释放数据价值,已成为国家层面的战略部署与行业发展的普遍共识。

近日,由中国电子信息行业联合会主办,中国电子信息行业联合会数据与治理专业委员会、北京软件和信息服务业协会承办的高质量数据集建设发展与创新实践论坛,汇聚政产学研各方智慧,邀请专家共同探讨如何破解数据供给难题,健全数据标准体系,激发数据应用活力。让我们一起来看——

“以数据标注产业为牵引的高质量数据集建设生态正不断形成。”清华大学公共管理学院教授、清华大学计算社会科学与国家治理实验室执行主任孟庆国表示,我国数据标注产业链上下游企业共有3900多家,产值达840亿元左右。截至今年3月,全国七大标注基地已形成高质量数据集335个;赋能121个国产人工智能大模型研发;引进和培育标注企业223家;标注从业人员达5.8万人;带动数据标注行业相关产值超过83亿元。

同时,也需要认识到,当前我国高质量数据集建设存在数据供给不足、数据治理能力不足、评价体系不完善及人才结构失衡等问题。为更好地应对当前问题,应着力推进数据标注及数据标注产业发展。

孟庆国围绕实施路径进行了分享:其一,以需求牵引,通过挖掘人工智能场景,释放标注需求。其二,注重因地制宜,根据产业特色,发展地方特色数据标注产业。其三,做好基础支撑,建设数据标注可信空间,保障数据要素价值化。其四,大力发展数据标注产业园,推动产业聚集发展。其五,大力培育数据标注从业队伍。其六,营造良好环境,鼓励建设标准和公共服务平台。

围绕高质量数据集的质量评估与价值衍生,北京邮电大学世纪学院副教授陈哲谈道:“高质量数据集不仅要治理得好,更要注重后续的价值挖掘,实现从数据资源到价值资产的转变。同时,高质量数据集必须做到‘治理得好+用得好+融得进+转得出’。只有满足这些要求,才能充分发挥其在经济社会发展中的作用,实现数据价值的最大化。”

聚焦数据的价值识别方法论,陈哲分享了六维价值识别模型,即对外找趋势、找矛盾、找缝隙,对内找融合、找价值、找独特。她表示,前三个维度是一条逐层深入的判断链条,找趋势要关注政府的焦虑、产业的困境及社会缺乏信心之处。找矛盾要关注识别系统的结构性失衡,观察是否存在反馈迟钝、信息断点、供需错配这三类典型矛盾,从而找到数据应用的切入点;找缝隙要注重微观洞察与数据复利性的结合,可采用“三步法”,即拆主赛道、验真需求、放大场景,进而在小场景中发现大价值,实现数据的多次复用和价值放大。只有三者相结合,高质量数据集才不会变成“静态堆放”,而是会变成真正能“生长”的资源。

为加快推进行业高质量数据集建设,在国家数据局指导下,通过“标准化”方式解决高质量数据集建设目前所面临的突出问题,全国数据标准化技术委员会秘书处积极推动高质量数据集建设指南、格式要求、分类指南、质量评测规范等标准研制工作。2025年8月,全国数据标准化技术委员会在2025年中国国际大数据产业博览会上正式发布4项高质量数据集系列技术文件。聚焦这4项文件,中国电子技术标准化研究院资深工程师张欢逐一进行了标准解读。

张欢介绍道:“围绕高质量数据集4项技术文件,全国数标委秘书处加快推进高质量数据集评测能力建设,打造了‘数据+模型’的综合评测方法,联合中国科学院计算技术研究所研制了标准化、自动化且适用性强的评测工具。综合考虑高质量数据集建设规范、流通应用、分类管理以及质量要求,高质量数据集评测需要分别对4项技术文件开展标准符合性评测,主要包括建设评测、格式评测、分类评测、质量评测等方面。”

围绕“数据+模型”的评测方法,构建了涵盖评测实施准备、数据集质量评测、基准模型验证及评测报告生成四个环节的高质量数据集评测流程。

在圆桌对话环节,雄安新区未来城市公共服务研究院院长傅建平表示,高质量数据集的建设绝非一蹴而就,而是一个“百年树人”般的长期系统性工程。基于此,他提出了“授人以鱼不如授人以渔”的核心观点。在他看来,高质量数据集建设更为关键的是培养企业和个人“捕鱼”的能力,即构建高质量数据集的供给能力与持续治理能力。

他进一步谈到,数据的价值在于应用,而非成为“花架子”。作为重要的生产要素,数据必须与人工智能等生产工具相结合,在企业实体中投入实际生产,并通过实践验证其效用。数据集的生命力在于解决问题,无法应对现实挑战的数据集,称不上是高质量的构建。

清华大学计算社会科学与国家治理实验室研究员张影强在圆桌对话中表示,从产业与商业价值的角度分析,大模型发展的三要素“模型、算力与数据”中,算力层面已较为明朗。而在基础模型方面,国产模型与国际先进水平之间的差距正在缩小。

因此,当前最关键的竞争领域已集中在数据质量上。尽管国外在数据开放与积累方面起步较早,但中国凭借国家层面的统筹推动与产业协同,有望在高质量数据体系建设中形成独特优势,这也构成了当前推动高质量数据发展的另一重要背景。

煤炭科学研究总院矿山人工智能研究院大模型所所长骆意在圆桌对话环节中分享了当前高质量数据集建设呈现出的两个显著特点:其一,数据集的关注焦点从“有无”升级为“优劣”。过去拥有数据本身就是一种优势,如今数据的质量、洁净度和适用性是新的竞争维度。

其二,合作与应用模式从“点对点”演进为“以点带面”。如今,当与大模型交互时,使用者期待的是一种能同时服务海量用户的、标准化的强大能力。这要求我们所构建的高质量数据集,必须能够支撑起一个广阔生态的通用需求,而不仅仅是满足某个单一项目的研发。

因此,当前高质量数据集的建设,本质上是一场从封闭技术研发走向开放生态积累的深刻变革。

聚焦高质量数据集建设,北京亿信华辰软件有限责任公司总经理毛大群分享了自身观点。当前,人工智能发展的关键瓶颈在于数据质量尚未真正成为推动AI进步的“高质量燃料”。他表示,数据治理是其中至关重要却常被忽视的一环。

曾几何时,数据治理工作推进困难,主要原因在于成本高、效率低、价值难以显现。为此,应转变思路,不再单向强调数据赋能AI,而是反过来将人工智能技术深度融入数据治理的流程中。通过AI驱动治理过程,实现降本增效、提升整体工作质量。据观察,引入AI技术后,治理效率预计每年可提升约30%,成本则有望降低50%以上。