川观新闻记者 段玉清
最近,国家发展改革委、国家数据局等四部门联合印发《关于促进数据标注产业高质量发展的实施意见》,提出到2027年的发展目标:数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%。
什么是数据标注?数据集与算法、算力被称为组成AI技术的三驾马车。其中,数据集相当于“燃料”,语音、文字和图片等初始数据要想成为数据集,就要通过贴标签、做记号、标颜色或划重点等方式,标注出其中目标数据的不同点、相似点或类别,以达到让人工智能学习的功能。
在成都市新津区,有这样一批人,他们从事的数据标注产业,就是让人工智能“听懂”四川方言的“功臣”。
看“投喂”:
搜集、标注10万余条语料数据,让AI更懂四川话
“简单说,数据标注就像是为人工智能列出‘讲解笔记’。我们的工作就是通过搜集四川话语音资料,给人工智能‘划重点’。”位于新津经开区的成都向己科技有限公司联合创始人傅翔回忆,几年前,公司刚创建不久,恰逢相关语音转换商进行全语种识别工作。“大家一拍即合,由我们进行四川方言的数据标注工作。”
要对四川方言进行标注,首先就是搜集大量的语言数据集。傅翔回忆:“素材的提供者多为网上或现场招募来的志愿者,年龄最小的几岁,最大的60多岁。考虑到四川方言的不同分支,志愿者均来自四川不同地域,会讲流利的四川话。”同时,他们还陆续招募50余名数据标注员对语音数据进行标注。
傅翔介绍,最早搜集工作是在录音棚进行的,搜集内容也多为日常聊天。“录音时,一旁数据标注员同步在电脑上对素材的音字、韵律等进行标注。”他们还会对录音的环境进行调整,例如,将话筒分别放置在素材提供者的2米、3米或5米距离,或将录音环境调整到户外环境,以提高数据信息的抗干扰能力。此外,为给数据集进行“脱敏”,工作人员仅保留素材提供者的籍贯、年龄、性别信息。
采集工作大概持续了三四年,共搜集了超5000小时、共10万余条的四川语言数据集。“最后相关数据集被打包交付给语音转换商,并由其‘投喂’,教会人工智能理解四川话。数据库内语料越多,人工智能对四川话的理解就更精准。”
看产业:
正打造国家级数据标注基地,实现产业成链条集聚化发展
在新津,这样的数据标注企业不止这一家。从成都地铁10号线花源站C口一出站,天府牧山数字新城展现在记者眼前。
新津区相关负责人介绍,新津区作为成都市人工智能、大数据产业协同承载地,被纳入成都数据标注产业聚集区。而天府牧山数字新城核心区就是新津数据标注产业的主要聚集地。
“目前,这里已吸引路米科技(成都)有限公司、成都芯星励飞机器人技术有限公司等企业入驻,可为AI领域提供所需的图像、视频、语音、文本等各种数据标注,逐渐实现产业成链条集聚化发展。”几个月前,在北京举办的首届“数据标注产业大会暨供需对接会”上,成都达成8项合作,来自天府牧山数字新城核心区的企业拿下其中7项。此外,成都芯星励飞机器人技术有限公司“云天书数据集”作为新津首个数据集产品入选“四川省首批人工智能高质量数据集名录”。
为何要发展数据标注产业?新津区相关负责人介绍,近年来,随着人工智能的发展,数据标注应用领域已从传统的互联网行业扩展到医疗、金融、制造等行业。例如,在医疗领域,数据标注已被广泛应用于病变识别等方面;在智能驾驶领域,对车辆、道路、行人的识别等都离不开数据标注。而数据标注产业可为人工智能创新发展提供强大动力。
产业的发展还在不断升级。几个月前,中国电信成都分公司与成都市新津区人民政府签订战略合作协议,合作内容之一便是在天府牧山数字新城共建高质量数据集生产基地。“共建国家级数据标注基地,将进一步推动数据资源的有效开发利用。这也是推动天府牧山数字新城核心区兴产聚人的重要抓手,为新津企业数字化转型提供重要机遇。”新津区数据局相关负责人坦言。
产业不断集聚,人才培养也在同步开展中。由新津区职业高级中学、新津区技工学校与新津区城市产业发展集团、成都新津数聚工坊科技有限公司共同举行的人工智能数据标注人才培训班结班。“学员主要是区内高校应届毕业生等,培训结束后,近50%的学员与企业签订就业意向书。”新津区职业高级中学相关负责人介绍,今年将继续开展相关培训,为新津区企业输送更多相关人才。
【未经授权,严禁转载!联系电话028-86968276】
