扫码查看

语料若水，泽被万业！四川省情语料库“若水”正式上线

川观新闻 2024-10-10 12:49

川观新闻 | 记者蒋京洲肖雨杨

2024-10-10 12:49

全文播报

四川

进入频道

川观新闻记者蒋京洲董晓尚摄影肖雨杨

10月10日，四川日报报业集团在全国省级党报国际传播业务研讨会暨2024新型主流媒体建设天府年会上宣布，由该集团自主研发、多家省级部门、高校共同建设的四川省情语料库“若水”正式上线。

因何“若水”？据介绍，雅砻江、金沙江合流之段，古称若水，滋养蜀地、泽被万物。语料库取“若水”之名，则是汇聚各行各业的数据，以其为基础进行智能化开发，为媒体领域大模型相关应用及智库服务提供强力支撑、为各类大模型提供安全语料支撑、知识增强服务、助力各类人工智能应用实现主流价值观对齐。

“若水”以四川日报报业集团在国家网信办备案通过的智媒大模型为底座，对四川日报自有数据以及拟整合的省政府网站、省统计局、省地方志办等单位数据进行归一化处理、数据分析、标注并形成相关高质量数据集及数据应用。截至目前，已统计的数据文字约200亿字，各类图片约1180万张，视频约20万条。

活动现场

如何“若水”？通过对大量四川省情语料的深度学习，“若水”已学习了许多与四川有关的知识，可为用户了解四川、研究四川提供帮助。目前，“若水”已支持通过自然语言与大模型进行交互问答。例如，记者输入问题“川剧有哪些代表曲目？”，语料库随即响应，返回了“《攀枝花传奇》《岁岁重阳》《金银坡》《桃村新歌》《燕儿窝之夜》”等数据。其依据主要来自投入训练的《四川省志·川剧志》中的相关记载。

据开发人员介绍，四川省情语料库“若水”系统经过近两年的技术准备和技术攻关，目前已经具备自然语言处理、知识图谱构建、智能问答等模块功能。在数据处理方面，充分发挥了大模型的优势，有效减少样本人工标注工作量，提升了系统的运行效率和通用能力。同时通过专业编辑人员的人工校准，对PDF的处理、表格的处理和数字的精准性都做了针对性的攻关，极大提升了语料处理的准确性。

根据开发计划，四川省情语料库“若水”预计在本月底完成川观新闻2017年以来的历史数据清洗和训练，今年11月内完成已整合机构的大样本数据训练工作，形成约4亿条高质量语料。预计在两年内形成300亿字左右的本土高质量数据集，形成20万条左右的标注样本库，形成多个行业的知识图谱。

在应用方面，四川省情语料库“若水”已在媒体生产、产品开发、生态建设三个方面做出规划，即介入媒体产品的生产过程，提升智媒大模型的能力和水平；与机构联合开发产品，丰富服务群众的应用场景；积极加入天府融媒联合体和四川省人工智能的生态建设，为四川人工智能应用提供高质量的数据支撑服务。

【未经授权，严禁转载！联系电话028-86968276】

打开川观新闻，阅读全文

精彩评论 4

川观网友6iopl7 2024-10-10

15

上善若水，语料库汇聚数据如江河，滋养媒体智慧；同时，它也象征着以最高尚的品德服务社会，助力人工智能与主流价值观相融，共创媒体新未来。恭喜“若水”问世，期待其引领智能媒体新风尚！
章怀勇 2024-10-10

11

挺好的！
川观网友128449a 2024-10-10

0

终于看懂了“若水”的含义！对于四川情况的了解“若水”是专业的，估计比百度更好用，这样惠民的举措确实是善举，给老百姓提供了太多方便。感谢川观！期待“若水”的上线！
川观网友803329 2024-10-10

0

主打一个“雅” 力求一个“实”

查看更多评论

我要评论

关于我们 \| 广告业务 \| 联系我们
四川日报社版权所有未经书面授权不得复制或建立镜像 Copyright ©2011-2019 SICHUAN DAILY All rights reserved. 四川日报报业集团四川日报网蜀ICP备12028253号-2
互联网新闻信息服务许可证：51120170001
川观新闻跟帖评论自律管理承诺书

语料若水，泽被万业！四川省情语料库“若水”正式上线

精彩评论 4

相关专题

精彩评论

小观推荐

关注我们