近来你肯定听过一个词,那就是Token。如今这个词有了中文名字了,“词元”。

起中文名这事为什么这么受关注呢?因为在AI时代,“词元”太重要了。词元,通俗来说就是AI世界的“话费流量”,是大模型处理文本的基础计量单元,也是计费的基本单位。其连接的是数据和电力,说一句AI时代,词元(Token)为王,并不夸张。应用程序开发接口(API)调用的词元量越高,说明模型越受市场认可,越广泛得到应用。

目前,在全球据最大的大模型应用程序开发接口聚合平台上,中国AI大模型调用词元(Token)量连续霸榜。正如“千瓦时”定义了电力交易,“比特”奠定了信息产业,“词元”的确立为AI商业模式的量化提供了中文世界的标准尺度。这不仅是翻译问题,更意味着中国在AI产业的基础设施层面,拥有了与自身市场规模相匹配的定义能力。

命名的背后,是实力的提升。回望中国科技的发展历程——跟跑阶段,技术靠进口,名称靠翻译,技术自主性相对有限;并跑阶段,技术引进与自主研发并重,“北斗”“鸿蒙”等本土名称开始涌现;再到如今,我国自主创新能力已经越过了某个拐点,中国技术也正在经历从“进口”到“出口”的跨越。今日“词元”这一中文名的确立,之所以如此自然而然,归根结底在于,中国人工智能技术走在前列,赢得了世界尊重。

当然,真正的“领跑”,不在于喊出响亮的名称。当前,更具性价比的中国模型在部分场景更占优势,但全球AI竞赛远未终局。随着智能体时代开启大规模词元消耗,未来的答案,仍在实践的路上。我们还是要把更多精力投入到技术研发、产业应用中去,不断突破不断创新,当世界用上中国标准、接受中国方案、共享中国智慧,这一领域的中文名称也会越叫越响。

相关报道:

我国日均词元调用量超140万亿

什么是词元(Token)?在AI的世界里,词元(Token)是模型处理信息的最小计量单位,无论是用户的提问,还是AI生成的一段代码,最终都要被拆解成词元(Token)来完成运算。正因如此,词元(Token)调用量成为衡量AI模型活跃度和产业价值的关键指标,词元(Token)调用量越高,意味模型被用得越多,创造的实际价值也就越大。

3月24日,在国新办举行的新闻发布会上,国家数据局局长刘烈宏表示,到今年3月,我国日均词元(Token)调用量已超过140万亿,相比2024年初的1000亿增长了1000多倍,相比2025年底的100万亿,三个月时间又增长了40%多。

“日均词元调用量的大量增加,充分表明中国的人工智能发展进入了快速增长阶段。”刘烈宏表示,人工智能应用场景在不断深化,从能对话到能决策执行的智能体,中国人工智能产业的竞争力在显著增强,现在备受关注的词元(Token)出海,就是产业竞争力增强的一个标志。

据刘烈宏介绍,在各方共同努力下,我国高质量数据集的建设工作取得了阶段性成效,截止到2025年底,全国已建成的高质量数据集超过10万个,总体量超过890PB,这相当于中国国家图书馆数字资源总量的310倍左右。

下一步,国家数据局将持续推进数据赋能人工智能创新发展,协同各方深入实施新一轮的高质量数据集建设行动计划,以场景需求为牵引,加快推进先行先试的工作,打造技术可行、实用便捷、质量保障的AI-Ready(AI就绪度)高质量数据集,实现高质量数据集供给的量质提升。

更多消息

北京日报(ID:Beijing_Daily)记者 郭晴 评论员 晁星 美编 温辉;新华社【转载请注明来源:北京日报微信公众号】

监制:刘昊

编辑:苏越