
川观智库研究员 黄爱林
2025年,“具身智能”首次写入《政府工作报告》并被列入国家未来产业重点培育清单。这项赋予机器人“身体”与“大脑”的技术,正站在从实验室走向产业化的关键路口。中国信息通信研究院和清华大学电子工程系最新发布的《具身智能发展报告(2025年)》(下简称“报告”)显示,当前,产业虽呈现“融合”“多元”“繁荣”的发展态势,但从技术突破到真正“进厂入户”,仍需跨越多重门槛。
技术路径尚未收敛。当前,具身智能技术路径主要为四条:传统的模块化分层、以大语言模型(LLM)和视觉语言模型(VLM)为核心的分层大模型、端到端的视觉语言动作模型(VLA)、能够预测物理世界规律的世界模型,但业界尚未形成统一技术标准。其中,VLA模型因能融合视觉、语言和动作指令,让机器人“看懂”环境并直接执行动作,成为2025年最热门的研发方向——2025年谷歌学术相关表论文达1700篇,不到一年时间激增近4倍。
核心掣肘是"数据荒"。与 ChatGPT 训练依赖互联网文本数据不同,机器人需要与真实物理世界交互产生的“真机数据”。目前,行业普遍认为,实现物理智能涌现至少需要百万甚至千万小时高质量真实行为互动数据,但真机数据采集成本高昂、效率低下,而仿真合成数据又难以弥合“虚拟与现实”的鸿沟。如何以可控成本获取高质量数据,成为摆在所有从业者面前的首要难题。
落地应用处于“能用不好用”的阶段。一方面,模型泛化能力有限,面对训练数据分布外的陌生物体或复杂环境,成功率会大幅下降;长程任务执行能力不足,谷歌研究显示机器人“整理垃圾”类长程任务的成功率仅20%—40%。另一方面,成本与安全构成商业化拦路虎:一台具备实用功能的全尺寸人形机器人单价动辄数十万元,后期养护和维修费用不菲,企业用不起;安全规范和标准滞后,企业不敢用。
报告研判,具身智能未来将呈现三大趋势:技术架构上,将从“功能模块堆叠”迈向“多模态认知融合”,实现感知、决策、认知、行动的全链路贯通;应用场景上,将从实验室“演示”走向工业制造、物流仓储、医疗康养等场景的“实用”,形成“突破一批、量产一批、普及一批”的递进格局;安全治理上,将从被动合规转向前瞻性的“伦理协同框架”,建立覆盖技术研发、产品认证、场景部署的全生命周期管理体系。
【未经授权,严禁转载!联系电话028-86968276】
