近日举办的“2026中国信通院深度观察报告会”上,中国信息通信研究院副总工程师许志远表示,当前具身智能已经取得认知智能与物理智能的双线突破,但模型路线、数据范式以及最佳机器人形态仍未定型,大规模落地仍处于早期阶段,其未来方向仍在持续竞争与快速演化中。
许志远介绍,一方面,机器人的“认知智能”实现明显跃升(即“大脑”能力),大模型使机器人能够完成复杂任务,具备“可感知、可思考、可交互”的智能特征。另一方面,“物理智能”加速突破。基于强化学习,人形机器人在复杂地形行走、高难度舞蹈等动态任务上表现显著提升,基于模仿学习与大模型范式,上肢操作能力快速增强,已能执行切黄瓜、倒水、叠衣服等精细操作。
“机器人的真机数据虽然质量最高,但人工采集的成本极高,高质量样本更是稀缺,远远无法满足模型的训练需求。因此,业界开始越来越重视合成数据和视频数据的利用。”许志远说。
具体而言,业界开始采用混合数据训练模式:先利用合成数据或视频数据进行模型预训练,再用真机数据进行微调。今年以来,使用人类第一视角拍摄的视频数据成为破解数据瓶颈的一类重要方案。具体做法是让操作员佩戴头戴式摄像设备,在不影响日常工作的前提下记录其操作过程,为模型训练提供高质量的人类示范数据。
目前,利用大模型提升机器人的泛化能力已成为业界共识,但如何有效地将大模型应用于机器人系统,仍存在多条技术路径,行业也在持续探索中。
第一条路径是采用大语言模型(LLM)对人类指令进行语义理解与任务分解,这是赋予机器人高层智能的关键能力。第二条路径是在LLM的基础上引入视觉,使模型具备语言与视觉跨模态融合能力,通过视觉语言模型(VLM)进行机器人控制。借助视觉信息,模型不仅能分析环境的空间关系和物体属性,也能更好支撑高层任务规划。
第三条路径是在VLM的基础上进一步加入动作生成能力,形成视觉—语言—动作模型(VLA)。这类模型以视觉图像和语言指令为输入,直接输出机器人控制指令。
展望未来,在VLA的基础上引入世界模型,借助其对物理世界的理解、预测与推演能力,有望成为进一步提升机器人大模型能力的重要发展路径。
【未经授权,严禁转载!联系电话028-86968276】
