川观智库研究员 徐也晴
2024年被业界称为具身智能发展的元年。近日,36氪研究院发布的《2024年具身智能产业发展研究报告》(以下简称《研究报告》)显示,预计未来五年,具身智能的市场规模将持续增长,有望在2026年突破万亿元规模。
目前,具身智能还没有一个严格的官方定义。根据中国计算机学会的专家解释,具身智能是一种基于物理身体进行感知和行动的智能系统,它可以通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
围绕上述概念,《研究报告》提到具身智能包括四大核心要素,即本体、智能体、数据和学习进化框架。本体是具身智能的物理基础,它可以是人形机器人、四足机器人、无人车、无人机等多种形态;智能体负责感知、理解、决策和控制等核心工作,其技术实现通常基于深度学习、强化学习等先进技术;数据是智能体进行感知、理解和决策的基础;学习进化框架则是具身智能实现持续进步和适应性的关键。
其中,数据对具身智能的能力提升和应用探索至关重要。中国信息通信研究院日前发布的《具身智能发展报告(2024年)》(以下简称《发展报告》)显示,在能力上,高质量的多模态数据驱动具身智能感知、决策及行动控制能力快速提升;在应用探索上,数据是具身智能快速适应新环境和任务的关键。
目前来看,缺乏量大质优的数据是具身智能实现能力突破的瓶颈之一。和训练图文大模型类似,具身智能同样需要高质量数据集。不同的是,前者可以在互联网中直接获取文字、图片等数据,但具身智能则需要大量“操作数据”。对此,北京具身智能机器人创新中心总经理熊友军曾解释,具身智能更多的是跟物理世界的交互,比如安装、装配、搬运等涉及大量的操作,需要很多行为上的数据,但这些数据是稀缺的。有观点认为,海量、优质的数据争夺已经成为企业间的无声战场。
用于训练具身智能的数据从何而来?《发展报告》提到,采集方式主要分为仿真数据和真实数据。
仿真数据的优势在于获取快、成本低且量大,可以提高开发效率。目前仿真数据已经足够支撑具身智能完成跑步、跳跃等简单的运动任务。但由于越逼真的环境需要越高性能的GPU显卡和大量的计算资源支持,考虑到投入产出比,目前仿真数据的质量并不高,因此还与现实世界存在不小的差距。
《发展报告》认为,短期来看,仿真数据更多用于解决简单的任务,助力具身智能实现“0”到“1”的突破。从长期来看,真实数据仍是推动具身智能实现深度应用的关键。
目前,全国已有多家企业、科研机构等着手建设高质量具身智能数据集。据了解,北京具身智能机器人创新中心于今年4月正式启动了具身智能数据集与数据应用平台建设。不久前,鹏城实验室多智能体与具身智能研究所联合多所高校发布并开源具身大规模数据集ARIO,该数据集包含2D、3D、文本、触觉、声音 等5种模态的感知数据,丰富度极高。
【未经授权,严禁转载!联系电话028-86968276】