川观智库研究员 徐也晴

日前,美国开放人工智能研究中心(OpenAI)正式发布新一代视频生成模型Sora 2,并且同步上线AI视频社交应用软件“Sora”。有报道称,该应用软件在推出的前7天内获得了62.7万次iOS下载,超越ChatGPT同期表现。不少业内人士认为,AI视频迎来了“GPT3.5时刻”。

OpenAI首席执行官萨姆·奥尔特曼表示,Sora不仅是视频生成工具,更是构建“世界模型”(World Models)以推进AGI、并帮助社会适应AI发展的战略工具。

近年来,业内对于“世界模型”的关注度越来越高,中国信息通信研究院(简称“中国信通院”)发布“2025人工智能产业十大关键词”中,“世界模型”赫然在列。但其定义仍存在争议,不同领域的研究者对其范围和边界的理解不同。近日,咨询机构弗若斯特沙利文发布的《2025年中国世界模型发展白皮书》里也给该类模型下了定义。白皮书认为,“世界模型”是理解现实世界动态(包括其物理和空间属性)的生成式AI模型。它可以借助文本、图像、视频和运动等输入数据来生成视频内容,实现对现实环境物理属性的理解并通过生成环境及动作,从而模拟、指导及实施决策。

目前,这类模型已在自动驾驶、机器人技术、数字孪生等前沿领域展现出巨大应用潜力。其中,“世界模型”在自动驾驶场景中的成熟度最高。

当前,超过80%自动驾驶算法使用“世界模型”进行辅助训练,多家主流厂商已将世界模型视为下一代智能驾驶架构的核心。白皮书指出,随着时间推移,“世界模型”将成为突破L4级自动驾驶(如Robotaxi等)规模化部署瓶颈的加速器,是构成自动驾驶智能体走向类人认知与判断模式的关键基础。此外,“世界模型”更能够降本增效。白皮书提到,“世界模型”能够自动生成自带标注的图像与视频数据,包括极端或罕见场景,避免昂贵的真实数据采集成本。同时,“世界模型”可在无需大量人工设计的情况下,生成多模态、跨时序一致的场景,显著降低人工建模与标签标注的投入。弗若斯特沙利文预计,未来1-2年内,“世界模型”的成熟将引领自动驾驶迎来真正的爆发。

中国信通院人工智能研究所所长魏凯此前表示,“世界模型”的技术路线还处于百花齐放的探索中,下一步发展仍面临不少挑战。一方面是技术路线不清晰,目前“世界模型”的实现方法包括生成式模型、强化学习、多模态融合等,不同技术路径的侧重点和适用场景不同;另一方面是应用范围局限,当前“世界模型”只在自动驾驶领域有一定规模的应用,其他领域仍未实现大规模应用。未来,随着技术层面的突破,其应用将从封闭场景向开放系统延伸,最终成为AI通向AGI的关键基石。