2月5日,可灵AI正式全球上线3.0系列模型,面向黑金会员开放,即将全量发布。此次推出的可灵视频3.0、可灵视频3.0 Omni、可灵图片3.0及可灵图片3.0 Omni模型,覆盖从图片生成、视频生成到编辑后期的全流程链路,标志着AI深度融入影视与创意内容生产核心,可灵AI由此进入3.0阶段。

All-in-One架构:多模态一体化重塑创作流程

可灵3.0系列基于All-in-One产品理念构建,形成多模态输入输出高度统一的视频模型体系。该体系并非功能简单堆叠,而是通过统一架构,将影像创作中的理解、生成与编辑整合为连续闭环流程,首次实现在单一模型内完成创作全链路。

在这一体系下,创作者可以混合使用文字、图片、声音或视频作为输入,直接获得专业影像级输出,跳过多工具、多步骤的传统拆解流程。

针对行业长期存在的一致性难题,可灵3.0实现了突破。通过整合视频主体上传、音色绑定及全球首创的“图生视频+主体参考”等技术,模型能够确保人物形象、动作、声音在复杂镜头中保持稳定,文字与标识清晰可辨,即便在多语言场景下,视觉风格与角色特征也高度统一。

在叙事层面,模型支持最长15秒连续生成,并引入智能分镜与自定义镜头控制,使创作者能直接组织镜头节奏与叙事结构,避免碎片化拼接,实现情绪递进与画面张力的自然传达。

音画能力亦全面提升至影视标准。视频模型支持原生音画同步生成,覆盖多语种及多种地方口音,人物口型、情绪与表演更为自然。图片模型则支持4K超清输出,并新增分镜图与系列组图功能,让静态画面也具备完整叙事能力。

从单点生成到系统化调度,可灵3.0不仅是一次模型升级,更是创作方式的变革。它将以往需多人协作、多轮调整的导演级表达,压缩至更直接、可控的流程中,让更多创作者能以接近专业水准完成影像表达。

可灵视频3.0:电影级叙事与精准控制

全新的智能分镜系统可深度解读剧本意图,自动调度机位与景别,一键生成包括“正反打”对话、复杂转场在内的分镜,大幅降低后期调整成本。

通过“图生视频+主体参考”技术,创作者可对画面特定元素进行二次锚定,确保主角、道具等在镜头运动中始终保持稳定,有效解决“主体崩坏”痛点。模型同时支持超长连续生成及多语言、多方言的音画同步,使AI成为能精准执行导演意图的智能伙伴。

可灵视频3.0 Omni:强化一致性与素材复用

Omni版本进一步提升了角色一致性与指令响应敏锐度。创作者上传参考素材后,模型可原生提取并绑定特定主体的视觉特征与音色。基于特征解耦技术,角色、道具等元素能在不同场景中自由复用,始终保持同一张脸、同一种声音。

该版本在减少画面崩坏、增强灵动感的同时,攻克了文字变形等难题,结合灵活的分镜控制,使生成内容达到接近“直接交付”的专业影视标准。

可灵图片3.0:静态画面的叙事升级

图片3.0系列专注于增强静态画面的叙事能力。模型能深度解构提示词中的视听元素,精准把控构图与视角逻辑,尤其适配影视分镜、场景设定等专业需求。

新版本支持2K/4K超高清直出,新增的系列组图功能可确保组图间风格、光影与细节的高度统一,满足专业视觉物料对精度与一致性的严格要求。

从工具到协作者:AI完成三次关键跃迁

可灵AI 3.0实现了从“可用”到“可控”再到“专业调度”的三次跃迁。自2024年6月发布全球首个面向用户的DiT视频生成模型,推动行业进入“可用时代”;2.0阶段实现了从“可用”到“好用”的进化。

如今,基于All-in-One理念的3.0系列模型,进一步深化了多模态视觉语言交互,完成了从“基础生成”到“专业调度”的系统性跨越。通过智能分镜、主体参考、音画同步等核心能力,模型不仅能理解创作意图,更能对镜头节奏、角色关系与视听结构进行系统级调度。

在影视广告、游戏虚拟制作等领域,这些能力将大幅加速创意验证与数字资产构建。数据显示,截至2025年12月,可灵AI已拥有超6000万创作者,生成视频超6亿个,服务企业用户超3万,年化收入运行率达2.4亿美元。

可灵3.0的发布标志着AI从一个生成工具,转变为能理解意图、执行分镜的创作协作者,一个属于每个人的导演时代正在到来。

推广