拍客作品上传 APP

下载川观新闻客户端(苹果、安卓)

下载川观新闻客户端(鸿蒙)

建议使用浏览器扫码下载

微信

关注四川日报公众号

举报
中央网信办违法和不良信息举报中心 四川省互联网不良与违法信息举报中心
川观新闻 政声 热评 思想 问政 四川 天下 鸽子花 川观号
更多
<
文化 智库 生活 视觉 拍客 体育 旅游 第四极 专题 和美 巩固脱贫成果 制造强省 绵阳科技城 天府新青年 成都新区 成都治理 四川林草 德阳政企通 廉洁四川 四川交通 四川商务 巾帼四川 成都 自贡 攀枝花 泸州 德阳 绵阳 广元 遂宁 内江 乐山 南充 宜宾 广安 达州 巴中 雅安 眉山 资阳 阿坝 甘孜 凉山
>
>

扫码查看

全量免费的EMO模型上架通义APP,外媒称之为Sora之后最受期待的大模型之一

澎湃新闻 2024-04-26 18:19 发表于四川

澎湃新闻

2024-04-26 18:19

全文播报

发表于四川
该页面为预览地址,请勿公开转发。

澎湃新闻记者 胡含嫣

又一个国产大模型应用火出圈!

两个月前,阿里巴巴通义实验室公开了一篇能够让照片唱歌说话的生成式AI模型论文,EMO(Emote Portrait Alive),在海外媒体和社交平台引起热烈反响,被一批科技圈大V轮番转发。4月25日,EMO正式上线通义APP,开放给所有用户免费使用,应用上线瞬间通义APP一度被挤爆,有用户发现自己要排队数小时。其火热程度可见一斑。

EMO是通义实验室研发的AI模型,于今年2月底公开技术论文,被外媒称之为Sora之后最热门的AI模型之一,在开源社区Github上已经获得了超过6700颗星标。只需要一张人物肖像照片和一段任意时长的音频,EMO就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本保持一致,实现自然的面部表情和头部姿态。

短短两个月后,通义实验室已经将EMO产品化。所有用户都可以在通义APP中打开EMO产品页面,在涵盖各类歌曲、热梗和表情包的80多个首批上线模板中任选一个,上传一张肖像照,即可让照片、绘画、“纸片人”、数字人乃至雕像开口说话唱歌,并随时分享或下载保存所生成的视频。

富有表现力的AI视频生成框架

那么,EMO如何实现如此出色的生成效果?

据介绍,与目前市面上的主流视频生成算法不同,EMO的原理是用音频驱动图片的人像,使其做出与音频内容高度匹配的口型和表情。EMO的算法框架分为两步,用ReferenceNet引导去噪,用Backbone(主干网络)主干网络去噪。

在EMO之前,Talking Head领域的工作都需针对人脸、人头或者身体部分做建模或者表征,耗时长且生成质量较低。而EMO首次提出了弱控制的设计,剔除掉针对人脸的显示表征建模,转而采用一些相对较弱的控制条件来引导Diffusion去噪过程。

这就意味着,EMO降低了人物视频的生成门槛,且大幅提升了视频的生成质量,使得这一技术在视频制作、影视创作、电商直播等领域的规模化应用成为可能。

更惊人的是,通过在海量的人物讲话视频上进行训练,EMO模型不仅能够找到音频中具体发音与人像口型的匹配关系,还能发现音频中的语气特征与人物表情的关联性,从而将音频暗含的情绪色彩反映到了人物微表情上。可以说,EMO在训练中慢慢地学习了人类表达情绪的能力,并对其进行了编码。

不过,随着EMO的横空出世,一些人开始担心,EMO模型可能会成为某些别有用心者的犯罪工具。

为防止对口型技术被滥用,阿里云方面表示,通义实验室团队在应用内预置了经过审核的音频模板,暂不开放用户在EMO中自定义音频。用户只可上传照片,且需严格遵守平台协议,使用符合规范的照片来生成视频。其次,平台会对用户生成内容进行算法和人工两道审核,确保内容安全。用户上传的照片仅用于AIGC生成,平台会严格保护用户的信息安全。

同样是出于安全方面的考量,目前,EMO暂不开放API,团队将对安全策略进行充分论证后再进行下一步工作。通义实验室也欢迎社会各界群策群力,提供更好的安全建议,以便在安全可控的前提下推动大模型技术和应用的发展。

阿里:做全民可用的大模型应用

从2022年ChatGPT的诞生,到国内的百模大战,AI大模型热潮已经持续超过一年。如今,大模型已经逐渐走进千行百业,甚至成为全民可用的应用。

今年2月,随着OpenAI放出文生视频模型Sora的展示片段,由于其高水平的演示质量和超出一分钟的生成视频时长,立刻引爆了AI视频行业。在Sora之前,已经出现了Runway、Pika、Stable Video等热门文生视频模型。

不过,Sora直到今天都没有定下面向公众开放的日期,而已经开放的Runway和Pika等模型大多需要按使用次数计费、价格不菲,抑或是需要专业的开发者知识去使用,生成视频时长也不超过16秒。

虽然通义APP上的EMO模型目前只支持有限的模板,但其已经成为全民免费可用的AI视频模型,上手简单、使用方便,还自带供用户进行分享的生态社区。另外,APP上提供的模板中包含了大量网络热梗,有利于所生成短视频的传播和分享,并展现出该模型未来和更多影视IP合作的潜力。

当下,全球AI大模型行业依然进展飞速,各大科技巨头都在积极地卷模型、卷应用。面对迭代速度越快、种类越来越丰富的大模型,时常会让用户产生一种不知从何处下手的感觉。不过,说到底,这些AI模型都是将人类思想与创意具现化的工具,而通义APP有望正在演变成一个包罗万象的工具铺,成为每位用户手中一个随叫随到的超级AI助手。

在大模型的C端入口上,阿里无疑是最激进、步伐最快的科技公司。自今年年初以来,通义APP已经上线了现象级应用“全民舞王”、超长文档解析、AI编码助手、AI会议助手等众多免费功能,成为国内功能最丰富的大模型应用。

【未经授权,严禁转载!联系电话028-86968276】

投票

打开川观新闻,阅读全文

未经授权,严禁转载!

如需转载,请私信小编,或致电:028-86968693 028-86968276

转载须在正文开头显著位置注明稿件来源及作者,违者必究

川观新闻官方网址:https://cbgc.scol.com.cn

扫描或长按关注川观新闻微信号(微信号:cbgc2014)

川观新闻二维码

精彩评论 0

查看更多评论
我要评论

去APP中热议吧

去APP查看

去APP查看全文

相关新闻
  • 大模型如何更懂“中国话”

  • 川观智库资讯|AI竞赛加速,竞争迎来算力、模型与应用三重变革

  • “中国黄金”APP,正式上线!

热新闻
天 周 月
1
四川省大学生体育协会年会在西南医科大学成功举办

00:08

2
一帧中国丨周末的早晨,允许自己慢一点(2025年12月27日)
3
长期穿破损羽绒服致呼吸衰竭?医生详解“羽绒肺”隐患
4
中央纪委国家监委公开通报七起违反中央八项规定精神典型问题
5
扩容后的八车道成南高速体验如何?记者提前试跑
6
2026年全国两会召开时间来了

02:26

7
热词里的2025:育儿补贴&爱你老己丨新闻两点论

00:22

8
C视频丨总装机容量224万千瓦!叶巴滩水电站首批机组投产
9
建议对42人追责问责 中国黄金集团内蒙古矿业有限公司较大坠落事故调查报告公布
10
泰国与柬埔寨进入停火状态丨滚动更新
1
豌豆尖花束、猴子会“轻功”,生活中温馨有趣的瞬间丨川观号加新时刻12.26
2
风光、暖意与生活小确幸,巴蜀的幸福就在冬景里丨川观号聚焦时刻(12.19-12.24)

00:12

3
C视频丨男子川西徒步因高反去世,救援人员:系23岁硕士研究生,遗体已运送下山
4
“我们的新征程”网络知识竞赛

11:08

5
省委经济工作会议在成都举行 王晓晖施小琳讲话 田向利于立军出席
6
赵波同志任甘孜州委书记
7
阿坝发布干部任前公示,更仁磋等3人拟任正县级领导职务
8
四川发布干部任前公示,涉多个厅级领导职务

04:50

9
王晓晖主持召开2025年度各市(州)党委书记和省直有关党(工)委书记抓基层党建工作述职评议会议强调:不断推动党建工作取得新的成效,为全省经济社会高质量发展提供坚强保障
10
陈书平任成都市副市长、代理市长
1
豌豆尖花束、猴子会“轻功”,生活中温馨有趣的瞬间丨川观号加新时刻12.26
2
风光、暖意与生活小确幸,巴蜀的幸福就在冬景里丨川观号聚焦时刻(12.19-12.24)

19:01

3
受权发布丨中共四川省委十二届八次全会公报
4
搭乘一列车,与全世界做生意——从第12万列中欧班列看四川向西开放丨牢记嘱托 奋力打造两高地两基地一屏障
5
何晴离世,为何引发年轻人的集体怀念?丨新闻两点论
6
演员何晴去世,享年61岁
7
体检发现幽门螺杆菌抗体阳性,到底要不要治疗?丨健康体检

39:58

8
1218,风至帆满!

00:12

9
C视频丨男子川西徒步因高反去世,救援人员:系23岁硕士研究生,遗体已运送下山
10
大湾区大学正式成立

精彩评论

小观推荐

0

关注我们

关于我们 | 广告业务 | 联系我们
四川日报社版权所有  未经书面授权 不得复制或建立镜像
Copyright ©2011-2019 SICHUAN DAILY All rights reserved.
四川日报报业集团 四川日报网  蜀ICP备12028253号-2  
互联网新闻信息服务许可证:51120170001
川观新闻跟帖评论自律管理承诺书

温馨提示

打开川观新闻客户端听全文

关闭

打开

温馨提示

是否在川观新闻客户端中打开这篇文章

取消

打开

温馨提示

还想查看更多评论请在客户端中查看

取消

打开