可让照片人物“开口说话”,阿里巴巴研究团队推出AI框架“EMO”

2024-03-01每日热点

  IT之家 3 月 1 日消息,阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频,支持中英韩等语言。

  

可让照片人物“开口说话”,阿里巴巴研究团队推出AI框架“EMO”

  据悉,EMO 基于英伟达的 Audio2Video 扩散模型打造,号称使用了超过 250 小时的专业视频进行训练,从而得到了相关 AI 框架。

  IT之家注意到,研究团队分享了几段由 EMO 框架生成的 DEMO 演示片段,并在 ArXiv 上发布了模型的工作原理,感兴趣的小伙伴也可以访问 GitHub 查看项目。

  

图源

  

图源 研究人员发布的 DEMO 片段

  据介绍,该框架工作过程分为两个主要阶段,研究人员首先利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征,之后利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频,该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。

  研究人员援引一系列实验结果,声称 EMO 不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,号称“显著优于目前的 DreamTalk、Wav2Lip、SadTalker 等竞品”。

标签: 今日热榜

“可让照片人物“开口说话”,阿里巴巴研究团队推出AI框架“EMO”” 的相关文章

巴菲特再次减持比亚迪 持股比例降至8%以下

巴菲特再次减持比亚迪 持股比例降至8%以下

  伯克希尔·哈撒韦上周以245.86港元均价出售比亚迪H股82万股,交易完成后,巴菲特还持有8761万股比亚迪H股。   巴菲特再次减持比亚迪!   ...

跨海“飞行出租车”来了!单座票约300元 2026年开启载人飞行

跨海“飞行出租车”来了!单座票约300元 2026年开启载人飞行

  快科技3月9日消息,近日,电动垂直起降航空器(eVTOL)“盛世龙”从广东深圳蛇口邮轮母港起飞,经过约20分钟的飞行,降落在珠海九洲港码头。   这是全球首条跨海跨城...

特斯拉国产Model Y将于4月1日调价 涨幅5000元

特斯拉国产Model Y将于4月1日调价 涨幅5000元

  财联社3月20日电,记者从特斯拉中国内部获悉,特斯拉即将在4月1日官方涨价,Model Y车型售价调高5000元人民币;同时,现行的8000元官方现车保险补贴政策、最高10000元的车...

药王变迁史:寻找下一个GLP-1

药王变迁史:寻找下一个GLP-1

  本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。   资本市场一片死寂中,GLP-1减肥神药是为数不多的亮点。   作为一个典型案例...

荣耀发布Magic6 Pro:搭载第三代骁龙8芯片,AI性能提升98%

荣耀发布Magic6 Pro:搭载第三代骁龙8芯片,AI性能提升98%

  凤凰网科技讯(作者/杨睿琪)2月25日,荣耀在2024 MWC世界移动通信大会上正式发布了荣耀Magic6 Pro,该机搭载了第三代骁龙8旗舰芯片,带来了30%的CPU性能提升和25%...

事关小米汽车定价,卢伟冰最新回应

事关小米汽车定价,卢伟冰最新回应

  据证券时报e公司,3月19日,小米集团(HK1810,股价14.86港元,市值3707.3亿港元)总裁卢伟冰回应小米汽车进展时表示,小米SU7是一辆C级高性能生态科技轿车,性能、配置和...