阿里巴巴推出AtomoVideo高保真图生视频框架,兼容多种文生图模型

2024-03-07每日热点

  IT之家 3 月 7 日消息,阿里巴巴研究团队近日推出了 AtomoVideo 高保真图生视频(I2V,Image to Video)框架,旨在从静态图像生成高质量的视频内容,并与各种文生图(T2I)模型兼容。

AtomoVideo

  IT之家总结 AtomoVideo 特性如下:

  高保真度:生成的视频与输入图像在细节与风格上保持高度一致性

  运动一致性:视频动作流畅,确保时间上的一致性,不会出现突兀的跳转

  视频帧预测:通过迭代预测后续帧的方式,支持长视频序列的生成

  兼容性:与现有的多种文生图(T2I)模型兼容

  高语义可控性:能够根据用户的特定需求生成定制化的视频内容

AtomoVideo

  AtomoVideo 使用预先训练好的 T2I 模型为基础,在每个空间卷积层和注意力层之后新添加一维时空卷积和注意力模块,T2I 模型参数固定,只训练添加的时空层。由于输入的串联图像信息仅由 VAE 编码,代表的是低层次信息,有助于增强视频相对于输入图像的保真度。同时,团队还以 Cross-Attention 的形式注入高级图像语义,以实现更高的图像语义可控性。

  目前,该团队只发布了 AtomoVideo 的论文及演示视频,并未提供在线体验地址。同时官方开设了 GitHub 账户,但仅用作官方网站托管,并未上传任何相关代码。

标签: 今日热榜

“阿里巴巴推出AtomoVideo高保真图生视频框架,兼容多种文生图模型” 的相关文章

都快2024年了,做好手机信号为什么还是这么难?华为灵犀给出新解法

都快2024年了,做好手机信号为什么还是这么难?华为灵犀给出新解法

  作者 | 云鹏   编辑 | 漠影   近来AI赛道的火热,尤其是AI大模型在智能手机领域的应用,让大家对手机的智能化有了更高关...

虎牙发布2023年Q3财报:营收16.5亿元,调整后净利1.03亿元

虎牙发布2023年Q3财报:营收16.5亿元,调整后净利1.03亿元

  凤凰网科技讯 11月14日,虎牙公司(NYSE:HUYA)公布了2023年第三季度财报。财报显示,2023年第三季度,虎牙公司总收入为16.5亿元,同比下滑30.7%;在非美国通用会计...

Nothing Phone(2a)渲染图首次曝光!或2月27日上市

Nothing Phone(2a)渲染图首次曝光!或2月27日上市

  【手机中国新闻】Nothing预计本月晚些时候将在巴塞罗那举行的MWC 2024上推出其第三款智能手机。该设备将是Nothing Phone (2a),并且该手机已确认很快将在印度推...

最强AI芯片发布,4万亿个晶体管,90万个核,125 PetaFLOPS算力

最强AI芯片发布,4万亿个晶体管,90万个核,125 PetaFLOPS算力

  今天,芯片初创公司Cerebras Systems推出了全新的Wafer Scale Engine 3,并将其现有的最快 AI 芯片世界纪录加倍。   据介绍,在相同...

Bandook变种木马曝光:针对Win10、Win11设备,可窃取敏感信息

Bandook变种木马曝光:针对Win10、Win11设备,可窃取敏感信息

  IT之家 1 月 6 日消息,安全公司 Fortinet FortiGuard Labs 近日发布报告,发现了名为 Bandook 的远程访问变种木马,主要针对 Windows 设备。...

蜂巢能源泰国电池工厂开启批量交付

蜂巢能源泰国电池工厂开启批量交付

  IT之家 2 月 28 日消息,蜂巢能源今日在泰国举办投产仪式,宣布蜂巢能源泰国工厂即日正式投产,产品开始批量交付,搭载长城和合众旗下多款新能源车型。   蜂巢能源表...