北大发起Open-Sora计划:旨在复现Sora模型

2024-03-03每日热点

  原标题:北大发起Open-Sora计划:旨在复现Sora模型「承认与OpenAI差距巨大只因缺资源」

  北京大学Yuangroup团队发起了一个 Open-Sora开源计划,旨在复制OpenAI(close AI)的视频生成模型sora‍。

  本项目希望通过开源社区的力量复现Sora,由北大-兔展AIGC联合实验室共同发起,当前资源有限仅搭建了基础架构,无法进行完整训练,希望通过开源社区逐步增加模块并筹集资源进行训练,当前版本离目标差距巨大,仍需持续完善和快速迭代。

  Open-Sora框架由以下组成部分组成

  1. Video VQ-VAE:这是一个压缩视频到时间和空间维度的潜在表示的组件。它可以将高分辨率视频压缩成低维度的表示,便于后续的处理和生成。

  2.Denoising Diffusion Transformer:去噪扩散变换器(Denoising Diffusion Transformer)这个组件用于从潜在表示中生成视频,通过逐步减少噪声来恢复视频的详细内容。

  3.Condition Encoder:条件编码器(Condition Encoder)支持多种条件输入,允许模型根据不同的文本描述或其他条件生成视频内容。

  Open sora 实现细节

  1.可变长宽比

  北大团队参考FIT实施了一种动态掩码策略, 以并行批量训练的同时保持灵活的长宽比。具体来说, 将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。这样便于videovae以批量编码视频, 以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。

  2.可变分辨率

  在推理过程中, 尽管目前是在固定的256x256分辨率上进行训练, 但北大团队使用位置插值可以实现可变分辨率采样。将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列

  3.可变时长

  北大团队使用VideoGPT中的Video VQ-VAE, 将视频压缩至潜在空间, 并且支持变时长生成。同时扩展空间位置插值至时空维度, 实现对变时长视频的处理

  结语

  该项目旨在创建一个简单且可扩展的存储库,以重现Sora(OpenAI,但我们更喜欢称其为“CloseAI”)。然而,北大团队的资源有限,研究人员衷心希望所有开源社区都能为这个项目做出贡献。

标签: 今日热榜

“北大发起Open-Sora计划:旨在复现Sora模型” 的相关文章

硬刚iPhone 15Pro!三星Galaxy S24 Ultra渲染图出炉:钛

硬刚iPhone 15Pro!三星Galaxy S24 Ultra渲染图出炉:钛

  快科技11月2日消息,今年钛合金成了手机行业最热门话题,iPhone 15 Pro首发搭载了钛合金中框,之后小米14 Pro也推出了钛合金的版本。   现在硬刚iPh...

3月旗舰新机大乱斗,华为荣耀OPPOvivo又要“杀疯了”?

3月旗舰新机大乱斗,华为荣耀OPPOvivo又要“杀疯了”?

  不知不觉间,2024年已经没了1/6。在前两个月市场新机频出,各家手机厂商都在疯狂内卷,尤其是旗舰机更是在影像、性能、自研芯片等方面不断发力。2月最后一天,魅族21 Pro发布成为“智...

Twitter前高管团队起诉埃隆·马斯克,索赔1.28亿美元遣散费

Twitter前高管团队起诉埃隆·马斯克,索赔1.28亿美元遣散费

  周一,一场引人注目的法律纠纷在加州联邦法院拉开帷幕。Twitter前首席执行官帕拉格·阿加瓦尔(Parag Agarwal)携手其他三名高管,共同起诉公司现任老板埃隆·马斯克(Elon...

赛力斯发布“问界M9首撞”情况说明:驾驶干预导致智驾退出造成

赛力斯发布“问界M9首撞”情况说明:驾驶干预导致智驾退出造成

  DoNews12月22日消息,赛力斯用户服务公众号21日晚对问界 M9“首撞”进行情况说明。   官方表示,车辆在发生碰撞之前处于智驾状态,行驶中因驾驶员干预介入,导...

李佳琦双十一收入超250亿话题登微博热搜榜第一,团队回应:从不公布数据

李佳琦双十一收入超250亿话题登微博热搜榜第一,团队回应:从不公布数据

  快科技11月13日消息,今日有媒体报道称,据李佳琦团队统计数据:根据李佳琦直播间的销量及售价测算,今年双十一期间,李佳琦总收入保守估计超250亿元。   随后,相关话...

iPhone 16像华为?为了让你多花钱,苹果连设计都改了

iPhone 16像华为?为了让你多花钱,苹果连设计都改了

  为了让你多花三万块,苹果设计师终于不摆烂了……   这几天科技圈最火的产品当属苹果AR头显vision Pro,其核心体验之一就是具有裸眼3D效果...