OpenAI为什么总是领先一个版本

2024-02-18每日热点

  作者|陶然 编辑|魏晓

  Sora视频模型的发布,几乎复刻了一年半之前GPT-3初登场时的AI圈盛况:

  突然出现,引起热议,广为震惊。

  北京时间2月16日,在没有任何消息外泄、事先预告的情况下,OpenAI在社交平台X(原推特)发帖,首次对外公布了名为Sora的文生视频AI模型。

  一句“Introducing Sora, our text-to-video model(介绍一下Sora,我们的文本转视频模型)”,切入正题之简短,比起宣发,更像是一则告知:是的,我们又掏出大的来了。

  之后,便是对Sora模型的能力介绍:Sora可以创建长达60秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力、情感的多个角色。

  还附上了演示案例的对应Prompt(提示词):美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。美丽的樱花花瓣随着雪花在风中飞舞。

  对于Sora,业界评价并不统一:

  有人100%认可,也有人120%、200%认可。

  360创始人周鸿祎发文称,Sora意味着实现通用人工智能可能从10年缩短至1年,该模型展现的不仅是视频制作的能力,还展现了大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。

  英伟达人工智能研究院首席研究科学家Jim Fan将Sora称作是视频生成领域的GPT-3时刻:Sora是一个“数据驱动的物理引擎”,一个可学习的模拟器或“世界模型”。

  高强度网上冲浪且一向心直口快的马斯克则直接打出gg human(人类输了) 。

  暂且不去深究后续影响到底是积极还是消极,能给AI、影视、社媒等一众行业同步带来颠覆性王炸、划时代之感的,又是OpenAI,总是OpenAI。

  像是一群工程师还在讨论如何进一步完善登月计划,OpenAI的团队已经从火星传回来一组自拍——他们总是领先一个版本,为什么?

  前文英伟达AI研究院科学家Jim Fan对于Sora的评价,从技术层面来看很有参考性:他将Sora定义为物理引擎和世界模型。传统意义上的视频画面是二维,而人们身处的物理世界是三维的。

  这成为了AI视频模型设计之初的理念区别:在生成视频的过程中,AI的作用到底应该是将多段视频片段拆分组合,还是应该作为一个主体,构建并记录一个虚拟的AI空间。

  OpenAI的选择是后者。

  其官网发布的Sora技术报告中,有一句话值得注意:“我们的结果表明,发展能够模拟物理世界动态的通用模拟器是一条充满希望的途径,具有前所未有的准确度和现实感。”

  做一个粗浅的理解就是,Sora不是编辑视频,而是在生成视频之前先建模一个空间,然后变成一个镜头记录这个三维立体的虚拟空间。

  立体建模能展现信息量远远多于平面图,从设计思路上OpenAI就领先了一个维度,或者说提前了一个版本。

  当然,更多的信息量意味着更庞大的数据流,在有限算力内跑出更好效果、在保证效果的前提下尽量节约算力,本质上是同一个问题:AI计算效率。

  但对于OpenAI来说,这些问题都有经验可循——从ChatGPT到GPT-4等等项目的技术积累,成为OpenAI构建Sora模型的良好地基。

  受大语言模型成功案例启发,OpenAI在探索视频模型时就在思考“如何获得类似的好处”:大模型运转期间,token(词汇单元)作为自然语言处理任务中的最小文本单位,承载着输入信息的作用,帮助模型对文本进行处理和理解。ChatGPT将代码、数学以及各种不同的自然语言一并拆分为token,再交由模型对token进行处理和理解,并能够通过学习token之间的关系来获取更多的语义信息。

  同理,在视频生成模型中,OpenAI也创造了与token对应的数据单位“Patch”(图像单元),将图形语言转化为对应格式的Patch进行计算,在保证模型扩展性的同时,大幅提升单位算力内的运算效率。

  而在模型的前端,OpenAI同样用上了自己在GPT系列模型的成果:

  和文本对话类似,训练文生视频的过程中,除了需要视频素材案例之外,同样需要大量对应的文字说明。OpenAI采用了最初在DALL·E 3中提出的“重新加标题”模式,用具备高度描述性的标题生成器为训练集中的视频素材生成文字说明。生成结果也证明了,在制作期间为素材添加额外的说明,可以提高包括准确性在内的整体视频质量。

  此外,仿照DALL·E 3的做法,OpenAI还另外使用GPT对用户输入的简短提示词进行了更便于AI理解的扩写,把用户输入的文字扩充成更长、更详尽的说明,再交由视频生成模型进行处理。

  对于OpenAI这类技术驱动型公司来说,经验和技术的积累都是加速度,有迹可循的成功经验叠加团队自身对AI概念领先理解,让OpenAI总是能踩在自己的肩膀向上,或是推着自己加速向前。

  比技术领先更可怕或者说更值得友商在意的,是这种领先往往会成为惯性,一步快步步快。指望靠加速追赶和对标与OpenAI看齐,在配套设施愈发成熟的阶段,难度恐怕只会不降反增。真正的增量,仍在顶层设计的创新之中。

  所以,与其说是AI挤占了人的创新空间,倒不如说是AI拉高了有效创新的门槛:设计AI,或者能超越AI创意的设计,才是大模型时代的有效增量。

标签: 今日热榜

“OpenAI为什么总是领先一个版本” 的相关文章

片仔癀遭投资者“砍一刀”

片仔癀遭投资者“砍一刀”

  雷达财经出品 文|肖洒 编|深海   1月31日,片仔癀开盘股价大跌,盘中一度跌停,股价创近3年来新低。该公司1月30日晚间发布的业绩快报显示,2...

荣耀赵明:期待与华为P70同台竞争 荣耀研发投入占比行业最高

荣耀赵明:期待与华为P70同台竞争 荣耀研发投入占比行业最高

  在3月18日的春季旗舰新品发布会上,荣耀正式推出了荣耀Magic6 至臻版和荣耀Magic6 RSR 保时捷设计两款旗舰新机,展示了其AI使能的全场景战略和智能终端的AI四层架构。这两...

华为Mate 60最强对手!赵明实测荣耀Magic6卫星通信:直连天通卫星

华为Mate 60最强对手!赵明实测荣耀Magic6卫星通信:直连天通卫星

  快科技1月3日消息,荣耀Magic6系列将于1月11日发布,该系列将是华为手机后,第二款支持卫星通信的国产旗舰。   今日,荣耀官方发布窦文涛与荣耀CEO赵明的对话预...

物以稀为贵!特斯拉Cybertruck身价暴涨:二手车价高达208万元

物以稀为贵!特斯拉Cybertruck身价暴涨:二手车价高达208万元

  快科技3月12日消息,据媒体报道,由于特斯拉Cybertruck的产能十分缓慢,因此倒卖Cybertruck已经成为了获得Cybertruck最快的方式。...

华为正式发布问界M9 售价46.98万元起

华为正式发布问界M9 售价46.98万元起

  财联社12月26日电,在问界M9及华为冬季全场景发布会上,华为终端BG CEO、智能汽车解决方案BU董事长余承东正式发布问界M9,增程Max版售价46.98万元,增程Ultra版售价5...

全球最大!中企承建泰国第七天然气厂脱碳双塔完成质量初检

全球最大!中企承建泰国第七天然气厂脱碳双塔完成质量初检

  快科技1月15日消息,据“国资小新”官微消息,由中国石油工程建设有限公司西南分公司自主设计的泰国第七天然气处理厂项目核心工艺处理装置——脱碳装置,在泰国玛达浦港完成质量初检,即将开始安...