Pika创始人回应OpenAI推出Sora 比起数据,技术才是底气
原标题:Sora发布后,Pika创始人独家回应钛媒体:很振奋,我们将直接冲
OpenAI刚刚推出的Sora像是一颗炸弹,再一次引爆全球。
作为AI视频模型,Sora可以根据文本指令创建现实且富有想象力的场景,能够生成具有多个角色、特定类型的运动,以及主体和背景的准确细节的复杂场景的高清视频,并且时长可以达到一分钟。
Sora对语言的理解也达到了一个新的层级,使其能够准确地理解提示词,并生成表达充满活力的情感的视频。它建立在过去对DALL·E和GPT模型的综合研究之上,提出了一种新的模型可能。它不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。
重要的是,Sora是一个diffusion transformer,而transformers已经在语言建模、计算机视觉和图像生成等各大领域已经表现出了杰出的扩展特性。
作为一种扩散模型(diffusion models),Sora除了能够根据文本指令生成视频之外,还能够获取现有的静态图像并从中生成视频,准确地动画图像的内容并关注小细节。Sora还可以获取现有视频并对其进行扩展或填充缺失的画面。
Sora从大型语言模型中获得灵感,这些模型通过互联网规模数据的训练来获得通用能力。(截图来自OpenAI发布的Sora技术研究报告:Video generation models as world simulators)
OpenAI发布的技术报告认为,Sora的研究结果表明,扩展视频生成模型是构建物理世界通用模拟器一条极具前景的途径。它使人工智能理解和模拟运动中的物理世界,迈向了一个新的高度。