清华系多模态大模型公司刚刚融了数亿元!放话“今年达到Sora效果”

2024-03-13每日热点

  衡宇 发自 凹非寺

  量子位 | 公众号 QbitAI

  清华系多模态大模型公司,又拿钱了!

  生数科技,师出清华朱军团队,是国内最早布局多模态大模型的团队之一。

  市场消息传来,这家公司刚刚完成新一轮数亿元融资。本轮融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。

  生数方面的说法是,本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。

  此前,生数已经在文生图、文生3D模型、文生视频方面都有研究成果对外释出。

  2022年9月,生数科技创始成员就提出了基于Transformer的网络架构U-ViT,这与Sora和Stable Diffusion3背后采用的Diffusion Transformer架构DiT,在架构思路与实验路径上完全一致。

  对此,生数科技CEO唐家渝表示:

  我们积累了完整高效的工程化经验,拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验,整体上来讲,我们追赶Sora肯定比追赶GPT-4轻松很多。

  今年一定能达到Sora目前版本的效果,很难说是三个月还是半年(笑),但这件事我们的信心还是非常足的。

  2022年已提出类DiT架构U-ViT

  在扩散模型方面,生数科技团队是国内率先开启该方向研究的团队,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

  2022年9月,生数创始成员提出了基于Transformer的网络架构U-ViT时,U-ViT就在千万至数亿参数量级范围内验证了极强的可扩展性(scaling up)。

  这项工作在CVPR 2023发表,早于DiT。

  2023年3月,团队又开源了全球首个基于Diffusion Transformer架构(U-ViT)的多模态扩散大模型UniDiffuser,在参数量和训练数据规模上与Stable Diffusion直接对齐。

图片

  从架构上来看,UniDiffuser比最近公开论文的Stable Diffusion3(采用DiT架构)领先了一年。

  此外,除了单向的文生图以外,Unidiffuser支持更通用的图文任务,能够实现图生文、图文联合生成、图文改写等多种功能。

图片

  持续进行Scale up

  在统一化架构的思路下,生数科技持续进行Scale up。

  在图文模型的训练中,其模型参数量从最早开源版的1B不断扩展至3B、7B、10B及以上,使得模型在美学性、多元风格、语义理解等方面实现快速稳定的提升。

  同时在此基础上,通过拓展空间维度和时间维度,逐步实现3D生成和视频生成模型的训练。

  依托底层U-ViT架构的创新尝试,截至2023年9月,生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型(闭源版),全链路自主训练、自主研发,在图像生成、3D生成、视频生成等多项任务中位居前列。

图片

  目前的成果是,生数的3D生成,已经可实现高精度与最快10秒级的模型生成。

  此外,生数团队还推出全球首个4D动画生成、可控3D场景编辑等工作。

  而视频生成方面,也已实现短视频的编辑与生成能力,在画面美观度、连贯性方面实现了突破。

图片

  近期将重点突破长视频生成能力

  在商业化落地方面,依托于MaaS(模型即服务)能力,生数科技在2B、2C端同时发力。

  一方面以API的形式向B端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。

  目前公司已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,开放模型服务,提供AIGC个性化体验、定制化内容生产等方面的能力。

  去年,面向艺术设计、游戏制作、影视动画、社交娱乐等创意领域,生数科技上线了两款工具产品:

  视觉创意设计平台PixWeaver

  3D资产创建工具VoxCraft

  而学术层面上,团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇,其中提出的免训练推理算法Analytic-DPM、DPM-Solver等突破性成果,获得ICLR杰出论文奖,并被OpenAI、苹果、Stability.ai等机构采用,并被DALL·E 2、Stable Diffusion等项目采用。

  那么,接下来的路是什么?

  谈到对未来的规划,生数科技始终坚持“原生多模态”方向。

  一边,是对产品端持续迭代;

  另一边,则是在基础模型层面持续优化,主要是提升语义理解、可控性、美观度方面的生成效果。

  其实,Sora出现前,生数内部主要聚焦于短视频,但现在公司会投入更多资源在长视频上,架构、数据使用调优方面,团队已经做过不少探索,也踩过许多坑(很多现在都已经解决了)。

  但OpenAI砸大钱捧出一个Sora,验证了这条路的正确性,也打消了团队的许多顾虑,“目前的视频生成长度在4-5秒左右,我们近期将重点突破长视频生成能力……尤其长视频画面的连贯性,我们还在做一系列攻克工作”。

标签: 今日热榜

“清华系多模态大模型公司刚刚融了数亿元!放话“今年达到Sora效果”” 的相关文章

拼多多Temu日本用户每月增长220万人,1月用户数已超1500万

拼多多Temu日本用户每月增长220万人,1月用户数已超1500万

  IT之家 2 月 26 日消息 拼多多跨境电商平台 Temu 已于 2023 年 7 月 1 日在日本正式上线,一经亮相便迅速流行起来。   日经新闻报道称,自 20...

小米之家何时能看到小米汽车?官方回应

小米之家何时能看到小米汽车?官方回应

  快科技1月8日消息,小米汽车SU7问世后,惊艳的设计和强悍的性能,让不少小伙伴跃跃欲试。   据了解,小米之家未来要承担小米汽车销售和服务任务,就像问界汽车摆在华为线...

华为引望同日成立3家子公司:涉及智能车载设备制造

华为引望同日成立3家子公司:涉及智能车载设备制造

  快科技3月15日消息,据媒体报道,华为全资子公司深圳引望智能技术有限公司在14日成立了3家子公司,法定代表人均为郑丽英。   据悉,这3家公司为苏州引望智能技术有限公...

和高通合作破裂后,铱星公司推出“星尘”卫星通信项目:计划2026年商业运营

和高通合作破裂后,铱星公司推出“星尘”卫星通信项目:计划2026年商业运营

  IT之家 1 月 12 日消息,卫星服务提供商铱星公司(Iridium)在和高通公司合作破裂后,决定展开新的尝试,推出了“星尘项目”(Project Stardust),为智能手机、笔...

三星推出新款中低价智能手机,提升Exynos AP占有率

三星推出新款中低价智能手机,提升Exynos AP占有率

  集微网消息,三星电子推出新的中低端智能手机型号Galaxy A35和Galaxy A55,其目标是夺回全球智能手机市场的第一大市场份额,并提高其内部应用处理器(AP...

冲刺1nm制程,日本Rapidus、东京大学与法国研究机构合作开发尖端半导体

冲刺1nm制程,日本Rapidus、东京大学与法国研究机构合作开发尖端半导体

  IT之家 11 月 17 日消息,据《日本经济新闻》当地时间今日凌晨报道冲刺1nm制程,日本Rapidus、东,日本芯片制造商 Rapidus、东京大学将与法国半导体研究机构 Leti...