北京老旧机动车解体中心北京老旧机动车解体中心

中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大(dà)学正式发布中国首个长时长、高一致性、高(gāo)动态性视频大模型——Vidu。该模型采(cǎi)用(yòng)团队原创的Diffusion与Transformer融 合的架(jià)构U-ViT,支持一键生成(chéng)长(zhǎng)达(dá)16秒、分辨率(lǜ)高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力(lì),具备多镜头生成、时空一(yī)致性高(gāo)等特 点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖(jiān)水平,并在(zài)加(jiā)速迭代提升中。

与Sora一致,Vidu能够根据提供的文本描述直接生(shēng)成长达16秒的(de)高质量(liàng)视频(pín)。除了(le)在时长方(fāng)面的突破外(wài),Vidu在(zài)视频效果方面实(shí)现(xiàn)显著提升,主(zhǔ)要体现在几个方面:第一、模拟真实物理世(shì)界:能(néng)够生(shēng)成细节复杂的场景,且符合真(zhēn)实(shí)的物(wù)理规律,例如合理的光(guāng)影效果、细腻的人物表情等;第(dì)二、具有丰富(fù)想象力:能够生成真实世界不存在(zài)的虚构画面,创造出(chū)具有深度和复杂性的(de)超(chāo)现(xiàn)实主义内容;第三、多镜头语言:能够生成复杂(zá)的动态镜头(tóu),不(bù)再局限于简单的(de)推(tuī)、拉、移等固定(dìng)镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不(bù)同镜头的切(qiè)换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言 ;第四、时空一致性高:在16秒的时长上(shàng)保持连(lián)贯流畅,随着镜(jìng)头(tóu)的移动,人物和场景在时间、空间中能(néng)够保持一致;第五(wǔ)、理解中(zhōng)国元素:能够生成特有的中国元素,例如熊猫(māo)、龙等。

值得一(yī)提的(de)是,短片中的片(piàn)段都是从头到尾连续(xù)生成,没有明显的插帧现象,从这种“一镜到底”的(de)表现能够推(tuī)测出,Vidu采用的是“一(yī)步到位”的生成神舟十八号瞄准4月25日20时59分发射(chéng)方式,与Sora一样,文本到视 频(pín)的转换是直接且连续的,在底层(céng)算法实现上是基于单一模型完全端到(dào)端生成,不涉及中间的插帧和其他多步骤(zhòu)的处理(lǐ)。 

Vidu的快速(sù)突破源自于团队在贝叶斯机器(qì)学习和多模态(tài)大模型的长期积累和多项原 创性成果。其(qí)核心技术U-ViT架构由(yóu)团(tuán)队(duì)于2022年9月提出,早于Sora采用(yòng)的DiT架构,是全(quán)球首个Diffusion与Transformer融合的架(jià)构(gòu),完全由团(tuán)队自主研发。

2023年3月,团队(duì)开源全球首个基于(yú)U-ViT架构的多模态扩散大模型UniDiffuser,在全球(qiú)范围内 率先完成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser是(shì)在大规模图文数据(jù)集LAION-5B上训练出的近10亿参数量模型,支持图文模态间的任意生成和 转(zhuǎn)换。在架构上,UniDiffuser比同样DiT架构的Stable Diffusion 3领先(xiān)了一年。

自今年2月Sora发 布(bù)推出后,团(tuán)队基于对U-ViT架构的深(shēn)入理解以及长期积累的工程与(yǔ)数据经验,在(zài)短短两个(gè)月(yuè)进一步突破长(zhǎng)视频表示与处理(lǐ)关键技 术,研发推出Vidu视频大模(mó)型,显著提升视频(pín)的(de)连贯性(xìng)与动态性。

从图文任(rèn)务的统一到融合视频能力,作为通用视(shì)觉模型,Vidu能够支持生成(chéng)更加多样化、更长时长的视频内容,同时(shí)面向未(wèi)来,灵(líng)活(huó)架构也将能够(gòu)兼容更广(guǎng)泛的模态(tài),进一步拓展多模态通用能力的边界。

Vidu的问世,不仅是U-ViT融(róng)合架构在大(dà)规模视(shì神舟十八号瞄准4月25日20时59分发射)觉任务中的(de)又一次成功验证,也代表了(le)生数(shù)科技(jì)在多模态(tài)原生大模型领域的持(chí)续创新能(néng)力和领先性。同时生数科技(jì)表示(shì),大(dà)模型的突破是一个多维度、跨领(lǐng)域的综合性过程,需要技术与产业应用的深度(dù)融(róng)合。生数科技(jì)正式推出“Vidu大模型合作伙伴(bàn)计划”,希望产业链上下游企业 、研究机构能一(yī)起加入(rù),共(gòng)同构建合作生态。

校对 :廖胜超

未经允许不得转载:北京老旧机动车解体中心 神舟十八号瞄准4月25日20时59分发射

评论

5+2=