中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出

4月27日，在中关村论坛未来人工智能先锋论坛上，生数科技联合清华大(dà)学正式发布中国首个长时长、高一致性、高(gāo)动态性视频大模型——Vidu。该模型采(cǎi)用(yòng)团队原创的Diffusion与Transformer融合的架(jià)构U-ViT，支持一键生成(chéng)长(zhǎng)达(dá)16秒、分辨率(lǜ)高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界，还拥有丰富想象力(lì)，具备多镜头生成、时空一(yī)致性高(gāo)等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖(jiān)水平，并在(zài)加(jiā)速迭代提升中。

与Sora一致，Vidu能够根据提供的文本描述直接生(shēng)成长达16秒的(de)高质量(liàng)视频(pín)。除了(le)在时长方(fāng)面的突破外(wài)，Vidu在(zài)视频效果方面实(shí)现(xiàn)显著提升，主(zhǔ)要体现在几个方面：第一、模拟真实物理世(shì)界：能(néng)够生(shēng)成细节复杂的场景，且符合真(zhēn)实(shí)的物(wù)理规律，例如合理的光(guāng)影效果、细腻的人物表情等；第(dì)二、具有丰富(fù)想象力：能够生成真实世界不存在(zài)的虚构画面，创造出(chū)具有深度和复杂性的(de)超(chāo)现(xiàn)实主义内容；第三、多镜头语言：能够生成复杂(zá)的动态镜头(tóu)，不(bù)再局限于简单的(de)推(tuī)、拉、移等固定(dìng)镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不(bù)同镜头的切(qiè)换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言；第四、时空一致性高：在16秒的时长上(shàng)保持连(lián)贯流畅，随着镜(jìng)头(tóu)的移动，人物和场景在时间、空间中能(néng)够保持一致；第五(wǔ)、理解中(zhōng)国元素：能够生成特有的中国元素，例如熊猫(māo)、龙等。

值得一(yī)提的(de)是，短片中的片(piàn)段都是从头到尾连续(xù)生成，没有明显的插帧现象，从这种“一镜到底”的(de)表现能够推(tuī)测出，Vidu采用的是“一(yī)步到位”的生成神舟十八号瞄准4月25日20时59分发射(chéng)方式，与Sora一样，文本到视频(pín)的转换是直接且连续的，在底层(céng)算法实现上是基于单一模型完全端到(dào)端生成，不涉及中间的插帧和其他多步骤(zhòu)的处理(lǐ)。

Vidu的快速(sù)突破源自于团队在贝叶斯机器(qì)学习和多模态(tài)大模型的长期积累和多项原创性成果。其(qí)核心技术U-ViT架构由(yóu)团(tuán)队(duì)于2022年9月提出，早于Sora采用(yòng)的DiT架构，是全(quán)球首个Diffusion与Transformer融合的架(jià)构(gòu)，完全由团(tuán)队自主研发。

2023年3月，团队(duì)开源全球首个基于(yú)U-ViT架构的多模态扩散大模型UniDiffuser，在全球(qiú)范围内率先完成融合架构的大规模可扩展性（Scaling Law）验证。UniDiffuser是(shì)在大规模图文数据(jù)集LAION-5B上训练出的近10亿参数量模型，支持图文模态间的任意生成和转(zhuǎn)换。在架构上，UniDiffuser比同样DiT架构的Stable Diffusion 3领先(xiān)了一年。

自今年2月Sora发布(bù)推出后，团(tuán)队基于对U-ViT架构的深(shēn)入理解以及长期积累的工程与(yǔ)数据经验，在(zài)短短两个(gè)月(yuè)进一步突破长(zhǎng)视频表示与处理(lǐ)关键技术，研发推出Vidu视频大模(mó)型，显著提升视频(pín)的(de)连贯性(xìng)与动态性。

从图文任(rèn)务的统一到融合视频能力，作为通用视(shì)觉模型，Vidu能够支持生成(chéng)更加多样化、更长时长的视频内容，同时(shí)面向未(wèi)来，灵(líng)活(huó)架构也将能够(gòu)兼容更广(guǎng)泛的模态(tài)，进一步拓展多模态通用能力的边界。

Vidu的问世，不仅是U-ViT融(róng)合架构在大(dà)规模视(shì神舟十八号瞄准4月25日20时59分发射)觉任务中的(de)又一次成功验证，也代表了(le)生数(shù)科技(jì)在多模态(tài)原生大模型领域的持(chí)续创新能(néng)力和领先性。同时生数科技(jì)表示(shì)，大(dà)模型的突破是一个多维度、跨领(lǐng)域的综合性过程，需要技术与产业应用的深度(dù)融(róng)合。生数科技(jì)正式推出“Vidu大模型合作伙伴(bàn)计划”，希望产业链上下游企业、研究机构能一(yī)起加入(rù)，共(gòng)同构建合作生态。

校对：廖胜超

未经允许不得转载：北京老旧机动车解体中心神舟十八号瞄准4月25日20时59分发射