4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技与清华大学联合推出了中国首个人工智能视频大模型——Vidu。这款模型凭借其独特的U-ViT架构(Diffusion与Transformer融合),实现了长时长、高一致性和高动态性的视频生成能力,一键即可创作出长达16秒、1080P高清的视频内容。
二、Vidu性能优势与应用场景
1. 模拟真实物理世界
- 细节逼真:Vidu能够生成复杂且细腻的场景,遵循真实的物理规律,如精确的光影效果、生动的人物表情等。
2. 具备丰富想象力
- 超现实创作:模型能生成超越现实世界的虚构画面,展现出深度与复杂性,满足富有创意的视频需求。
3. 多镜头语言运用
- 动态镜头:Vidu能够自如地生成并切换多种镜头视角(远景、近景、中景、特写),包括长镜头、追焦、转场等专业级效果,赋予视频丰富的镜头语言。
4. 时空一致性卓越
- 流畅连贯:在长达16秒的时间跨度内,人物与场景的变化始终保持高度一致性,无论镜头如何移动,时间与空间的逻辑始终严谨。
5. 理解并融入中国元素
- 本土特色:Vidu能够精准识别并自然融入中国特色元素,如熊猫、龙等,使生成内容更具本土文化气息。
6. 一步到位生成机制
- 端到端生成:与Sora类似,Vidu采用文本到视频的直接、连续生成方式,避免插帧等中间处理步骤,确保“一镜到底”式的高品质输出。
三、Vidu技术领先性与研发历程
1. U-ViT架构全球首发
- 技术创新:生数科技团队于2022年9月首次提出U-ViT架构,早于Sora使用的DiT架构,成为全球首个Diffusion与Transformer融合的架构,彰显其强大的自主研发实力。
2. UniDiffuser开源验证
- 大规模验证:2023年3月,团队开源基于U-ViT架构的多模态扩散大模型UniDiffuser,在全球范围内率先完成大规模可扩展性验证。该模型在LAION-5B数据集上训练,具备近10亿参数量,支持图文之间的自由生成与转换,技术上领先使用DiT架构的Stable Diffusion 3一年。
3. Vidu快速研发与突破
- 高效迭代:继Sora发布后,生数科技团队凭借对U-ViT架构的深刻理解及工程与数据经验积累,仅用两个月时间即攻克长视频关键技术和处理难题,成功推出Vidu视频大模型,显著提升了视频的连贯性与动态性。
四、Vidu对未来影响与合作倡议
1. 扩展通用视觉模型边界
- 多样化生成:作为通用视觉模型,Vidu支持生成更长、更多样化的视频内容,并有望在未来兼容更广泛的模态,推动多模态通用能力的进一步发展。
2. 表达生数科技创新领导力
- 持续创新:Vidu的发布不仅是U-ViT融合架构在大规模视觉任务中的一次成功实践,更凸显了生数科技在多模态原生大模型领域的持续创新能力与领先地位。
3. 推动生态共建
- 合作伙伴计划:生数科技正式启动“Vidu大模型合作伙伴计划”,诚邀产业链上下游企业、研究机构加入,共同构建合作生态,促进技术与产业应用的深度融合。
0条评论