中广格兰旗下网站:中广互联  格视网  卫星界  社区
登录注册

登录X

没有账号?  快速注册>

首页新闻正文

对标Sora,首个国产自研视频大模型Vidu发布!

导语:中国首个长视频大模型Vidu发布,实现高清细腻内容生成。

  只需要一段文字指令就能生成一段60秒精致细腻的视频——今年2月起,文生视频大模型Sora曾在全球人工智能业内外引发震动。4月27日上午,在2024中关村论坛年会未来人工智能先锋论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点,这也是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。

  据了解,该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

  根据现场演示的效果,Vidu能够模拟真实的物理世界,能够生成细节复杂、并且符合真实物理规律的场景,例如合理的光影效果、细腻的人物表情等。它还具有丰富的想象力,能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容,例如“画室里的一艘船正在海浪中驶向镜头”这样的场景。

  此外,Vidu能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同 镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言。

  作为中国自研视频大模型,Vidu还能理解中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。

  值得一提的是,短片中的片段都是从头到尾连续生成,没有明显的插帧现象,从这种“一镜到底”的表现能够推测出,Vidu采用的是“一步到位”的生成方式,与 Sora一样,从文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。

  据了解,Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术 U-ViT 架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构,完全由团队自主研发。

  “在Sora发布后,我们发现刚好和我们的技术路线是高度一致的,这也让我们坚定地进一步推进了自己的研究。”清华大学人工智能研究院副院长、生数科技首席科学家朱军说。自今年2月Sora发布推出后,团队基于对U-ViT 架构的深入理解以及长期积累的工程与数据经验,在短短两个月进一步突破长视频表示与处理关键技术,研发推出Vidu视频大模型,显著提升视频的连贯性与动态性。

【责任编辑: 徐亚新 】

推荐阅读

热门标签

作者专栏更多

关注我们

    中广互联
  1. 大视频行业最具影响力的媒体社群平台,重要新闻、独家视频、深度评论分析,推动电视行业与各行各业的连接。

  2. 电视瞭望塔
  3. 集合电视台、网络视听、潮科技等各种好玩信息。

  4. 5G Plus
  5. 专注于报道广电行业新鲜5G资讯,致力于成为广电行业有权威、有深度的5G自媒体平台。

  6. 4K8K
  7. UHD、4K、8K的最新资讯和最深入的分析,都在这里。

  8. 中广圈子
  9. 视频产业的专业圈子,人脉、活动、社区,就等你来。

  10. 格兰研究
  11. 我们只沉淀有深度的信息和数据。

  12. 卫星界
  13. 致力于卫星电视信息、卫星通信技术、天地一体网络应用案例、以及广电、通信等产业的市场动态、政策法规和技术资讯的传播。