新大模型可根据文本生成高清视频

北疆新闻 > 教育 > 正文

新大模型可根据文本生成高清视频

2024年04月28日 08:34 来源：科技日报关灯

27日，在中关村论坛未来人工智能先锋论坛上，清华大学联合北京生数科技有限公司（以下简称“生数科技”）正式发布中国首个原创全自研视频大模型——Vidu。论坛现场，清华大学教授、生数科技首席科学家朱军向与会者展示了Vidu生成的视频，包括行驶在崎岖道路上的汽车、戴珍珠耳环的猫、弹吉他的熊猫等。与此前震撼业界的Sora一样，Vidu能够根据文本描述直接生成高质量视频。

“长时长、高一致性、高动态性”是Vidu的显著特征。朱军表示，研发团队的核心技术在于采用U-ViT架构。它由Diffusion与Transformer两个模型融合而来，可支持一键生成长达16秒的高清视频内容。

除了在时长方面优势突出，Vidu在视频效果方面也实现显著提升。朱军介绍，Vidu能模拟真实物理世界，生成的视频不但场景细节复杂，而且符合物理规律，例如合理的光影效果、细腻的人物表情等。Vidu还具有丰富的想象力，能生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容。此外，Vidu可理解多镜头语言，生成的视频不再局限于简单的推、拉、移等固定镜头，而是围绕同一主体实现远景、中景、近景、特写等不同镜头的切换，甚至能直接生成长镜头、追焦、转场等效果，给视频注入丰富的镜头表达。Vidu还独具文化特色，能很好理解中国元素，生成熊猫、龙等中国元素的视频。

值得一提的是，论坛上展示的视频都是从头到尾连续生成，没有明显的插帧现象。朱军说，与Sora一样，Vidu在文本到视频的转换过程中直接且连续，而且在底层算法上，是由单一模型完全端到端生成，不涉及插帧和其他多步骤处理。（记者何亮）

北疆新闻：内蒙古自治区重点新闻网站（客户端），内蒙古出版集团新华报业中心旗下国家互联网新闻信息采编发布服务一类资质网站（客户端）。

编辑：方琳

89

安装北疆新闻，免费浏览更多精彩新闻资讯

北疆新闻版权与免责声明：

一、凡本站中注明“来源：北疆新闻”的所有文字、图片和音视频，版权均属北疆新闻所有，转载时必须注明“来源：北疆新闻”，并附上原文链接。

二、凡来源非北疆新闻的新闻（作品）只代表本网传播该消息，并不代表赞同其观点。

如因作品内容、版权和其它问题需要同本网联系的，请在见网后30日内进行，联系邮箱：bjwmaster@163.com。

为你推荐

共建地球生命共同体丨走进三江源“野生动物”王国

热点排榜

这群萌娃不简单!呼和浩特首届幼儿篮球嘉年华精彩开启北疆新闻网、北疆新闻客户端消息(记者李艳红) 5月22日......