客户端
官方微信
官方微博
今日头条
北疆观察
数字报刊
北疆新闻 > 教育 > 正文

本报电 (记者刘峣)近日,北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成,成功验证了基于下一个token(词元)预测的多模态技术范式,释放其在大规模训练和推理上的潜力。

据了解Emu3只基于下一个token预测,无需扩散模型或组合式方法,把图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer。

智源研究院院长王仲远表示,Emu3为构建多模态通用人工智能提供了广阔的技术前景,有机会将基础设施建设收敛到一条技术路线上,为大规模多模态训练和推理提供基础。未来,多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。

北疆新闻:内蒙古自治区重点新闻网站(客户端),内蒙古出版集团新华报业中心旗下国家互联网新闻信息采编发布服务一类资质网站(客户端)。

编辑:方琳
63

北疆新闻版权与免责声明:

一、凡本站中注明“来源:北疆新闻”的所有文字、图片和音视频,版权均属北疆新闻所有,转载时必须注明“来源:北疆新闻”,并附上原文链接。

二、凡来源非北疆新闻的新闻(作品)只代表本网传播该消息,并不代表赞同其观点。

如因作品内容、版权和其它问题需要同本网联系的,请在见网后30日内进行,联系邮箱:bjwmaster@163.com。

救助野生动物 保护草原生态

版权声明:北疆新闻版权所有,未经书面授权,不得转载或建立镜像,违者依法必究。 本站违法和不良信息举报电话:15648148811蒙ICP备16001043号-1

Copyright © 2016- 北疆新闻网 All Rights Reserved互联网新闻信息服务许可证:15120200009-1蒙公网安备:15010502001245