回答-BFW问答

目前还没有，目前最强大的还是google的多模态大模型gemini，支持文字、图片、声音、视频、文档等不同类型格式信息的输入，算得上是真正的多模特态大模型，也有可能国内其他厂商正在研发训练你说的数字人端对端大模型，这对数字人克隆意义非凡，他可以让人活在数字世界中与现实中的亲人面对面交互，结合全息影像技术将会有更大的应用市场。