+
90
-

回答

多模态一般都是输入的多模态,可以理解文字、图片、视频、声音等格式的数据,然后输出文本的内容,相信以后会有输入输出都是多模态的大模型,就像人类一样,可以输入文本、图片、声音、视频、然后输出文本、声音、视频动作。

网友回复

我知道答案,我要回答