阿里通义大模型哪些是支持多模态的api的ai模型?
国外的gpt,gemini都是多模态大模型,调用api直接支持传图片、声音、视频,但是阿里的qwen-max等模型只支持文本,要识别图片害的qwen-vl-max,有没有同时支持图片、声音、文本、视频输入的阿里大模型?
阿里通义大模型哪些是支持多模态的api的ai模型?
国外的gpt,gemini都是多模态大模型,调用api直接支持传图片、声音、视频,但是阿里的qwen-max等模型只支持文本,要识别图片害的qwen-vl-max,有没有同时支持图片、声音、文本、视频输入的阿里大模型?