+
86
-

回答

多模态大模型都能将视频的每个画面及时间戳台词整理出来,例如gemini-2.5,qwen

网友回复

我知道答案,我要回答