回答-BFW问答

目前多模态理解能力gemini最强，可以理解视频的内容，然后根据要求生成视频剪裁片段，最后结合ffmpeg进行裁剪合并，国内大模型也在积极研发，未来视频剪辑将全部由ai完成，人类只需要写提示词就能完成视频剪辑。