通常有两种方案
1、实时音视频通话的api,例如gemini-2.0-flash-live-001或qwen Omni的模型,这就要求实时的音视频接入,tokens消耗量大,但是实时性高。
2、将面试题目一个个发给用户并进行用户答题视频前端录制好,最后结束后一起整理成视频发送给多模态模型进行评估,这个消耗tokens少,而且如果不需要视频,还可以直接将视频中音频剥离给ai大模型评估,甚至准成文字进行评估。
示例代码
网友回复
webgl与webgpu有啥不同?
Zero Trust的Tunnels怎么设置泛域名解析及http服务获取当前访问域名?
Spec Coding(规范驱动编码)和 Vibe Coding(氛围编程)有啥区别?
如何在国内服务器上正常运行未备案的域名网站?
Cloudflared 和WARP Connector有啥不同?
有没有让本地开源大模型越狱的方法或插件啥的?
如何使用Zero Trust的Tunnels技术将局域网电脑web服务可以公网访问呢?
编程领域ai大模型的排名是怎么样的?
如何修改别人发给我的微信笔记内容?
fbx、obj、glb三维格式模型如何在浏览器中通过three相互转换格式?


