有,fish agent可以实现:
Fish Agent是FishAudio推出的创新的端到端语音处理模型,集成自动语音识别(ASR)和文本到语音(TTS)技术,无需传统的语义编码器/解码器,实现语音到语音的直接转换。 模型经过700,000小时的多语言音频内容训练,支持包括英语、中文在内的多种语言,精准捕捉和生成环境音频信息。 Fish Agent目前正处于测试阶段,基于不断的优化和改进,为用户提供更准确、更自然的语音交互体验。
体验:https://huggingface.co/spaces/fishaudio/fish-agent
网友回复