搜索

Kokoro与fish-speech及CosyVoice三者的tts效果哪个更好？

音视频其他

网友回复

Kokoro、Fish-Speech和CosyVoice三者的TTS效果各有特点，以下是具体对比：

Kokoro

优势：在TTS Spaces Arena中，Kokoro v0.19曾是排名第一的模型，其在单语音Arena设置中，使用更少的参数和数据就获得了比其他模型更高的Elo评分，这表明其在传统TTS模型的规模法则（Elo与计算/数据/参数）上可能具有更陡的斜率。

局限：Kokoro v0.19每次生成的音频时长最多为30秒。

Fish-Speech

优势：多语言和跨语言支持：支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语等多种语言，且无需音素依赖，具有强大的泛化能力。

准确率高：对于5分钟的英文文本，实现了约2%的低CER和WE...

点击查看剩余70%

我知道答案，我要回答

我有问题