Kokoro、Fish-Speech和CosyVoice三者的TTS效果各有特点,以下是具体对比:
Kokoro
优势:在TTS Spaces Arena中,Kokoro v0.19曾是排名第一的模型,其在单语音Arena设置中,使用更少的参数和数据就获得了比其他模型更高的Elo评分,这表明其在传统TTS模型的规模法则(Elo与计算/数据/参数)上可能具有更陡的斜率。
局限:Kokoro v0.19每次生成的音频时长最多为30秒。
Fish-Speech
优势:多语言和跨语言支持:支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语等多种语言,且无需音素依赖,具有强大的泛化能力。
准确率高:对于5分钟的英文文本,实现了约2%的低CER和WER。
速度快:借助fish-tech加速技术,在Nvidia RTX 4060笔记本电脑上实时因子约为1:5,在Nvidia RTX 4090上为1:15。
克隆效果好:输入一个10到30秒的语音样本,即可生成高质量的TTS输出。
局限:其开源版本的协议为BY-CC-NC-SA-4.0 License,源代码在BSD-3-Clause License,这在一定程度上限制了其商用范围。
CosyVoice
优势:多语言支持:支持中文、英文、日语、韩语等,以及多种中国方言(粤语、四川话、上海话、天津话、武汉话等)。跨语言支持:支持跨语言的零样本语音克隆。
低延迟:接收5个文字即可合成首包音频,延迟低至150毫秒。
超高精度:在Seed-TTS评估集的硬测试集上取得最低的字符错误率。
音色一致性:确保零样本和跨语言语音合成的可靠语音一致性。
韵律和音质:在韵律、音质和情感对齐方面显著增强,MOS评分从5.4提高到5.53,接近商业化TTS水平。
可控音频生成:支持更精细的情感控制和方言口音调整,可模仿机器人、小猪佩奇的风格讲话。
克隆效果佳:其克隆效果非常出色,是目前来说,国内最完整最优秀的TTS开源项目。
局限:暂未发现明显局限。
综合来看,三者各有千秋。如果需要多语言和跨语言支持,且对速度和准确率要求较高,Fish-Speech是不错的选择;若更看重音色一致性、韵律和音质,以及对多种语言和方言的支持,CosyVoice则更为合适;而Kokoro在模型性能上表现出色,但生成时长有限。具体选择哪个,还需根据实际使用场景和需求来定。
网友回复