openai推出的tts文字转语言服务支持中文的,tts基于Whisper模型,支持世界大部分语言。
下面我们来说说openai推出的tts服务
openai音频 API 提供speech基于我们的 TTS(文本转语音)模型的文本转语音端点。
它带有 6 种内置声音,可用于:
叙述一篇书面博客文章
制作多种语言的语音音频
使用流式传输提供实时音频输出
示例代码
from pathlib import Path from openai import OpenAI client = OpenAI() speech_file_path = Path(__file__).parent / "speech.mp3" response = client.audio.speech.create( model="tts-1", voice="alloy", input="Today is a wonderful day to build something people love!" ) response.stream_to_file(speech_file_path)默认情况下,终端将输出语音音频的 MP3 文件,但也可以配置为输出我们支持的任何格式。音频质量
对于实时应用程序,标准tts-1模型提供最低的延迟,但质量低于tts-1-hd模型。由于音频的生成方式,tts-1在某些情况下可能会生成比tts-1-hd. 在某些情况下,根据您的收听设备和个人的不同,音频可能没有明显的差异。语音选项
尝试不同的声音(alloy、echo、fable、onyx、nova和shimmer),找到一种与您所需的语气和听众相匹配的声音。当前的语音针对英语进行了优化。支持的输出格式
默认响应格式为“mp3”,但也可以使用“opus”、“aac”或“flac”等其他格式。Opus:用于互联网流媒体和通信,低延迟。
AAC:用于数字音频压缩,YouTube、Android、iOS 首选。
FLAC:用于无损音频压缩,受到音频爱好者存档的青睐。
支持的语言
TTS模型在语言支持方面总体上遵循Whisper模型。尽管当前语音针对英语进行了优化,但Whisper支持以下语言并且表现良好:南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语。流式传输实时音频
语音 API 使用块传输编码提供对实时音频流的支持。这意味着可以在生成完整文件并可供访问之前播放音频。
from openai import OpenAI client = OpenAI() response = client.audio.speech.create( model="tts-1", voice="alloy", input="Hello world! This is a streaming test.", ) response.stream_to_file("output.mp3")
网友回复