Fish Speech

已跟踪

业界领先的开源文本转语音系统，具备声音克隆能力，支持多语言自然语音合成。

作者 Fish Audio 开源时间 2023-10-10 最近提交未知

简介

Fish Speech 是业界领先的开源文本转语音 (TTS) 系统，提供自然的语音合成和声音克隆能力。基于先进的 Transformer 和 VQ-GAN 架构构建，支持多语言，可从短音频样本实现高质量语音复刻。

主要特性

业界领先的语音合成质量，自然韵律
零样本和少样本声音克隆，仅需短参考音频
多语言支持，跨语言声音迁移
低延迟推理，适合实时应用
RESTful API，便于应用集成

使用场景

创建具有自定义自然语音的 AI 智能体
构建多语言语音应用和助手
为内容创作和媒体生成配音
开发无障碍文本转语音解决方案

技术特点

基于 Transformer 和 VQ-GAN/VQ-VAE 架构
支持流式和批量推理模式
提供 Docker 部署方案用于生产环境
RESTful API 兼容 OpenAI TTS 接口