Fish Speech

已跟踪

业界领先的开源文本转语音系统,具备声音克隆能力,支持多语言自然语音合成。

作者 Fish Audio 开源时间 2023-10-10 最近提交 未知

简介

Fish Speech 是业界领先的开源文本转语音 (TTS) 系统,提供自然的语音合成和声音克隆能力。基于先进的 Transformer 和 VQ-GAN 架构构建,支持多语言,可从短音频样本实现高质量语音复刻。

主要特性

  • 业界领先的语音合成质量,自然韵律
  • 零样本和少样本声音克隆,仅需短参考音频
  • 多语言支持,跨语言声音迁移
  • 低延迟推理,适合实时应用
  • RESTful API,便于应用集成

使用场景

  • 创建具有自定义自然语音的 AI 智能体
  • 构建多语言语音应用和助手
  • 为内容创作和媒体生成配音
  • 开发无障碍文本转语音解决方案

技术特点

  • 基于 Transformer 和 VQ-GAN/VQ-VAE 架构
  • 支持流式和批量推理模式
  • 提供 Docker 部署方案用于生产环境
  • RESTful API 兼容 OpenAI TTS 接口