Voicebox TTS

Синтез речи с клонированием голоса — API и веб-интерфейс для text-to-speech.

Аудио и речь Linux от 8 ГБ VRAM

Для кого

Разработчики и контент-мейкеры, которым нужен качественный синтез речи с возможностью клонирования голоса.

Что внутри

  • Voicebox — модель синтеза речи с клонированием голоса
  • Веб-интерфейс для генерации и прослушивания
  • REST API с документацией
  • Поддержка нескольких языков

Как начать

  1. Запустите инстанс с этим шаблоном
  2. Откройте веб-интерфейс (порт 7493) или API docs
  3. Загрузите образец голоса и генерируйте речь

Рекомендации по GPU

  • 8 ГБ VRAM — достаточно для real-time синтеза
  • 12+ ГБ VRAM — пакетная генерация, длинные тексты

Предустановленное ПО

Ubuntu 22.04 CUDA 12.9 Voicebox 0.3 Python 3.12

Рекомендуемые GPU

Подробное руководство: читать в разделе «Решения» →

Готовы запустить Voicebox TTS?

Запустить GPU-сервер