Voicebox TTS

Синтез речи с клонированием голоса — API и веб-интерфейс для text-to-speech.

Аудио и речь Linux от 8 ГБ VRAM

Для кого

Разработчики и контент-мейкеры, которым нужен качественный синтез речи с возможностью клонирования голоса.

Что внутри

Voicebox — модель синтеза речи с клонированием голоса
Веб-интерфейс для генерации и прослушивания
REST API с документацией
Поддержка нескольких языков

Как начать

Запустите инстанс с этим шаблоном
Откройте веб-интерфейс (порт 7493) или API docs
Загрузите образец голоса и генерируйте речь

Рекомендации по GPU

8 ГБ VRAM — достаточно для real-time синтеза
12+ ГБ VRAM — пакетная генерация, длинные тексты

Предустановленное ПО

Ubuntu 22.04CUDA 12.9Voicebox 0.3Python 3.12

Рекомендуемые GPU

RTX 4090 RTX 3090

Подробное руководство: читать в разделе «Решения» →

Готовы запустить Voicebox TTS?

Запустить GPU-сервер