Voicebox TTS
Синтез речи с клонированием голоса — API и веб-интерфейс для text-to-speech.
Аудио и речь
Linux
от 8 ГБ VRAM
Для кого
Разработчики и контент-мейкеры, которым нужен качественный синтез речи с возможностью клонирования голоса.
Что внутри
- Voicebox — модель синтеза речи с клонированием голоса
- Веб-интерфейс для генерации и прослушивания
- REST API с документацией
- Поддержка нескольких языков
Как начать
- Запустите инстанс с этим шаблоном
- Откройте веб-интерфейс (порт 7493) или API docs
- Загрузите образец голоса и генерируйте речь
Рекомендации по GPU
- 8 ГБ VRAM — достаточно для real-time синтеза
- 12+ ГБ VRAM — пакетная генерация, длинные тексты
Предустановленное ПО
Ubuntu 22.04
CUDA 12.9
Voicebox 0.3
Python 3.12
Подробное руководство: читать в разделе «Решения» →
Готовы запустить Voicebox TTS?
Запустить GPU-сервер