Запустите F5-TTS или XTTS-v2 на своей облачной видеокарте — веб-интерфейс для синтеза речи и клонирования голоса по короткому образцу

Что это такое

Это приложение поднимает на арендованной у нас видеокарте открытую модель синтеза речи с веб-интерфейсом на Gradio. Вы загружаете короткий образец голоса, вводите текст — и получаете озвучку этим голосом. Никакой ручной установки CUDA, моделей и зависимостей: открыли страницу в браузере, загрузили образец, нажали «Синтезировать».

Перед запуском вы выбираете движок:

XTTS-v2 (по умолчанию) — мультиязычный, 17 языков, включая русский, английский и арабский. Зеро-шот клонирование голоса: образца 10–15 секунд достаточно, дообучение не требуется. Универсальный выбор.
F5-TTS — очень естественное звучание для английского и китайского. Лицензия CC-BY-NC: модель свободна для личного и некоммерческого использования, поэтому подходит для запуска на арендованной вами видеокарте, но не для перепродажи синтезированной речи как услуги.
Chatterbox — лёгкая модель с клонированием голоса (преимущественно английский), открытая лицензия MIT.

Это не наш «сервис клонирования голоса» — это сами модели, запущенные на вашем GPU. Веса, образцы и результат остаются на инстансе; мы не слушаем и не сохраняем то, что вы синтезируете.

Что вы получите

Веб-интерфейс синтеза речи на вашей собственной видеокарте
Выбранный движок и его веса, загруженные заранее — первая генерация не ждёт скачивания модели
Клонирование голоса по короткому образцу (XTTS-v2, Chatterbox) и мультиязычный синтез (XTTS-v2)
Полный контроль: SSH-доступ, изоляция инстанса, ничего не уходит наружу

Как это работает

Нажмите «Запустить» — откроется регистрация, если вы ещё не вошли.
Пополните баланс — для пробного сеанса достаточно 100–200 ₽.
Выберите движок в мастере запуска: XTTS-v2, F5-TTS или Chatterbox.
Мастер запуска предложит рекомендуемую видеокарту; при желании выберите другую из совместимых и нажмите «Запустить».
Через несколько минут откроется веб-интерфейс на Gradio.
Загрузите образец голоса, введите текст, нажмите «Синтезировать».

Сколько ждать

Первый запуск занимает несколько минут: установка движка и Gradio (~5 минут на чистом контейнере), затем загрузка весов модели (XTTS-v2 ~2 ГБ, F5-TTS ~3 ГБ) и старт интерфейса. Мастер запуска показывает прогресс по каждому шагу. Если закроете и заново запустите инстанс, веса скачаются ещё раз — каждый запуск создаёт чистое окружение.

Главное про качество: образец голоса

Качество клонирования определяется образцом. Используйте чистую запись 10–15 секунд:

один говорящий — без второго голоса на фоне;
без музыки и шума — фоновая дорожка, эхо и реверберация заметно ухудшают результат;
естественная речь в нормальном темпе — пары обычных предложений достаточно.

Слишком короткий, обрезанный или зашумлённый образец даёт «плавающий», непохожий голос. Это ограничение самих моделей, а не сервиса — поэтому на чистый образец стоит потратить минуту.

Первый запуск

Когда откроется интерфейс на порту 7860:

Загрузите образец голоса в поле «Образец голоса» — файл с записью 10–15 секунд (для XTTS-v2 образец обязателен, для Chatterbox — опционален).
Впишите текст для озвучки.
Для XTTS-v2 выберите язык в выпадающем списке (например, ru).
Нажмите «Синтезировать» и через несколько секунд получите аудиофайл — его можно прослушать и скачать прямо из интерфейса.

Двуязычный синтез (F5-TTS)

F5-TTS рассчитан на английский и китайский. Если ваша аудитория — англо- и китаеязычная, F5-TTS обычно звучит естественнее XTTS-v2 на этих двух языках. Для русского, арабского и остальных языков выбирайте XTTS-v2: он покрывает 17 языков, тогда как F5-TTS ограничен EN/ZH.

Что попробовать дальше

Сравните движки. Запустите один и тот же текст на XTTS-v2 и F5-TTS (по очереди, в отдельных запусках) и выберите, что лучше ложится на ваш язык и голос.
Поиграйте с длиной образца. 10–15 секунд чистой речи обычно дают заметно более похожий голос, чем 3–5 секунд.
Доступ по SSH. Веса и интерфейс лежат на инстансе — через SSH можно поднять пакетную генерацию или подключить модель в свой скрипт.
Остановите инстанс, когда закончите, чтобы не платить за простой.

Частые вопросы

Слышите ли вы то, что я синтезирую? Нет. Модель работает на вашем арендованном инстансе, образцы и результат остаются на нём. Логи провижининга у нас есть для отладки запуска, но не содержат вашего аудио.

Можно ли использовать результат коммерчески? Зависит от движка. XTTS-v2 — Coqui Public Model License (некоммерческая), F5-TTS — CC-BY-NC (некоммерческая), Chatterbox — MIT. Ответственность за соблюдение лицензий и за содержание синтезированной речи несёт пользователь. Клонировать чужой голос без согласия владельца нельзя.

Какой движок выбрать для русского? XTTS-v2 — он мультиязычный и покрывает русский. F5-TTS русский не поддерживает.

Сохранятся ли загруженные образцы между запусками? Нет. После удаления инстанса диск вайпается. Храните образцы у себя и загружайте заново.

Сколько это стоит? Около 25 ₽/час — синтез речи нетребователен к GPU, поэтому подойдёт недорогая карта. Платите только пока инстанс работает.

Синтез речи и клонирование голоса