Синтез речи и клонирование голоса
Запустите F5-TTS или XTTS-v2 на своей облачной видеокарте — веб-интерфейс для синтеза речи и клонирования голоса по короткому образцу
Что это такое
Это приложение поднимает на арендованной у нас видеокарте открытую модель синтеза речи с веб-интерфейсом на Gradio. Вы загружаете короткий образец голоса, вводите текст — и получаете озвучку этим голосом. Никакой ручной установки CUDA, моделей и зависимостей: открыли страницу в браузере, загрузили образец, нажали «Синтезировать».
Перед запуском вы выбираете движок:
- XTTS-v2 (по умолчанию) — мультиязычный, 17 языков, включая русский, английский и арабский. Зеро-шот клонирование голоса: образца 10–15 секунд достаточно, дообучение не требуется. Универсальный выбор.
- F5-TTS — очень естественное звучание для английского и китайского. Лицензия CC-BY-NC: модель свободна для личного и некоммерческого использования, поэтому подходит для запуска на арендованной вами видеокарте, но не для перепродажи синтезированной речи как услуги.
- Chatterbox — лёгкая модель с клонированием голоса (преимущественно английский), открытая лицензия MIT.
Это не наш «сервис клонирования голоса» — это сами модели, запущенные на вашем GPU. Веса, образцы и результат остаются на инстансе; мы не слушаем и не сохраняем то, что вы синтезируете.
Что вы получите
- Веб-интерфейс синтеза речи на вашей собственной видеокарте
- Выбранный движок и его веса, загруженные заранее — первая генерация не ждёт скачивания модели
- Клонирование голоса по короткому образцу (XTTS-v2, Chatterbox) и мультиязычный синтез (XTTS-v2)
- Полный контроль: SSH-доступ, изоляция инстанса, ничего не уходит наружу
Как это работает
- Нажмите «Запустить» — откроется регистрация, если вы ещё не вошли.
- Пополните баланс — для пробного сеанса достаточно 100–200 ₽.
- Выберите движок в мастере запуска: XTTS-v2, F5-TTS или Chatterbox.
- Сервис подберёт подходящую видеокарту и запустит инстанс.
- Через несколько минут откроется веб-интерфейс на Gradio.
- Загрузите образец голоса, введите текст, нажмите «Синтезировать».
Сколько ждать
Первый запуск занимает несколько минут: установка движка и Gradio (~5 минут на чистом контейнере), затем загрузка весов модели (XTTS-v2 ~2 ГБ, F5-TTS ~3 ГБ) и старт интерфейса. Мастер запуска показывает прогресс по каждому шагу. Если закроете и заново запустите инстанс, веса скачаются ещё раз — каждый запуск создаёт чистое окружение.
Главное про качество: образец голоса
Качество клонирования определяется образцом. Используйте чистую запись 10–15 секунд:
- один говорящий — без второго голоса на фоне;
- без музыки и шума — фоновая дорожка, эхо и реверберация заметно ухудшают результат;
- естественная речь в нормальном темпе — пары обычных предложений достаточно.
Слишком короткий, обрезанный или зашумлённый образец даёт «плавающий», непохожий голос. Это ограничение самих моделей, а не сервиса — поэтому на чистый образец стоит потратить минуту.
Первый запуск
Когда откроется интерфейс на порту 7860:
- Загрузите образец голоса в поле «Образец голоса» — файл с записью 10–15 секунд (для XTTS-v2 образец обязателен, для Chatterbox — опционален).
- Впишите текст для озвучки.
- Для XTTS-v2 выберите язык в выпадающем списке (например,
ru). - Нажмите «Синтезировать» и через несколько секунд получите аудиофайл — его можно прослушать и скачать прямо из интерфейса.
Двуязычный синтез (F5-TTS)
F5-TTS рассчитан на английский и китайский. Если ваша аудитория — англо- и китаеязычная, F5-TTS обычно звучит естественнее XTTS-v2 на этих двух языках. Для русского, арабского и остальных языков выбирайте XTTS-v2: он покрывает 17 языков, тогда как F5-TTS ограничен EN/ZH.
Что попробовать дальше
- Сравните движки. Запустите один и тот же текст на XTTS-v2 и F5-TTS (по очереди, в отдельных запусках) и выберите, что лучше ложится на ваш язык и голос.
- Поиграйте с длиной образца. 10–15 секунд чистой речи обычно дают заметно более похожий голос, чем 3–5 секунд.
- Доступ по SSH. Веса и интерфейс лежат на инстансе — через SSH можно поднять пакетную генерацию или подключить модель в свой скрипт.
- Остановите инстанс, когда закончите, чтобы не платить за простой.
Частые вопросы
Слышите ли вы то, что я синтезирую? Нет. Модель работает на вашем арендованном инстансе, образцы и результат остаются на нём. Логи провижининга у нас есть для отладки запуска, но не содержат вашего аудио.
Можно ли использовать результат коммерчески? Зависит от движка. XTTS-v2 — Coqui Public Model License (некоммерческая), F5-TTS — CC-BY-NC (некоммерческая), Chatterbox — MIT. Ответственность за соблюдение лицензий и за содержание синтезированной речи несёт пользователь. Клонировать чужой голос без согласия владельца нельзя.
Какой движок выбрать для русского? XTTS-v2 — он мультиязычный и покрывает русский. F5-TTS русский не поддерживает.
Сохранятся ли загруженные образцы между запусками? Нет. После удаления инстанса диск вайпается. Храните образцы у себя и загружайте заново.
Сколько это стоит? Около 25 ₽/час — синтез речи нетребователен к GPU, поэтому подойдёт недорогая карта. Платите только пока инстанс работает.
Рекомендуемые видеокарты
Готовы запустить?
Запустить туториал