Синтез речи в один клик: F5-TTS и XTTS-v2

Новое приложение в каталоге — синтез речи и клонирование голоса на облачном GPU. Перед запуском можно выбрать движок: XTTS-v2, F5-TTS или Chatterbox.

Синтез речи в один клик: F5-TTS и XTTS-v2

В каталоге приложений появилась новая запускалка — «Синтез речи и клонирование голоса». По кнопке «Запустить» мы поднимаем на арендованной видеокарте открытую модель синтеза речи с веб-интерфейсом на Gradio, заранее скачиваем веса, и через несколько минут вы загружаете образец голоса, вводите текст и получаете озвучку.

Что это даёт

  • Открытые модели на вашем GPU. Перед запуском выбираете движок: XTTS-v2 (мультиязычный, 17 языков включая русский и арабский), F5-TTS (очень естественные английский и китайский) или Chatterbox (лёгкая модель с клонированием). Это сами модели на вашем инстансе, а не «сервис клонирования» — мы не слушаем и не сохраняем то, что вы синтезируете.
  • Клонирование по короткому образцу. XTTS-v2 и Chatterbox клонируют голос по чистой записи 10–15 секунд, без дообучения.
  • Оплата по часам. Около 25 ₽/час — синтез речи лёгкий, подойдёт недорогая карта. Остановили инстанс — счётчик встал.
  • Приватность и контроль. Веса, образцы и аудио остаются на инстансе, диск вайпается при удалении. Есть SSH-доступ для пакетной генерации.

Про лицензии

Модели распространяются под собственными лицензиями: XTTS-v2 — Coqui Public Model License (некоммерческая), F5-TTS — CC-BY-NC (некоммерческая), Chatterbox — MIT. Запуск на арендованной вами видеокарте — это личное использование; ответственность за соблюдение лицензий и за содержание синтеза несёт пользователь. Клонировать чужой голос без согласия владельца нельзя.

Подробности

  • Сервисная страница:/applications/tts — что это, какие движки, сколько стоит, сравнение, FAQ.
  • Туториал:/tutorials/tts — пошагово: как выбрать движок, как подготовить образец голоса, как пользоваться интерфейсом.
  • GitHub: cloudcompute-ru/ttsprovision.sh, который исполняется на инстансе при запуске. Лицензия MIT.