Синтез речи и клонирование голоса на своём GPU

Синтез речи и клонирование голоса на облачном GPU

Запустите открытые модели F5-TTS или XTTS-v2 на арендованной видеокарте — веб-интерфейс для синтеза речи и клонирования голоса по образцу 10–15 секунд. Веса и аудио остаются на вашем инстансе.

  • ~8 минут до первого синтеза
  • от 25 ₽/час
  • F5-TTS / XTTS-v2 / Chatterbox на выбор
  • аудио не уходит наружу

Цены на синтез речи в облаке

Синтез речи лёгкий — любой движок комфортно работает на карте от 8 ГБ VRAM. RTX 3060 хватает для real-time генерации, RTX 3090 — золотая середина, RTX 4090 — если нужен максимально быстрый отклик при пакетной озвучке. Платите по факту, остановили инстанс — счётчик встал.

RTX 3090

24 ГБ VRAM

RTX 3090

от 53.4 ₽/час

≈ 38 448 ₽/мес при 24/7

RTX 4090

24 ГБ VRAM

RTX 4090

от 129.62 ₽/час

≈ 93 326 ₽/мес при 24/7

Что это такое

Это запускалка для открытых моделей синтеза речи на арендованной у нас видеокарте. По кнопке «Запустить» мы поднимаем выбранный движок и веб-интерфейс на Gradio: загружаете короткий образец голоса, вводите текст — и получаете озвучку этим голосом. Никаких терминалов, установки CUDA и ручного скачивания моделей.

Важно: это не «наш сервис клонирования голоса», а сами модели, запущенные на вашем GPU. Веса, образцы и сгенерированное аудио остаются на инстансе — мы не слушаем и не сохраняем то, что вы синтезируете. После удаления инстанса диск вайпается.

Какие движки доступны

Движок выбирается в мастере запуска:

  • XTTS-v2 (по умолчанию) — мультиязычный, 17 языков, включая русский, английский и арабский. Зеро-шот клонирование: образца 10–15 секунд достаточно, дообучение не нужно. Универсальный выбор.
  • F5-TTS — очень естественное звучание для английского и китайского. Лицензия CC-BY-NC: свободна для личного и некоммерческого использования, поэтому подходит для запуска на арендованной видеокарте, но не для перепродажи синтеза как услуги.
  • Chatterbox — лёгкая модель с клонированием голоса (в основном английский), открытая лицензия MIT.

Кому это подходит

Контент-мейкерам

Озвучка для видео, подкастов, обучающих роликов своим голосом или подобранным под проект. Генерируете нужные фрагменты, скачиваете, останавливаете инстанс.

Разработчикам

Нужно прогнать собственный TTS-движок на GPU без сборки окружения. Веб-интерфейс из коробки плюс SSH-доступ для пакетной генерации и интеграции в свой пайплайн.

Мультиязычным проектам

XTTS-v2 покрывает 17 языков, включая русский и арабский; F5-TTS даёт особенно естественные английский и китайский. Один голос — на несколько языков.

Тем, кому важна приватность

Образцы голоса и сгенерированное аудио не должны уходить в чужое облако. Модель работает на вашем инстансе, диск вайпается при остановке.

Что готовится на инстансе

Готовое окружение, не пустая Ubuntu. После запуска открываете веб-интерфейс, загружаете образец голоса, вводите текст — и синтезируете.

  • Выбранный движок синтеза — F5-TTS, XTTS-v2 или Chatterbox — установлен и готов к запуску.
  • Веб-интерфейс на Gradio: загрузка образца голоса, ввод текста, выбор языка, прослушивание и скачивание результата.
  • Веса модели скачаны заранее — первая генерация не ждёт загрузки.
  • XTTS-v2: мультиязычный синтез (17 языков) и клонирование голоса по образцу 10–15 секунд.
  • SSH-доступ к инстансу — для пакетной генерации или интеграции модели в собственный скрипт.
  • HTTPS-доступ к веб-интерфейсу настраивается автоматически — никаких терминалов для старта.

Чем отличается от альтернатив

Облачные TTS-сервисы (ElevenLabs и подобные)

Наш сервис

Аудио и образцы голоса остаются на вашей видеокарте, никуда не уходят. Оплата по часам за GPU, без помесячных пакетов символов и лимитов на количество слов.

У них

Подписка с лимитом символов, данные уходят на чужие серверы, оплата в валюте иностранной картой, доступ из РФ — через прослойки.

Локальная установка на свой ПК

Наш сервис

Открыли страницу — через несколько минут готовый веб-интерфейс на мощной карте. Никакой возни с CUDA, torch и зависимостями движка.

У них

Часы на сборку окружения, конфликты версий CUDA/torch, а без подходящего GPU — медленный или неработающий синтез.

TTS-API по подписке

Наш сервис

Российская карта, чек на e-mail, оплата только за GPU-время. Веса и движок в полном вашем распоряжении — хоть пакетная генерация по SSH.

У них

Иностранная карта, оплата за символы/секунды, постоянная зависимость от тарифа и квот провайдера.

Готовый «сервис клонирования»

Наш сервис

Полный контроль: SSH, изоляция инстанса, открытые модели с известной лицензией. Видно вам, не нам.

У них

Закрытый сервис на чьих-то серверах — неизвестно, какие логи и политика хранения у провайдера.

Главное про качество: образец голоса

Качество клонирования определяется образцом. Чтобы голос получился похожим, загрузите чистую запись 10–15 секунд:

  • один говорящий — без второго голоса на фоне;
  • без музыки и шума — фоновая дорожка, эхо и реверберация заметно ухудшают результат;
  • естественная речь в обычном темпе — пары обычных предложений достаточно.

Слишком короткий, обрезанный или зашумлённый образец даёт «плавающий», непохожий голос — это ограничение самих моделей, а не сервиса. Минута на чистый образец окупается качеством озвучки.

Пошаговое руководство — в туториале по синтезу речи: как выбрать движок, как подготовить образец и как пользоваться интерфейсом. Эта страница — про сервис, туториал — про то, как именно нажимать кнопки.

Частые вопросы про синтез речи на облачном GPU

Сколько это реально стоит?

Около 25 ₽/час — синтез речи нетребователен к видеокарте, поэтому подойдёт недорогая карта вроде RTX 3060 или 3090. Платите только пока инстанс запущен; остановили — счётчик встал.

Это ваш сервис клонирования голоса?

Нет. Это сами открытые модели (F5-TTS, XTTS-v2, Chatterbox), запущенные на арендованной вами видеокарте. Мы не предоставляем синтез как услугу, не слушаем и не сохраняем то, что вы генерируете. Веса, образцы голоса и результат остаются на вашем инстансе, диск вайпается при удалении.

Какие модели доступны?

Перед запуском в мастере выбирается движок: XTTS-v2 (по умолчанию) — мультиязычный, 17 языков включая русский, английский и арабский, клонирование по образцу 10–15 секунд; F5-TTS — очень естественное звучание для английского и китайского; Chatterbox — лёгкая модель с клонированием (в основном английский).

Какой движок выбрать для русского языка?

XTTS-v2 — он мультиязычный и покрывает русский, арабский и ещё полтора десятка языков. F5-TTS поддерживает только английский и китайский, для русского он не подойдёт.

Как добиться хорошего клонирования голоса?

Качество определяется образцом. Загрузите чистую запись 10–15 секунд: один говорящий, без музыки, шума и эха, естественная речь в обычном темпе. Слишком короткий или зашумлённый образец даёт непохожий «плавающий» голос — это ограничение самих моделей.

Можно использовать результат в коммерческих проектах?

Зависит от движка и лицензии модели: XTTS-v2 — Coqui Public Model License (некоммерческая), F5-TTS — CC-BY-NC (некоммерческая), Chatterbox — MIT. Ответственность за соблюдение лицензий несёт пользователь. Клонировать чужой голос без согласия владельца недопустимо.

Какие языки поддерживаются?

XTTS-v2 — 17 языков, включая русский, английский, арабский, испанский, французский, немецкий, китайский, японский и другие. F5-TTS — английский и китайский. Chatterbox — преимущественно английский.

Можно подключить как API, а не только через веб-интерфейс?

Веб-интерфейс на Gradio — основной способ. На инстансе есть SSH-доступ, так что при желании можно запустить пакетную генерацию из скрипта или поднять собственный API поверх модели — веса и окружение полностью в вашем распоряжении.

Сохранятся ли образцы и результаты между запусками?

Нет. После удаления инстанса диск вайпается. Храните образцы голоса и сгенерированные файлы у себя; при новом запуске загрузите образцы заново.

Чем это отличается от вашего туториала по синтезу речи?

Эта страница — про сам сервис: что это, какие модели, сколько стоит, для кого. Туториал /tutorials/tts — пошаговая инструкция: как выбрать движок, как подготовить образец голоса, как нажимать кнопки в интерфейсе.

Готовы запустить?

~8 минут до первого синтеза. Оплата по часам — остановили инстанс, счётчик встал.

Запустить за 1 клик