Синтез речи и клонирование голоса на облачном GPU
Запустите открытые модели F5-TTS или XTTS-v2 на арендованной видеокарте — веб-интерфейс для синтеза речи и клонирования голоса по образцу 10–15 секунд. Веса и аудио остаются на вашем инстансе.
- ~8 минут до первого синтеза
- от 25 ₽/час
- F5-TTS / XTTS-v2 / Chatterbox на выбор
- аудио не уходит наружу
Цены на синтез речи в облаке
Синтез речи лёгкий — любой движок комфортно работает на карте от 8 ГБ VRAM. RTX 3060 хватает для real-time генерации, RTX 3090 — золотая середина, RTX 4090 — если нужен максимально быстрый отклик при пакетной озвучке. Платите по факту, остановили инстанс — счётчик встал.
RTX 4090
24 ГБ VRAM

от 129.62 ₽/час
≈ 93 326 ₽/мес при 24/7
Что это такое
Это запускалка для открытых моделей синтеза речи на арендованной у нас видеокарте. По кнопке «Запустить» мы поднимаем выбранный движок и веб-интерфейс на Gradio: загружаете короткий образец голоса, вводите текст — и получаете озвучку этим голосом. Никаких терминалов, установки CUDA и ручного скачивания моделей.
Важно: это не «наш сервис клонирования голоса», а сами модели, запущенные на вашем GPU. Веса, образцы и сгенерированное аудио остаются на инстансе — мы не слушаем и не сохраняем то, что вы синтезируете. После удаления инстанса диск вайпается.
Какие движки доступны
Движок выбирается в мастере запуска:
- XTTS-v2 (по умолчанию) — мультиязычный, 17 языков, включая русский, английский и арабский. Зеро-шот клонирование: образца 10–15 секунд достаточно, дообучение не нужно. Универсальный выбор.
- F5-TTS — очень естественное звучание для английского и китайского. Лицензия CC-BY-NC: свободна для личного и некоммерческого использования, поэтому подходит для запуска на арендованной видеокарте, но не для перепродажи синтеза как услуги.
- Chatterbox — лёгкая модель с клонированием голоса (в основном английский), открытая лицензия MIT.
Кому это подходит
Контент-мейкерам
Озвучка для видео, подкастов, обучающих роликов своим голосом или подобранным под проект. Генерируете нужные фрагменты, скачиваете, останавливаете инстанс.
Разработчикам
Нужно прогнать собственный TTS-движок на GPU без сборки окружения. Веб-интерфейс из коробки плюс SSH-доступ для пакетной генерации и интеграции в свой пайплайн.
Мультиязычным проектам
XTTS-v2 покрывает 17 языков, включая русский и арабский; F5-TTS даёт особенно естественные английский и китайский. Один голос — на несколько языков.
Тем, кому важна приватность
Образцы голоса и сгенерированное аудио не должны уходить в чужое облако. Модель работает на вашем инстансе, диск вайпается при остановке.
Что готовится на инстансе
Готовое окружение, не пустая Ubuntu. После запуска открываете веб-интерфейс, загружаете образец голоса, вводите текст — и синтезируете.
- Выбранный движок синтеза — F5-TTS, XTTS-v2 или Chatterbox — установлен и готов к запуску.
- Веб-интерфейс на Gradio: загрузка образца голоса, ввод текста, выбор языка, прослушивание и скачивание результата.
- Веса модели скачаны заранее — первая генерация не ждёт загрузки.
- XTTS-v2: мультиязычный синтез (17 языков) и клонирование голоса по образцу 10–15 секунд.
- SSH-доступ к инстансу — для пакетной генерации или интеграции модели в собственный скрипт.
- HTTPS-доступ к веб-интерфейсу настраивается автоматически — никаких терминалов для старта.
Чем отличается от альтернатив
Облачные TTS-сервисы (ElevenLabs и подобные)
Наш сервис
Аудио и образцы голоса остаются на вашей видеокарте, никуда не уходят. Оплата по часам за GPU, без помесячных пакетов символов и лимитов на количество слов.
У них
Подписка с лимитом символов, данные уходят на чужие серверы, оплата в валюте иностранной картой, доступ из РФ — через прослойки.
Локальная установка на свой ПК
Наш сервис
Открыли страницу — через несколько минут готовый веб-интерфейс на мощной карте. Никакой возни с CUDA, torch и зависимостями движка.
У них
Часы на сборку окружения, конфликты версий CUDA/torch, а без подходящего GPU — медленный или неработающий синтез.
TTS-API по подписке
Наш сервис
Российская карта, чек на e-mail, оплата только за GPU-время. Веса и движок в полном вашем распоряжении — хоть пакетная генерация по SSH.
У них
Иностранная карта, оплата за символы/секунды, постоянная зависимость от тарифа и квот провайдера.
Готовый «сервис клонирования»
Наш сервис
Полный контроль: SSH, изоляция инстанса, открытые модели с известной лицензией. Видно вам, не нам.
У них
Закрытый сервис на чьих-то серверах — неизвестно, какие логи и политика хранения у провайдера.
Главное про качество: образец голоса
Качество клонирования определяется образцом. Чтобы голос получился похожим, загрузите чистую запись 10–15 секунд:
- один говорящий — без второго голоса на фоне;
- без музыки и шума — фоновая дорожка, эхо и реверберация заметно ухудшают результат;
- естественная речь в обычном темпе — пары обычных предложений достаточно.
Слишком короткий, обрезанный или зашумлённый образец даёт «плавающий», непохожий голос — это ограничение самих моделей, а не сервиса. Минута на чистый образец окупается качеством озвучки.
Пошаговое руководство — в туториале по синтезу речи: как выбрать движок, как подготовить образец и как пользоваться интерфейсом. Эта страница — про сервис, туториал — про то, как именно нажимать кнопки.
Частые вопросы про синтез речи на облачном GPU
Сколько это реально стоит?
Это ваш сервис клонирования голоса?
Какие модели доступны?
Какой движок выбрать для русского языка?
Как добиться хорошего клонирования голоса?
Можно использовать результат в коммерческих проектах?
Какие языки поддерживаются?
Можно подключить как API, а не только через веб-интерфейс?
Сохранятся ли образцы и результаты между запусками?
Чем это отличается от вашего туториала по синтезу речи?
Готовы запустить?
~8 минут до первого синтеза. Оплата по часам — остановили инстанс, счётчик встал.
Запустить за 1 клик