VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	4 ГБ	Максимальное	Для продакшена
INT8	2 ГБ	Хорошее

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, INT8

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, INT8

Арендовать

Характеристики модели

Технические параметры

Разработчик: Coqui AI
Год выпуска: 2023
Архитектура: Transformer
Лицензия: Restricted
Формат вывода: WAV
Realtime factor: 10×

Применение

Синтез речи Клонирование голоса Многоязычный синтез Генерация аудиокниг

XTTS v2 — многоязычный синтез Coqui с клонированием голоса по короткому референсу (порядка нескольких секунд чистой записи). Сильная сторона — перенос тембра на другой язык и естественная интонация в русском/английском и ещё десятке языков; ограничение — аккуратность с лицензией референса и нагрузка на GPU при длинных текстах. Для коммерции проверьте условия репозитория coqui/XTTS-v2.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — от ~4 ГБ VRAM для базового inference; для длинных фраз и streaming лучше RTX 3090 или RTX 4090. Перейдите в каталог GPU.

Шаг 2 — Запустите модель

Через Coqui TTS (пример API):

pip install TTS torch torchaudio

from TTS.api import TTS

tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
tts.tts_to_file(
    text="Короткое демо синтеза на русском.",
    speaker_wav="reference_ru.wav",
    language="ru",
    file_path="out.wav",
)

Референс возьмите без музыки и реверберации; нормализуйте громкость до разумного уровня.

Оптимизация

Разбивайте длинные тексты на предложения и склеивайте WAV, чтобы избежать OOM и дрожания prosody на гигантских промптах.
Храните один «эталонный» speaker_wav на персона и кэшируйте извлечённые эмбеддинги, если ваш код это поддерживает.

XTTS v2