Речь / ASR Restricted

XTTS v2

Transformer · Coqui AI · 2023

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 4 ГБ Максимальное Для продакшена
INT8 2 ГБ Хорошее

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8 Арендовать
24 ГБ FP16, INT8 Арендовать

Рекомендуемые фреймворки

coqui-tts

Характеристики модели

Технические параметры

Разработчик
Coqui AI
Год выпуска
2023
Архитектура
Transformer
Лицензия
Restricted
Формат вывода
WAV
Realtime factor
10×

Применение

Синтез речи Клонирование голоса Многоязычный синтез Генерация аудиокниг

XTTS v2 — многоязычный синтез Coqui с клонированием голоса по короткому референсу (порядка нескольких секунд чистой записи). Сильная сторона — перенос тембра на другой язык и естественная интонация в русском/английском и ещё десятке языков; ограничение — аккуратность с лицензией референса и нагрузка на GPU при длинных текстах. Для коммерции проверьте условия репозитория coqui/XTTS-v2.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — от ~4 ГБ VRAM для базового inference; для длинных фраз и streaming лучше RTX 3090 или RTX 4090. Перейдите в каталог GPU.

Шаг 2 — Запустите модель

Через Coqui TTS (пример API):

pip install TTS torch torchaudio
from TTS.api import TTS

tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
tts.tts_to_file(
    text="Короткое демо синтеза на русском.",
    speaker_wav="reference_ru.wav",
    language="ru",
    file_path="out.wav",
)

Референс возьмите без музыки и реверберации; нормализуйте громкость до разумного уровня.

Оптимизация

  • Разбивайте длинные тексты на предложения и склеивайте WAV, чтобы избежать OOM и дрожания prosody на гигантских промптах.
  • Храните один «эталонный» speaker_wav на персона и кэшируйте извлечённые эмбеддинги, если ваш код это поддерживает.