XTTS v2
Transformer · Coqui AI · 2023
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 4 ГБ | Максимальное | Для продакшена |
| INT8 | 2 ГБ | Хорошее |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8 | Арендовать |
| 24 ГБ | FP16, INT8 | Арендовать |
Рекомендуемые фреймворки
Характеристики модели
Технические параметры
- Разработчик
- Coqui AI
- Год выпуска
- 2023
- Архитектура
- Transformer
- Лицензия
- Restricted
- Формат вывода
- WAV
- Realtime factor
- 10×
Применение
XTTS v2 — многоязычный синтез Coqui с клонированием голоса по короткому референсу (порядка нескольких секунд чистой записи). Сильная сторона — перенос тембра на другой язык и естественная интонация в русском/английском и ещё десятке языков; ограничение — аккуратность с лицензией референса и нагрузка на GPU при длинных текстах. Для коммерции проверьте условия репозитория coqui/XTTS-v2.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Ориентир — от ~4 ГБ VRAM для базового inference; для длинных фраз и streaming лучше RTX 3090 или RTX 4090. Перейдите в каталог GPU.
Шаг 2 — Запустите модель
Через Coqui TTS (пример API):
pip install TTS torch torchaudio
from TTS.api import TTS
tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
tts.tts_to_file(
text="Короткое демо синтеза на русском.",
speaker_wav="reference_ru.wav",
language="ru",
file_path="out.wav",
)
Референс возьмите без музыки и реверберации; нормализуйте громкость до разумного уровня.
Оптимизация
- Разбивайте длинные тексты на предложения и склеивайте WAV, чтобы избежать OOM и дрожания prosody на гигантских промптах.
- Храните один «эталонный» speaker_wav на персона и кэшируйте извлечённые эмбеддинги, если ваш код это поддерживает.