Речь / ASR Restricted

XTTS v2

Transformer · Coqui AI · 2023

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 4 ГБ Максимальное Для продакшена
INT8 2 ГБ Хорошее

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8 Арендовать
24 ГБ FP16, INT8 Арендовать

Рекомендуемые фреймворки

coqui-tts

Характеристики модели

Технические параметры

Разработчик
Coqui AI
Год выпуска
2023
Архитектура
Transformer
Лицензия
Restricted
Формат вывода
WAV
Realtime factor
10×

Применение

Синтез речи Клонирование голоса Многоязычный синтез Генерация аудиокниг

XTTS v2 — многоязычная TTS-модель с голосовым клонированием по 6-секундному образцу. Поддерживает 17 языков включая русский. Качество близко к коммерческим TTS-сервисам.