Kokoro
Transformer · hexgrad · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 2 ГБ | Максимальное | Для продакшена |
| INT8 | 1 ГБ | Хорошее |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8 | Арендовать |
| 24 ГБ | FP16, INT8 | Арендовать |
Рекомендуемые фреймворки
Характеристики модели
Технические параметры
- Разработчик
- hexgrad
- Год выпуска
- 2024
- Архитектура
- Transformer
- Лицензия
- Apache-2.0
- Формат вывода
- WAV
- Realtime factor
- 50×
Применение
Kokoro — ультракомпактная 82M TTS: редкое сочетание крошечного размера и вполне «слушабельного» синтеза, плюс Apache-2.0 для спокойного встраивания в продукты. Не пытается конкурировать с многомиллиардными моделями по выразительности, зато почти не бьёт по бюджету на GPU и хорошо подходит как встроенный движок для уведомлений, озвучки UI и лёгких ботов.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Модель столь мала, что часто живёт и на CPU; для низкой латентности на батче фраз возьмите RTX 3090 или RTX 4090. Перейдите в каталог GPU.
Шаг 2 — Запустите модель
В контейнере или на хосте установите зависимости и синтезируйте WAV (пример для актуальной версии пакета kokoro):
pip install kokoro soundfile
import soundfile as sf
from kokoro import KPipeline
pipeline = KPipeline(lang_code="a") # см. документацию: код языка/голоса
for _, _, audio in pipeline("Hello from Kokoro on a GPU instance.", voice="af_heart"):
sf.write("out.wav", audio, 24000)
break
Веса подтягиваются с Hugging Face (hexgrad/Kokoro-82M); при корпоративных ограничениях заранее положите кэш в persistent volume.
Оптимизация
- Кэшируйте загрузку pipeline и переиспользуйте один инстанс на воркер вместо cold start на каждый запрос.
- Если GPU не нужен, перенесите синтез на CPU — для коротких фраз это может быть дешевле по total cost.