Речь / ASR Apache-2.0

Kokoro

Transformer · hexgrad · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 2 ГБ Максимальное Для продакшена
INT8 1 ГБ Хорошее

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8 Арендовать
24 ГБ FP16, INT8 Арендовать

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Разработчик
hexgrad
Год выпуска
2024
Архитектура
Transformer
Лицензия
Apache-2.0
Формат вывода
WAV
Realtime factor
50×

Применение

Text-to-speech Fast TTS Edge TTS

Kokoro — ультракомпактная 82M TTS: редкое сочетание крошечного размера и вполне «слушабельного» синтеза, плюс Apache-2.0 для спокойного встраивания в продукты. Не пытается конкурировать с многомиллиардными моделями по выразительности, зато почти не бьёт по бюджету на GPU и хорошо подходит как встроенный движок для уведомлений, озвучки UI и лёгких ботов.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Модель столь мала, что часто живёт и на CPU; для низкой латентности на батче фраз возьмите RTX 3090 или RTX 4090. Перейдите в каталог GPU.

Шаг 2 — Запустите модель

В контейнере или на хосте установите зависимости и синтезируйте WAV (пример для актуальной версии пакета kokoro):

pip install kokoro soundfile
import soundfile as sf
from kokoro import KPipeline

pipeline = KPipeline(lang_code="a")  # см. документацию: код языка/голоса
for _, _, audio in pipeline("Hello from Kokoro on a GPU instance.", voice="af_heart"):
    sf.write("out.wav", audio, 24000)
    break

Веса подтягиваются с Hugging Face (hexgrad/Kokoro-82M); при корпоративных ограничениях заранее положите кэш в persistent volume.

Оптимизация

  • Кэшируйте загрузку pipeline и переиспользуйте один инстанс на воркер вместо cold start на каждый запрос.
  • Если GPU не нужен, перенесите синтез на CPU — для коротких фраз это может быть дешевле по total cost.