VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	2 ГБ	Максимальное	Для продакшена
INT8	1 ГБ	Хорошее

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, INT8

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, INT8

Арендовать

Характеристики модели

Технические параметры

Разработчик: hexgrad
Год выпуска: 2024
Архитектура: Transformer
Лицензия: Apache-2.0
Формат вывода: WAV
Realtime factor: 50×

Применение

Text-to-speech Fast TTS Edge TTS

Kokoro — ультракомпактная 82M TTS: редкое сочетание крошечного размера и вполне «слушабельного» синтеза, плюс Apache-2.0 для спокойного встраивания в продукты. Не пытается конкурировать с многомиллиардными моделями по выразительности, зато почти не бьёт по бюджету на GPU и хорошо подходит как встроенный движок для уведомлений, озвучки UI и лёгких ботов.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Модель столь мала, что часто живёт и на CPU; для низкой латентности на батче фраз возьмите RTX 3090 или RTX 4090. Перейдите в каталог GPU.

Шаг 2 — Запустите модель

В контейнере или на хосте установите зависимости и синтезируйте WAV (пример для актуальной версии пакета kokoro):

pip install kokoro soundfile

import soundfile as sf
from kokoro import KPipeline

pipeline = KPipeline(lang_code="a")  # см. документацию: код языка/голоса
for _, _, audio in pipeline("Hello from Kokoro on a GPU instance.", voice="af_heart"):
    sf.write("out.wav", audio, 24000)
    break

Веса подтягиваются с Hugging Face (hexgrad/Kokoro-82M); при корпоративных ограничениях заранее положите кэш в persistent volume.

Оптимизация

Кэшируйте загрузку pipeline и переиспользуйте один инстанс на воркер вместо cold start на каждый запрос.
Если GPU не нужен, перенесите синтез на CPU — для коротких фраз это может быть дешевле по total cost.

Kokoro