Речь / ASR
MIT
Whisper Small
Transformer · OpenAI · 2022
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 2 ГБ | Максимальное | Для продакшена |
| INT8 | 1 ГБ | Хорошее |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8 | Арендовать |
| 24 ГБ | FP16, INT8 | Арендовать |
Рекомендуемые фреймворки
Характеристики модели
Технические параметры
- Разработчик
- OpenAI
- Год выпуска
- 2022
- Архитектура
- Transformer
- Лицензия
- MIT
- Формат вывода
- text
- Realtime factor
- 100×
Применение
Speech recognition
Real-time transcription
Edge ASR
Whisper Small — самый лёгкий практичный вариант Whisper для сценариев, где важны низкая задержка и малый след на GPU: стриминг, предпросмотр субтитров, массовая обработка дешёвых инстансов. Точность на шумных записях и редких словах ниже, чем у medium/large, зато стоимость инференса и время отклика обычно лучше.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Часто достаточно 2–4 ГБ VRAM с запасом под контейнер; подойдёт RTX 3090 или более новая карта с запасом по PCIe/CPU для декодирования. Перейдите в каталог GPU.
Шаг 2 — Запустите Faster-Whisper Server
docker run --gpus all -p 8000:8000 \
fedirz/faster-whisper-server:latest-cuda
Шаг 3 — Транскрибируйте аудио
curl -X POST http://localhost:8000/v1/audio/transcriptions \
-F "file=@audio.wav" \
-F "model=small"
Оптимизация
- Для real-time уменьшайте размер батча и используйте VAD, чтобы не гонять модель по пустому аудио.
- Если язык известен заранее, зафиксируйте его в запросе (если ваш сервер/API это поддерживает) — это снижает ошибки и латентность.