Речь / ASR MIT

Whisper Large v3

Transformer · OpenAI · 2023

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 10 ГБ Максимальное Для продакшена
INT8 5 ГБ Хорошее
INT4/Q4 3 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8, INT4 Арендовать
24 ГБ FP16, INT8, INT4 Арендовать
80 ГБ FP16, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Разработчик
OpenAI
Год выпуска
2023
Архитектура
Transformer
Лицензия
MIT
Формат вывода
text
Realtime factor
30×

Применение

Speech recognition Transcription Translation Multilingual ASR

Whisper Large v3 — флагманская ASR-модель OpenAI. Поддерживает 99 языков, включая русский. MIT лицензия. С Faster-Whisper работает в 30× realtime на RTX 4090.