Whisper WebUI & API
Распознавание речи через OpenAI Whisper — веб-интерфейс и REST API.
Аудио и речь
Linux
от 12 ГБ VRAM
Для кого
Разработчики и контент-мейкеры, которым нужна транскрипция аудио и видео — подкасты, совещания, субтитры.
Что внутри
- Whisper WebUI — веб-интерфейс для загрузки и транскрипции файлов
- Whisper API — REST-эндпоинт для интеграции
- Поддержка 90+ языков, включая русский
- faster-whisper для ускоренного инференса
Как начать
- Запустите инстанс с этим шаблоном
- Откройте WebUI (порт 7860) или используйте API (порт 8000)
- Загрузите аудио/видео файл и получите транскрипцию
Рекомендации по GPU
- 12 ГБ VRAM — Whisper large-v3, достаточно для большинства задач
- 24 ГБ VRAM — пакетная обработка, long-form audio
Предустановленное ПО
Ubuntu 22.04
CUDA 12.6+
Whisper
faster-whisper
Python 3.11
Подробное руководство: читать в разделе «Решения» →
Готовы запустить Whisper WebUI & API?
Запустить GPU-сервер