Whisper WebUI & API

Распознавание речи через OpenAI Whisper — веб-интерфейс и REST API.

Аудио и речь Linux от 12 ГБ VRAM

Для кого

Разработчики и контент-мейкеры, которым нужна транскрипция аудио и видео — подкасты, совещания, субтитры.

Что внутри

Whisper WebUI — веб-интерфейс для загрузки и транскрипции файлов
Whisper API — REST-эндпоинт для интеграции
Поддержка 90+ языков, включая русский
faster-whisper для ускоренного инференса

Как начать

Запустите инстанс с этим шаблоном
Откройте WebUI (порт 7860) или используйте API (порт 8000)
Загрузите аудио/видео файл и получите транскрипцию

Рекомендации по GPU

12 ГБ VRAM — Whisper large-v3, достаточно для большинства задач
24 ГБ VRAM — пакетная обработка, long-form audio

Предустановленное ПО

Ubuntu 22.04CUDA 12.6+Whisperfaster-whisperPython 3.11

Рекомендуемые GPU

RTX 4090 RTX 3090 A100 40GB

Подробное руководство: читать в разделе «Решения» →

Готовы запустить Whisper WebUI & API?

Запустить GPU-сервер