Whisper WebUI & API

Распознавание речи через OpenAI Whisper — веб-интерфейс и REST API.

Аудио и речь Linux от 12 ГБ VRAM

Для кого

Разработчики и контент-мейкеры, которым нужна транскрипция аудио и видео — подкасты, совещания, субтитры.

Что внутри

  • Whisper WebUI — веб-интерфейс для загрузки и транскрипции файлов
  • Whisper API — REST-эндпоинт для интеграции
  • Поддержка 90+ языков, включая русский
  • faster-whisper для ускоренного инференса

Как начать

  1. Запустите инстанс с этим шаблоном
  2. Откройте WebUI (порт 7860) или используйте API (порт 8000)
  3. Загрузите аудио/видео файл и получите транскрипцию

Рекомендации по GPU

  • 12 ГБ VRAM — Whisper large-v3, достаточно для большинства задач
  • 24 ГБ VRAM — пакетная обработка, long-form audio

Предустановленное ПО

Ubuntu 22.04 CUDA 12.6+ Whisper faster-whisper Python 3.11

Рекомендуемые GPU

Подробное руководство: читать в разделе «Решения» →

Готовы запустить Whisper WebUI & API?

Запустить GPU-сервер