Знакомый веб-чат поверх выбранной open-source модели на вашей собственной облачной видеокарте

Что такое Open WebUI и Ollama

Open WebUI — это open-source веб-интерфейс для чата с языковыми моделями. Внешне очень похож на ChatGPT: список переписки слева, поле ввода снизу, переключение моделей в шапке, история, экспорт чатов, поиск по диалогам. Разница в том, что под капотом — не серверы OpenAI, а локальные модели, запущенные на вашей собственной арендованной видеокарте.

Ollama — менеджер локальных LLM. Одной командой скачивает модель из своей библиотеки (Llama, Qwen, DeepSeek, Mistral, Gemma, Phi и десятки других) и запускает её на GPU. Open WebUI обращается к Ollama по локальному HTTP-API, а вам показывает знакомый ChatGPT-подобный интерфейс.

В этом туториале мы поднимаем оба компонента на одной арендованной у нас видеокарте. Перед запуском вы выбираете одну из проверенных моделей: Llama 3.1 8B, Qwen2.5 7B или Mistral 7B. Мы скачиваем выбранную модель заранее и выдаём ссылку на веб-чат.

Что вы получите

Готовый веб-чат с интерфейсом, похожим на ChatGPT, на вашей собственной видеокарте
Выбранную модель, загруженную сразу — первое сообщение работает без ручной установки
Возможность скачать любую другую модель из библиотеки Ollama одной кнопкой
OpenAI-совместимый API на том же инстансе — подключайте Continue.dev, Cline, свои скрипты
Загрузку документов (PDF/DOCX/TXT) с RAG из коробки

Как это работает

Нажмите «Запустить» — откроется регистрация, если вы ещё не вошли.
Пополните баланс — для пробного сеанса достаточно 100–200 ₽.
Выберите модель в мастере запуска: Llama 3.1 8B, Qwen2.5 7B или Mistral 7B.
Мастер запуска предложит рекомендуемую видеокарту; при желании выберите другую из совместимых и нажмите «Запустить».
Через 10–15 минут откроется Open WebUI.
Создайте локального администратора инстанса и начните чат.

Сколько ждать

Первый запуск занимает 10–15 минут. Из них основное время уходит на установку Open WebUI (~5–15 минут — образ виртуальной машины приходит без него, и мы доустанавливаем его с PyPI на чистый контейнер), плюс ~1–3 минуты на загрузку выбранной модели и ~10 секунд на старт Ollama и веб-чата. Мастер запуска показывает прогресс по каждому шагу, прогресс-бар двигается даже во время длинного pip install. Если закроете и заново запустите инстанс, выбранная модель скачается ещё раз — каждый запуск создаёт чистое окружение.

Первый запуск: Hello, модель

Когда откроется Open WebUI, на первом экране будет форма регистрации:

Важно: эта учётная запись — локальная, она существует только на вашем арендованном инстансе. Email и пароль никуда не отправляются и не проверяются. Это не наш аккаунт и не аккаунт Open WebUI Inc — это административный пользователь конкретно вашей копии веб-чата. Первый зарегистрированный пользователь автоматически становится администратором.

Введите любой email и любой пароль — мы рекомендуем что-нибудь запоминающееся, чтобы вернуться в админку.
После регистрации откроется чат. В шапке слева — селектор модели, там уже выбрана модель, которую вы указали в мастере запуска.
Напишите что-нибудь, например: «Объясни в трёх предложениях, что такое RAG» — и нажмите Enter.
Через несколько секунд получите ответ. Готово — у вас собственный приватный чат-бот с open-source LLM.

Как выбрать или подгрузить другую модель

Самый простой путь — выбрать модель до запуска. В мастере доступны проверенные варианты: Llama 3.1 8B для базового чата, Qwen2.5 7B для русского/английского текста и Mistral 7B для быстрых экспериментов.

После запуска можно дополнительно скачать любую модель из библиотеки Ollama:

Откройте Settings (шестерёнка в шапке) → Admin Settings → Models → Pull a model from Ollama.com.
Введите имя модели — например, qwen2.5:14b (отлично работает с русским) или deepseek-r1:14b (умеет рассуждать пошагово).
Нажмите Pull. На RTX 4090 загрузка занимает минуту-две.
Вернитесь в чат, в селекторе модели в шапке появится новая запись — переключитесь на неё.

Полный список дополнительных моделей: ollama.com/library. Под русский язык хорошо работают qwen2.5, qwen2.5-coder (для кода), deepseek-r1 и крупные версии llama3.1/llama3.3. Для 70B-моделей понадобится GPU от 48 ГБ — берите A6000 или A100.

Что попробовать дальше

RAG по документам. Откройте новый чат, прикрепите PDF/DOCX через скрепку в окне ввода. Спросите, о чём документ. Open WebUI индексирует файл и отвечает по содержимому.
OpenAI-совместимый API. В Settings → Connections можно открыть доступ к API на этом же инстансе. Точка входа http://<ваш-инстанс>:8080/api — подключайте Continue.dev, Cline или свои скрипты.
Системный промпт. В настройках модели можно зафиксировать роль («ты — программист на Python», «отвечай только на русском») — применится ко всем новым чатам.
Экспорт переписки. Перед остановкой инстанса выгрузите важные чаты через Settings → Chats → Export — после уничтожения инстанса локальная база Open WebUI пропадает.

Частые вопросы

Видна ли вам моя переписка? Нет. Open WebUI и Ollama работают на вашем арендованном инстансе, мы не имеем доступа к содержимому чатов. Логи провижининга у нас есть для отладки, но они про этапы запуска, а не про содержание ваших диалогов.

Сохранятся ли чаты между запусками? В пределах одного инстанса — да, история хранится в локальной SQLite-базе на диске. После удаления инстанса всё пропадает. Экспортируйте важное заранее.

Какая модель лучше для русского? На 12 ГБ VRAM в мастере запуска выберите Qwen2.5 7B. Также подойдут llama3.1:8b и qwen2.5:7b. На 24 ГБ — qwen2.5:14b (заметно сильнее в русском, чем Llama-8B), deepseek-r1:14b. На 48+ ГБ — qwen2.5:32b или llama3.3:70b. Чем крупнее модель, тем дороже карта в час.

Можно ли использовать через API без веб-чата? Да. Open WebUI открывает OpenAI-совместимый эндпоинт, Ollama — собственный нативный API на порту 11434. Удобно для интеграций.

Что делать, если запуск завис? Шаг «Устанавливаем Open WebUI» честно может занимать до 15 минут — это нормально, прогресс-бар двигается. Беспокоиться стоит, если ни один шаг не двигается дольше 20 минут или мастер показывает явную ошибку («Скрипт упал на этапе…»): остановите и пересоздайте инстанс, скорее всего попадётся другой хост и пройдёт. Логи провижининга доступны в панели управления.

Сколько это стоит? RTX 3090 — около 30 ₽/час, RTX 4090 — около 35 ₽/час. Типичный вечер за чатом — 30–60 ₽. Платите только пока инстанс работает.

Также см. нейросеть без цензуры и гайд локальная нейросеть без цензуры, если нужен managed-чат или свой запуск с меньшей склонностью к отказам.

Свой чат-бот с open-source LLM