Свой чат-бот с open-source LLM

Знакомый веб-чат поверх Llama 3.1 на вашей собственной облачной видеокарте

от 12 ГБ VRAM ≈35 ₽/час ~5 минут до результата

Что такое Open WebUI и Ollama

Open WebUI — это open-source веб-интерфейс для чата с языковыми моделями. Внешне очень похож на ChatGPT: список переписки слева, поле ввода снизу, переключение моделей в шапке, история, экспорт чатов, поиск по диалогам. Разница в том, что под капотом — не серверы OpenAI, а локальные модели, запущенные на вашей собственной арендованной видеокарте.

Ollama — менеджер локальных LLM. Одной командой скачивает модель из своей библиотеки (Llama, Qwen, DeepSeek, Mistral, Gemma, Phi и десятки других) и запускает её на GPU. Open WebUI обращается к Ollama по локальному HTTP-API, а вам показывает знакомый ChatGPT-подобный интерфейс.

В этом туториале мы поднимаем оба компонента на одной арендованной у нас видеокарте, по умолчанию подгружаем Llama 3.1 8B — компактную модель Meta, которая помещается в 12 ГБ VRAM и нормально говорит по-русски, — и выдаём ссылку на веб-чат.

Что вы получите

  • Готовый веб-чат с интерфейсом, похожим на ChatGPT, на вашей собственной видеокарте
  • Модель Llama 3.1 8B, загруженную сразу — первое сообщение работает мгновенно
  • Возможность скачать любую другую модель из библиотеки Ollama одной кнопкой
  • OpenAI-совместимый API на том же инстансе — подключайте Continue.dev, Cline, свои скрипты
  • Загрузку документов (PDF/DOCX/TXT) с RAG из коробки

Как это работает

  1. Нажмите «Запустить» — откроется регистрация, если вы ещё не вошли.
  2. Пополните баланс — для пробного сеанса достаточно 100–200 ₽.
  3. Сервис подберёт подходящую видеокарту и запустит инстанс.
  4. Через 3–5 минут откроется Open WebUI.
  5. Создайте локального администратора инстанса и начните чат.

Сколько ждать

Первый запуск занимает 3–5 минут: за это время разворачиваются Ollama и Open WebUI и докачивается модель Llama 3.1 8B (~5 ГБ) с зеркала. Если закроете и заново запустите инстанс, модель скачается ещё раз — каждый запуск создаёт чистое окружение.

Первый запуск: Hello, Llama

Когда откроется Open WebUI, на первом экране будет форма регистрации:

Важно: эта учётная запись — локальная, она существует только на вашем арендованном инстансе. Email и пароль никуда не отправляются и не проверяются. Это не наш аккаунт и не аккаунт Open WebUI Inc — это административный пользователь конкретно вашей копии веб-чата. Первый зарегистрированный пользователь автоматически становится администратором.

  1. Введите любой email и любой пароль — мы рекомендуем что-нибудь запоминающееся, чтобы вернуться в админку.
  2. После регистрации откроется чат. В шапке слева — селектор модели, там уже выбрана llama3.1:8b.
  3. Напишите что-нибудь, например: «Объясни в трёх предложениях, что такое RAG» — и нажмите Enter.
  4. Через несколько секунд получите ответ. Готово — у вас собственный приватный чат-бот с open-source LLM.

Как подгрузить другую модель

Llama 3.1 8B хороша для проверки, что всё работает, но для серьёзных задач часто хочется модель посильнее или специализированную.

  1. Откройте Settings (шестерёнка в шапке) → Admin SettingsModelsPull a model from Ollama.com.
  2. Введите имя модели — например, qwen2.5:14b (отлично работает с русским) или deepseek-r1:14b (умеет рассуждать пошагово).
  3. Нажмите Pull. На RTX 4090 загрузка занимает минуту-две.
  4. Вернитесь в чат, в селекторе модели в шапке появится новая запись — переключитесь на неё.

Полный список моделей: ollama.com/library. Под русский язык хорошо работают qwen2.5, qwen2.5-coder (для кода), deepseek-r1 и крупные версии llama3.1/llama3.3. Для 70B-моделей понадобится GPU от 48 ГБ — берите A6000 или A100.

Что попробовать дальше

  • RAG по документам. Откройте новый чат, прикрепите PDF/DOCX через скрепку в окне ввода. Спросите, о чём документ. Open WebUI индексирует файл и отвечает по содержимому.
  • OpenAI-совместимый API. В Settings → Connections можно открыть доступ к API на этом же инстансе. Точка входа http://<ваш-инстанс>:8080/api — подключайте Continue.dev, Cline или свои скрипты.
  • Системный промпт. В настройках модели можно зафиксировать роль («ты — программист на Python», «отвечай только на русском») — применится ко всем новым чатам.
  • Экспорт переписки. Перед остановкой инстанса выгрузите важные чаты через Settings → Chats → Export — после уничтожения инстанса локальная база Open WebUI пропадает.

Частые вопросы

Видна ли вам моя переписка? Нет. Open WebUI и Ollama работают на вашем арендованном инстансе, мы не имеем доступа к содержимому чатов. Логи провижининга у нас есть для отладки, но они про этапы запуска, а не про содержание ваших диалогов.

Сохранятся ли чаты между запусками? В пределах одного инстанса — да, история хранится в локальной SQLite-базе на диске. После удаления инстанса всё пропадает. Экспортируйте важное заранее.

Какая модель лучше для русского? На 12 ГБ VRAM — llama3.1:8b или qwen2.5:7b. На 24 ГБ — qwen2.5:14b (заметно сильнее в русском, чем Llama-8B), deepseek-r1:14b. На 48+ ГБ — qwen2.5:32b или llama3.3:70b. Чем крупнее модель, тем дороже карта в час.

Можно ли использовать через API без веб-чата? Да. Open WebUI открывает OpenAI-совместимый эндпоинт, Ollama — собственный нативный API на порту 11434. Удобно для интеграций.

Что делать, если запуск завис? Если прогресс на скачивании модели не двигается дольше 10 минут — остановите и пересоздайте инстанс, скорее всего, попадётся другой хост и пройдёт. Логи провижининга доступны в панели управления.

Сколько это стоит? RTX 3090 — около 30 ₽/час, RTX 4090 — около 35 ₽/час. Типичный вечер за чатом — 30–60 ₽. Платите только пока инстанс работает.

Рекомендуемые видеокарты

Готовы запустить?

Запустить туториал