Свой чат-бот с open-source LLM
Знакомый веб-чат поверх Llama 3.1 на вашей собственной облачной видеокарте
Что такое Open WebUI и Ollama
Open WebUI — это open-source веб-интерфейс для чата с языковыми моделями. Внешне очень похож на ChatGPT: список переписки слева, поле ввода снизу, переключение моделей в шапке, история, экспорт чатов, поиск по диалогам. Разница в том, что под капотом — не серверы OpenAI, а локальные модели, запущенные на вашей собственной арендованной видеокарте.
Ollama — менеджер локальных LLM. Одной командой скачивает модель из своей библиотеки (Llama, Qwen, DeepSeek, Mistral, Gemma, Phi и десятки других) и запускает её на GPU. Open WebUI обращается к Ollama по локальному HTTP-API, а вам показывает знакомый ChatGPT-подобный интерфейс.
В этом туториале мы поднимаем оба компонента на одной арендованной у нас видеокарте, по умолчанию подгружаем Llama 3.1 8B — компактную модель Meta, которая помещается в 12 ГБ VRAM и нормально говорит по-русски, — и выдаём ссылку на веб-чат.
Что вы получите
- Готовый веб-чат с интерфейсом, похожим на ChatGPT, на вашей собственной видеокарте
- Модель Llama 3.1 8B, загруженную сразу — первое сообщение работает мгновенно
- Возможность скачать любую другую модель из библиотеки Ollama одной кнопкой
- OpenAI-совместимый API на том же инстансе — подключайте Continue.dev, Cline, свои скрипты
- Загрузку документов (PDF/DOCX/TXT) с RAG из коробки
Как это работает
- Нажмите «Запустить» — откроется регистрация, если вы ещё не вошли.
- Пополните баланс — для пробного сеанса достаточно 100–200 ₽.
- Сервис подберёт подходящую видеокарту и запустит инстанс.
- Через 3–5 минут откроется Open WebUI.
- Создайте локального администратора инстанса и начните чат.
Сколько ждать
Первый запуск занимает 3–5 минут: за это время разворачиваются Ollama и Open WebUI и докачивается модель Llama 3.1 8B (~5 ГБ) с зеркала. Если закроете и заново запустите инстанс, модель скачается ещё раз — каждый запуск создаёт чистое окружение.
Первый запуск: Hello, Llama
Когда откроется Open WebUI, на первом экране будет форма регистрации:
Важно: эта учётная запись — локальная, она существует только на вашем арендованном инстансе. Email и пароль никуда не отправляются и не проверяются. Это не наш аккаунт и не аккаунт Open WebUI Inc — это административный пользователь конкретно вашей копии веб-чата. Первый зарегистрированный пользователь автоматически становится администратором.
- Введите любой email и любой пароль — мы рекомендуем что-нибудь запоминающееся, чтобы вернуться в админку.
- После регистрации откроется чат. В шапке слева — селектор модели,
там уже выбрана
llama3.1:8b. - Напишите что-нибудь, например: «Объясни в трёх предложениях, что такое RAG» — и нажмите Enter.
- Через несколько секунд получите ответ. Готово — у вас собственный приватный чат-бот с open-source LLM.
Как подгрузить другую модель
Llama 3.1 8B хороша для проверки, что всё работает, но для серьёзных задач часто хочется модель посильнее или специализированную.
- Откройте Settings (шестерёнка в шапке) → Admin Settings → Models → Pull a model from Ollama.com.
- Введите имя модели — например,
qwen2.5:14b(отлично работает с русским) илиdeepseek-r1:14b(умеет рассуждать пошагово). - Нажмите Pull. На RTX 4090 загрузка занимает минуту-две.
- Вернитесь в чат, в селекторе модели в шапке появится новая запись — переключитесь на неё.
Полный список моделей: ollama.com/library.
Под русский язык хорошо работают qwen2.5, qwen2.5-coder (для кода),
deepseek-r1 и крупные версии llama3.1/llama3.3. Для 70B-моделей
понадобится GPU от 48 ГБ — берите A6000 или A100.
Что попробовать дальше
- RAG по документам. Откройте новый чат, прикрепите PDF/DOCX через скрепку в окне ввода. Спросите, о чём документ. Open WebUI индексирует файл и отвечает по содержимому.
- OpenAI-совместимый API. В Settings → Connections можно открыть
доступ к API на этом же инстансе. Точка входа
http://<ваш-инстанс>:8080/api— подключайте Continue.dev, Cline или свои скрипты. - Системный промпт. В настройках модели можно зафиксировать роль («ты — программист на Python», «отвечай только на русском») — применится ко всем новым чатам.
- Экспорт переписки. Перед остановкой инстанса выгрузите важные чаты через Settings → Chats → Export — после уничтожения инстанса локальная база Open WebUI пропадает.
Частые вопросы
Видна ли вам моя переписка? Нет. Open WebUI и Ollama работают на вашем арендованном инстансе, мы не имеем доступа к содержимому чатов. Логи провижининга у нас есть для отладки, но они про этапы запуска, а не про содержание ваших диалогов.
Сохранятся ли чаты между запусками? В пределах одного инстанса — да, история хранится в локальной SQLite-базе на диске. После удаления инстанса всё пропадает. Экспортируйте важное заранее.
Какая модель лучше для русского? На 12 ГБ VRAM — llama3.1:8b или
qwen2.5:7b. На 24 ГБ — qwen2.5:14b (заметно сильнее в русском, чем
Llama-8B), deepseek-r1:14b. На 48+ ГБ — qwen2.5:32b или
llama3.3:70b. Чем крупнее модель, тем дороже карта в час.
Можно ли использовать через API без веб-чата? Да. Open WebUI открывает OpenAI-совместимый эндпоинт, Ollama — собственный нативный API на порту 11434. Удобно для интеграций.
Что делать, если запуск завис? Если прогресс на скачивании модели не двигается дольше 10 минут — остановите и пересоздайте инстанс, скорее всего, попадётся другой хост и пройдёт. Логи провижининга доступны в панели управления.
Сколько это стоит? RTX 3090 — около 30 ₽/час, RTX 4090 — около 35 ₽/час. Типичный вечер за чатом — 30–60 ₽. Платите только пока инстанс работает.
Рекомендуемые видеокарты
Готовы запустить?
Запустить туториал