Приложение для приватного чата с LLM

Свой чат-бот с open-source LLM на облачном GPU

Знакомый веб-чат поверх Llama 3.1, Qwen 2.5, DeepSeek-R1 — на вашей собственной видеокарте. ChatGPT-подобный интерфейс, никаких данных в OpenAI.

  • ~5 минут до первого чата
  • от 30 ₽/час
  • Llama 3.1 уже загружена
  • переписка не уходит в OpenAI

Цены на чат-бот в облаке

Llama 3.1 8B по умолчанию работает на любой карте от 12 ГБ VRAM — RTX 3090 для бытового чата, 4090 если планируете подключать API и нагружать инстанс, A6000 / A100 при работе с 70B-моделями и большими контекстами.

RTX 3090

24 ГБ VRAM

RTX 3090

от 105.63 ₽/час

≈ 76 054 ₽/мес при 24/7

RTX 4090

24 ГБ VRAM

RTX 4090

от 212.13 ₽/час

≈ 152 734 ₽/мес при 24/7

Что это такое

Open WebUI — open-source веб-чат с интерфейсом, очень похожим на ChatGPT: переписка списком слева, окно ввода снизу, переключение моделей в шапке, история, поиск, выгрузка истории в JSON. Под капотом вместо OpenAI-серверов запросы уходят на Ollama — менеджер локальных LLM, который умеет одной командой скачать модель из своей библиотеки (Llama, Qwen, DeepSeek, Mistral, Gemma и сотни других) и запустить её на GPU.

В этом сервисе мы поднимаем оба компонента на арендованной у нас видеокарте, докачиваем по умолчанию Llama 3.1 8B — компактную модель Meta, которая нормально говорит по-русски и помещается в 12 ГБ VRAM — и выдаём вам ссылку на веб-чат. Никаких терминалов, никакой ручной установки CUDA: открыли страницу, создали учётную запись администратора, начали диалог.

Зачем приватный LLM, если есть ChatGPT

Главное — где живёт переписка. Когда вы пишете в ChatGPT, ваш текст уходит на серверы OpenAI; они могут использовать его для обучения (если вы явно не выключили в настройках), а в России доступ к самому сайту работает через прослойки разной степени надёжности. Здесь переписка живёт на GPU, который вы арендуете у нас: модель работает локально, в OpenAI / Anthropic / Google ничего не уходит, никакой VPN не нужен.

Второе — стоимость. Подписка ChatGPT Plus — около 2 000 ₽/мес фиксированно. Тут вы платите только за время, пока инстанс работает: 30 ₽/час на RTX 3090, 35 ₽/час на 4090. Если используете чат час-другой в день — выходит в два-три раза дешевле подписки. Если только эпизодически — в десять раз. Если каждый день и много — подписка может стать выгоднее, и это честный ориентир, не оправдание.

Что не получите: «такое же качество, как в GPT-5». Llama 3.1 8B заметно слабее закрытых флагманов; для серьёзных задач переключайтесь на Llama 3.3 70B или Qwen 2.5 72B — но им нужно 48+ ГБ VRAM (A6000 / A100 / H100), и цена сразу поднимается до 90–250 ₽/час. Тут уже считайте сами под свой объём работы.

Кому это подходит

Тем, кто не хочет грузить данные в OpenAI

Юристы, аналитики, врачи, журналисты, инженеры с NDA — все, у кого переписка не должна оказаться в чужом облаке. Инстанс изолирован, диск вайпается при остановке.

Разработчикам и AI-инженерам

Open WebUI выдаёт OpenAI-совместимый эндпоинт на том же инстансе. Подключайте Continue.dev, Cline, Aider, свои скрипты — приватный LLM-эндпоинт с почасовой оплатой, без подписки на API.

Тем, кто работает с документами

Загружаете PDF / DOCX / TXT — Open WebUI индексирует их и отвечает на вопросы по содержанию (RAG из коробки). Документы остаются на вашем инстансе, никуда не отправляются.

Энтузиастам open-source моделей

Хотите попробовать DeepSeek-R1 на 70B? Qwen 2.5 32B? Mistral Small? Скачиваете через Ollama одной командой, переключаетесь в селекторе моделей. Не нужно собирать своё железо за 300 000 ₽.

Что уже на инстансе

Готовое окружение — не пустая Ubuntu. После запуска открываете веб-интерфейс, создаёте админский аккаунт, начинаете писать.

  • Open WebUI 0.8 — ChatGPT-подобный веб-чат: история, поиск, переключение моделей, экспорт переписки в JSON.
  • Ollama — менеджер локальных моделей с GPU-ускорением и OpenAI-совместимым API.
  • Модель Llama 3.1 8B (~5 ГБ) — на диске, не нужно тянуть из интернета при первом сообщении.
  • Поддержка RAG: загружаете PDF / DOCX / TXT, спрашиваете по содержимому.
  • OpenAI-совместимый API на том же инстансе — подключайте Continue.dev, Cline, свои скрипты.
  • HTTPS-туннель к веб-чату настраивается автоматически — никаких терминалов, никакого SSH.

Чем отличается от альтернатив

ChatGPT Plus / Claude Pro

Наш сервис

Переписка живёт на вашей видеокарте, в OpenAI / Anthropic ничего не уходит. Оплата по часам — пользуетесь час в день, платите меньше, чем за подписку.

У них

Подписка ~2 000 ₽/мес фиксированно, данные уходят на серверы провайдера, доступ из РФ — через прослойки.

OpenAI / Anthropic API напрямую

Наш сервис

Никаких токенов и счётов в долларах. Российская карта, чек на e-mail. Качайте 70B-модели бесплатно — платите только за GPU-время.

У них

Иностранная карта обязательна, токены и оплата в долларах, поминутный лимит. С новыми моделями — постоянная пере-настройка ключей и квот.

LM Studio / Ollama на своём ПК

Наш сервис

Любую 70B-модель запускаете на A6000 за 90 ₽/час. Никакой сборки железа, никаких 24/7 кулеров.

У них

Без 24 ГБ VRAM (~150 000 ₽ за RTX 4090) — только 7B-модели на сносной скорости. 70B — мечта.

GPT4All / другие SaaS-«приватных чатов»

Наш сервис

Полный контроль: SSH, изоляция инстанса, переписка в SQLite на вашем диске. Видно вам, не нам.

У них

Закрытый сервис на чьих-то серверах — мы не знаем, какие у них логи и политика, и никто не знает.

Что попробовать в первые 15 минут

После запуска инстанса откроется Open WebUI. На первом экране — форма регистрации администратора инстанса. Это не фишинг и не наш аккаунт: учётка локальная, видна только на вашей видеокарте. Заполняете email + пароль (не обязаны быть настоящими, никто не проверяет), попадаете в чат.

  • Напишите модели «Привет, объясни в трёх предложениях, что такое RAG» — проверьте, что русский держится.
  • Откройте Settings → Admin → Models → Pull a model from Ollama.com и скачайте qwen2.5:14b — модель с более сильным русским. На RTX 4090 загрузится за минуту.
  • Переключитесь на скачанную модель в селекторе в шапке чата и сравните ответы на одном промпте.
  • Загрузите PDF через скрепку в окне ввода — спросите «о чём этот документ». Это и есть RAG.
  • Когда закончите — остановите инстанс кнопкой в панели управления, чтобы не платить за простой.

Подробное пошаговое руководство — в туториале по чат-боту. Эта страница — про сервис; туториал — про то, как именно нажимать на кнопки и какие модели выбирать под русский, под код, под длинный контекст.

Частые вопросы про чат-бот на open-source LLM

Сколько это реально стоит на практике?

Час работы — около 35 ₽ на RTX 4090, около 30 ₽ на RTX 3090. Платите только за время, пока инстанс запущен; остановили — счётчик встал. Типичный вечер за чатом — 30–60 ₽.

Чем это отличается от ChatGPT.com или Claude?

Главное отличие — приватность и контроль. Переписка живёт на арендованной вами видеокарте, мы её не видим, в OpenAI / Anthropic / Google ничего не уходит. Плюс вы платите только за фактическое время работы инстанса, а не подписку, и можете в любой момент переключиться на более крупную модель. Что не получите: качество GPT-5 или Claude 4.6 — Llama 3.1 8B по умолчанию заметно слабее. Для серьёзных задач переключитесь на Llama 3.3 70B или Qwen 2.5 72B (понадобится GPU от 48 ГБ).

Какие модели можно скачать кроме предустановленной?

Любую из библиотеки Ollama: Llama 3.3 70B, Qwen 2.5 (7B/14B/32B/72B), DeepSeek-R1 (включая дистиллированные на Llama/Qwen), Mistral Small, Gemma 2, Phi-4. Скачивание — одна кнопка в админке Open WebUI или команда `ollama pull <модель>` в SSH. По умолчанию подгружена Llama 3.1 8B, чтобы первый чат заработал без 10-минутного ожидания.

Как обстоят дела с русским языком?

Llama 3.1 8B сносно понимает русский, но иногда сбивается на английский — для длинных русскоязычных диалогов лучше скачать Qwen 2.5 14B или 32B, у них русский в обучении представлен сильнее. DeepSeek-R1 тоже хорошо работает по-русски и умеет рассуждать пошагово. На 24 ГБ VRAM (RTX 4090, A5000) всё это запускается без квантизационных компромиссов.

Можно подключить как API, а не только через веб-чат?

Да. Open WebUI открывает OpenAI-совместимый эндпоинт на том же инстансе — настройки в админке. Можно подключать клиенты типа Continue.dev, Cline, Aider, librechat. Ollama также предоставляет собственный нативный API на порту 11434. Полезно для тех, кто хочет приватный LLM-эндпоинт в своих скриптах.

Можно загружать документы и спрашивать по ним?

Да. Open WebUI поддерживает загрузку PDF/DOCX/TXT и RAG поверх загруженного — встроено из коробки. Документы остаются на вашем инстансе, никуда не отправляются. На 24 ГБ VRAM можно работать с базой в сотни документов одновременно.

Сохранятся ли мои чаты между сеансами?

В пределах одного инстанса — да: Open WebUI хранит историю в локальной SQLite-базе на диске. После удаления инстанса всё пропадает. Если хотите сохранить важную переписку — экспортируйте её из Open WebUI (Settings → Chats → Export) перед остановкой, либо настройте регулярный бэкап через SSH.

Что мне покажет первый экран?

Open WebUI на первом заходе откроет форму регистрации — это штатное поведение, не фишинг. Первый зарегистрированный пользователь становится администратором инстанса; никаких email-подтверждений нет, регистрация локальная и видна только на вашей видеокарте. После регистрации сразу попадёте в чат с моделью Llama 3.1, можно начинать диалог.

Чем это отличается от вашего туториала по чат-боту?

Эта страница — про сам сервис: что такое локальная LLM, зачем брать в облаке, как сравнивать с ChatGPT, сколько стоит. Туториал /tutorials/chatbot — это пошаговая инструкция для тех, кто уже решил попробовать: как нажимать кнопки, как менять модели, как загружать документы для RAG.

Готовы запустить?

5 минут до первого сообщения. Оплата по часам — остановили инстанс, счётчик встал.

Запустить за 1 клик