Приложение для приватного чата с LLM

Свой чат-бот с open-source LLM на облачном GPU

Знакомый веб-чат поверх выбранной модели — Llama 3.1, Qwen2.5 или Mistral — на вашей собственной видеокарте. ChatGPT-подобный интерфейс, никаких данных в OpenAI.

~10–15 минут до первого чата
от 30 ₽/час
Llama / Qwen / Mistral на выбор
переписка не уходит в OpenAI

Цены на чат-бот в облаке

Проверенные пресеты Llama 3.1 8B, Qwen2.5 7B и Mistral 7B работают на любой карте от 12 ГБ VRAM — RTX 3090 для бытового чата, 4090 если планируете подключать API и нагружать инстанс, A6000 / A100 при работе с 70B-моделями и большими контекстами.

RTX 3090

24 ГБ VRAM

от 7.41 ₽/час

≈ 5 335 ₽/мес при 24/7

Запустить на RTX 3090 Подробнее о RTX 3090

RTX 4090

48 ГБ VRAM

от 32.09 ₽/час

≈ 76 896 ₽/мес при 24/7

Запустить на RTX 4090 Подробнее о RTX 4090

RTX A6000

48 ГБ VRAM

от 96.78 ₽/час

≈ 69 682 ₽/мес при 24/7

Запустить на RTX A6000 Подробнее о RTX A6000

Что это такое

Open WebUI — open-source веб-чат с интерфейсом, очень похожим на ChatGPT: переписка списком слева, окно ввода снизу, переключение моделей в шапке, история, поиск, выгрузка истории в JSON. Под капотом вместо OpenAI-серверов запросы уходят на Ollama — менеджер локальных LLM, который умеет одной командой скачать модель из своей библиотеки (Llama, Qwen, DeepSeek, Mistral, Gemma и сотни других) и запустить её на GPU.

В этом сервисе мы поднимаем оба компонента на арендованной у нас видеокарте, перед запуском даём выбрать проверенную модель — Llama 3.1 8B, Qwen2.5 7B или Mistral 7B — докачиваем её заранее и выдаём вам ссылку на веб-чат. Никаких терминалов, никакой ручной установки CUDA: открыли страницу, создали учётную запись администратора, начали диалог.

Зачем приватный LLM, если есть ChatGPT

Главное — где живёт переписка. Когда вы пишете в ChatGPT, ваш текст уходит на серверы OpenAI; они могут использовать его для обучения (если вы явно не выключили в настройках), а в России доступ к самому сайту работает через прослойки разной степени надёжности. Здесь переписка живёт на GPU, который вы арендуете у нас: модель работает локально, в OpenAI / Anthropic / Google ничего не уходит, никакой VPN не нужен.

Второе — стоимость. Подписка ChatGPT Plus — около 2 000 ₽/мес фиксированно. Тут вы платите только за время, пока инстанс работает: 30 ₽/час на RTX 3090, 35 ₽/час на 4090. Если используете чат час-другой в день — выходит в два-три раза дешевле подписки. Если только эпизодически — в десять раз. Если каждый день и много — подписка может стать выгоднее, и это честный ориентир, не оправдание.

Что не получите: «такое же качество, как в GPT-5». Компактные open-source модели заметно слабее закрытых флагманов; для серьёзных задач после запуска скачайте Llama 3.3 70B или Qwen 2.5 72B — но им нужно 48+ ГБ VRAM (A6000 / A100 / H100), и цена сразу поднимается до 90–250 ₽/час. Тут уже считайте сами под свой объём работы.

Кому это подходит

Тем, кто не хочет грузить данные в OpenAI

Юристы, аналитики, врачи, журналисты, инженеры с NDA — все, у кого переписка не должна оказаться в чужом облаке. Инстанс изолирован, диск вайпается при остановке.

Разработчикам и AI-инженерам

Open WebUI выдаёт OpenAI-совместимый эндпоинт на том же инстансе. Подключайте Continue.dev, Cline, Aider, свои скрипты — приватный LLM-эндпоинт с почасовой оплатой, без подписки на API.

Тем, кто работает с документами

Загружаете PDF / DOCX / TXT — Open WebUI индексирует их и отвечает на вопросы по содержанию (RAG из коробки). Документы остаются на вашем инстансе, никуда не отправляются.

Энтузиастам open-source моделей

Хотите попробовать DeepSeek-R1 на 70B? Qwen 2.5 32B? Mistral Small? Скачиваете через Ollama одной командой, переключаетесь в селекторе моделей. Не нужно собирать своё железо за 300 000 ₽.

Что готовится на инстансе

Готовое окружение — не пустая Ubuntu. После запуска открываете веб-интерфейс, создаёте админский аккаунт, начинаете писать выбранной модели.

Open WebUI 0.8 — ChatGPT-подобный веб-чат: история, поиск, переключение моделей, экспорт переписки в JSON.
Ollama — менеджер локальных моделей с GPU-ускорением и OpenAI-совместимым API.
Выбранная модель — Llama 3.1 8B, Qwen2.5 7B или Mistral 7B — скачана заранее, не нужно тянуть её при первом сообщении.
Поддержка RAG: загружаете PDF / DOCX / TXT, спрашиваете по содержимому.
OpenAI-совместимый API на том же инстансе — подключайте Continue.dev, Cline, свои скрипты.
HTTPS-туннель к веб-чату настраивается автоматически — никаких терминалов, никакого SSH.

Чем отличается от альтернатив

Альтернатива	Наш сервис	У них
ChatGPT Plus / Claude Pro	Переписка живёт на вашей видеокарте, в OpenAI / Anthropic ничего не уходит. Оплата по часам — пользуетесь час в день, платите меньше, чем за подписку.	Подписка ~2 000 ₽/мес фиксированно, данные уходят на серверы провайдера, доступ из РФ — через прослойки.
OpenAI / Anthropic API напрямую	Никаких токенов и счётов в долларах. Российская карта, чек на e-mail. Качайте 70B-модели бесплатно — платите только за GPU-время.	Иностранная карта обязательна, токены и оплата в долларах, поминутный лимит. С новыми моделями — постоянная пере-настройка ключей и квот.
LM Studio / Ollama на своём ПК	Любую 70B-модель запускаете на A6000 за 90 ₽/час. Никакой сборки железа, никаких 24/7 кулеров.	Без 24 ГБ VRAM (~150 000 ₽ за RTX 4090) — только 7B-модели на сносной скорости. 70B — мечта.
GPT4All / другие SaaS-«приватных чатов»	Полный контроль: SSH, изоляция инстанса, переписка в SQLite на вашем диске. Видно вам, не нам.	Закрытый сервис на чьих-то серверах — мы не знаем, какие у них логи и политика, и никто не знает.

ChatGPT Plus / Claude Pro

Наш сервис

Переписка живёт на вашей видеокарте, в OpenAI / Anthropic ничего не уходит. Оплата по часам — пользуетесь час в день, платите меньше, чем за подписку.

У них

Подписка ~2 000 ₽/мес фиксированно, данные уходят на серверы провайдера, доступ из РФ — через прослойки.

OpenAI / Anthropic API напрямую

Наш сервис

Никаких токенов и счётов в долларах. Российская карта, чек на e-mail. Качайте 70B-модели бесплатно — платите только за GPU-время.

У них

Иностранная карта обязательна, токены и оплата в долларах, поминутный лимит. С новыми моделями — постоянная пере-настройка ключей и квот.

LM Studio / Ollama на своём ПК

Наш сервис

Любую 70B-модель запускаете на A6000 за 90 ₽/час. Никакой сборки железа, никаких 24/7 кулеров.

У них

Без 24 ГБ VRAM (~150 000 ₽ за RTX 4090) — только 7B-модели на сносной скорости. 70B — мечта.

GPT4All / другие SaaS-«приватных чатов»

Наш сервис

Полный контроль: SSH, изоляция инстанса, переписка в SQLite на вашем диске. Видно вам, не нам.

У них

Закрытый сервис на чьих-то серверах — мы не знаем, какие у них логи и политика, и никто не знает.

Что попробовать в первые 15 минут

После запуска инстанса откроется Open WebUI с выбранной моделью. На первом экране — форма регистрации администратора инстанса. Это не фишинг и не наш аккаунт: учётка локальная, видна только на вашей видеокарте. Заполняете email + пароль (не обязаны быть настоящими, никто не проверяет), попадаете в чат.

Напишите выбранной модели «Привет, объясни в трёх предложениях, что такое RAG» — проверьте, что русский держится.
Откройте Settings → Admin → Models → Pull a model from Ollama.com и скачайте qwen2.5:14b — модель с более сильным русским. На RTX 4090 загрузится за минуту.
Переключитесь на скачанную модель в селекторе в шапке чата и сравните ответы на одном промпте.
Загрузите PDF через скрепку в окне ввода — спросите «о чём этот документ». Это и есть RAG.
Когда закончите — остановите инстанс кнопкой в панели управления, чтобы не платить за простой.

Подробное пошаговое руководство — в туториале по чат-боту. Эта страница — про сервис; туториал — про то, как именно нажимать на кнопки и какие модели выбирать под русский, под код, под длинный контекст.

Частые вопросы про чат-бот на open-source LLM

Сколько это реально стоит на практике?

Час работы — около 35 ₽ на RTX 4090, около 30 ₽ на RTX 3090. Платите только за время, пока инстанс запущен; остановили — счётчик встал. Типичный вечер за чатом — 30–60 ₽.

Чем это отличается от ChatGPT.com или Claude?

Главное отличие — приватность и контроль. Переписка живёт на арендованной вами видеокарте, мы её не видим, в OpenAI / Anthropic / Google ничего не уходит. Плюс вы платите только за фактическое время работы инстанса, а не подписку, и перед запуском выбираете одну из проверенных моделей. Что не получите: качество GPT-5 или Claude 4.6 — компактные open-source модели заметно слабее закрытых флагманов. Для серьёзных задач после запуска можно скачать Llama 3.3 70B или Qwen 2.5 72B (понадобится GPU от 48 ГБ).

Какие модели можно выбрать перед запуском?

В мастере запуска доступны проверенные пресеты: Llama 3.1 8B для базового чата, Qwen2.5 7B для русского/английского текста и Mistral 7B для быстрых экспериментов. После запуска можно дополнительно скачать любую модель из библиотеки Ollama: Llama 3.3 70B, Qwen 2.5 (14B/32B/72B), DeepSeek-R1, Mistral Small, Gemma 2, Phi-4 и другие.

Как обстоят дела с русским языком?

Llama 3.1 8B сносно понимает русский, но иногда сбивается на английский — для длинных русскоязычных диалогов лучше скачать Qwen 2.5 14B или 32B, у них русский в обучении представлен сильнее. DeepSeek-R1 тоже хорошо работает по-русски и умеет рассуждать пошагово. На 24 ГБ VRAM (RTX 4090, A5000) всё это запускается без квантизационных компромиссов.

Можно подключить как API, а не только через веб-чат?

Да. Open WebUI открывает OpenAI-совместимый эндпоинт на том же инстансе — настройки в админке. Можно подключать клиенты типа Continue.dev, Cline, Aider, librechat. Ollama также предоставляет собственный нативный API на порту 11434. Полезно для тех, кто хочет приватный LLM-эндпоинт в своих скриптах.

Можно загружать документы и спрашивать по ним?

Да. Open WebUI поддерживает загрузку PDF/DOCX/TXT и RAG поверх загруженного — встроено из коробки. Документы остаются на вашем инстансе, никуда не отправляются. На 24 ГБ VRAM можно работать с базой в сотни документов одновременно.

Сохранятся ли мои чаты между сеансами?

В пределах одного инстанса — да: Open WebUI хранит историю в локальной SQLite-базе на диске. После удаления инстанса всё пропадает. Если хотите сохранить важную переписку — экспортируйте её из Open WebUI (Settings → Chats → Export) перед остановкой, либо настройте регулярный бэкап через SSH.

Что мне покажет первый экран?

Open WebUI на первом заходе откроет форму регистрации — это штатное поведение, не фишинг. Первый зарегистрированный пользователь становится администратором инстанса; никаких email-подтверждений нет, регистрация локальная и видна только на вашей видеокарте. После регистрации сразу попадёте в чат с моделью, выбранной перед запуском.

Чем это отличается от вашего туториала по чат-боту?

Эта страница — про сам сервис: что такое локальная LLM, зачем брать в облаке, как сравнивать с ChatGPT, сколько стоит. Туториал /tutorials/chatbot — это пошаговая инструкция для тех, кто уже решил попробовать: как нажимать кнопки, как менять модели, как загружать документы для RAG.

Готовы запустить?

~10–15 минут до первого сообщения. Оплата по часам — остановили инстанс, счётчик встал.

Запустить за 1 клик