Свой чат-бот с open-source LLM на облачном GPU
Знакомый веб-чат поверх Llama 3.1, Qwen 2.5, DeepSeek-R1 — на вашей собственной видеокарте. ChatGPT-подобный интерфейс, никаких данных в OpenAI.
- ~5 минут до первого чата
- от 30 ₽/час
- Llama 3.1 уже загружена
- переписка не уходит в OpenAI
Цены на чат-бот в облаке
Llama 3.1 8B по умолчанию работает на любой карте от 12 ГБ VRAM — RTX 3090 для бытового чата, 4090 если планируете подключать API и нагружать инстанс, A6000 / A100 при работе с 70B-моделями и большими контекстами.
RTX 3090
24 ГБ VRAM

от 105.63 ₽/час
≈ 76 054 ₽/мес при 24/7
RTX 4090
24 ГБ VRAM

от 212.13 ₽/час
≈ 152 734 ₽/мес при 24/7
Что это такое
Open WebUI — open-source веб-чат с интерфейсом, очень похожим на ChatGPT: переписка списком слева, окно ввода снизу, переключение моделей в шапке, история, поиск, выгрузка истории в JSON. Под капотом вместо OpenAI-серверов запросы уходят на Ollama — менеджер локальных LLM, который умеет одной командой скачать модель из своей библиотеки (Llama, Qwen, DeepSeek, Mistral, Gemma и сотни других) и запустить её на GPU.
В этом сервисе мы поднимаем оба компонента на арендованной у нас видеокарте, докачиваем по умолчанию Llama 3.1 8B — компактную модель Meta, которая нормально говорит по-русски и помещается в 12 ГБ VRAM — и выдаём вам ссылку на веб-чат. Никаких терминалов, никакой ручной установки CUDA: открыли страницу, создали учётную запись администратора, начали диалог.
Зачем приватный LLM, если есть ChatGPT
Главное — где живёт переписка. Когда вы пишете в ChatGPT, ваш текст уходит на серверы OpenAI; они могут использовать его для обучения (если вы явно не выключили в настройках), а в России доступ к самому сайту работает через прослойки разной степени надёжности. Здесь переписка живёт на GPU, который вы арендуете у нас: модель работает локально, в OpenAI / Anthropic / Google ничего не уходит, никакой VPN не нужен.
Второе — стоимость. Подписка ChatGPT Plus — около 2 000 ₽/мес фиксированно. Тут вы платите только за время, пока инстанс работает: 30 ₽/час на RTX 3090, 35 ₽/час на 4090. Если используете чат час-другой в день — выходит в два-три раза дешевле подписки. Если только эпизодически — в десять раз. Если каждый день и много — подписка может стать выгоднее, и это честный ориентир, не оправдание.
Что не получите: «такое же качество, как в GPT-5». Llama 3.1 8B заметно слабее закрытых флагманов; для серьёзных задач переключайтесь на Llama 3.3 70B или Qwen 2.5 72B — но им нужно 48+ ГБ VRAM (A6000 / A100 / H100), и цена сразу поднимается до 90–250 ₽/час. Тут уже считайте сами под свой объём работы.
Кому это подходит
Тем, кто не хочет грузить данные в OpenAI
Юристы, аналитики, врачи, журналисты, инженеры с NDA — все, у кого переписка не должна оказаться в чужом облаке. Инстанс изолирован, диск вайпается при остановке.
Разработчикам и AI-инженерам
Open WebUI выдаёт OpenAI-совместимый эндпоинт на том же инстансе. Подключайте Continue.dev, Cline, Aider, свои скрипты — приватный LLM-эндпоинт с почасовой оплатой, без подписки на API.
Тем, кто работает с документами
Загружаете PDF / DOCX / TXT — Open WebUI индексирует их и отвечает на вопросы по содержанию (RAG из коробки). Документы остаются на вашем инстансе, никуда не отправляются.
Энтузиастам open-source моделей
Хотите попробовать DeepSeek-R1 на 70B? Qwen 2.5 32B? Mistral Small? Скачиваете через Ollama одной командой, переключаетесь в селекторе моделей. Не нужно собирать своё железо за 300 000 ₽.
Что уже на инстансе
Готовое окружение — не пустая Ubuntu. После запуска открываете веб-интерфейс, создаёте админский аккаунт, начинаете писать.
- Open WebUI 0.8 — ChatGPT-подобный веб-чат: история, поиск, переключение моделей, экспорт переписки в JSON.
- Ollama — менеджер локальных моделей с GPU-ускорением и OpenAI-совместимым API.
- Модель Llama 3.1 8B (~5 ГБ) — на диске, не нужно тянуть из интернета при первом сообщении.
- Поддержка RAG: загружаете PDF / DOCX / TXT, спрашиваете по содержимому.
- OpenAI-совместимый API на том же инстансе — подключайте Continue.dev, Cline, свои скрипты.
- HTTPS-туннель к веб-чату настраивается автоматически — никаких терминалов, никакого SSH.
Чем отличается от альтернатив
ChatGPT Plus / Claude Pro
Наш сервис
Переписка живёт на вашей видеокарте, в OpenAI / Anthropic ничего не уходит. Оплата по часам — пользуетесь час в день, платите меньше, чем за подписку.
У них
Подписка ~2 000 ₽/мес фиксированно, данные уходят на серверы провайдера, доступ из РФ — через прослойки.
OpenAI / Anthropic API напрямую
Наш сервис
Никаких токенов и счётов в долларах. Российская карта, чек на e-mail. Качайте 70B-модели бесплатно — платите только за GPU-время.
У них
Иностранная карта обязательна, токены и оплата в долларах, поминутный лимит. С новыми моделями — постоянная пере-настройка ключей и квот.
LM Studio / Ollama на своём ПК
Наш сервис
Любую 70B-модель запускаете на A6000 за 90 ₽/час. Никакой сборки железа, никаких 24/7 кулеров.
У них
Без 24 ГБ VRAM (~150 000 ₽ за RTX 4090) — только 7B-модели на сносной скорости. 70B — мечта.
GPT4All / другие SaaS-«приватных чатов»
Наш сервис
Полный контроль: SSH, изоляция инстанса, переписка в SQLite на вашем диске. Видно вам, не нам.
У них
Закрытый сервис на чьих-то серверах — мы не знаем, какие у них логи и политика, и никто не знает.
Что попробовать в первые 15 минут
После запуска инстанса откроется Open WebUI. На первом экране — форма регистрации администратора инстанса. Это не фишинг и не наш аккаунт: учётка локальная, видна только на вашей видеокарте. Заполняете email + пароль (не обязаны быть настоящими, никто не проверяет), попадаете в чат.
- Напишите модели «Привет, объясни в трёх предложениях, что такое RAG» — проверьте, что русский держится.
- Откройте Settings → Admin → Models → Pull a model from Ollama.com и скачайте
qwen2.5:14b— модель с более сильным русским. На RTX 4090 загрузится за минуту. - Переключитесь на скачанную модель в селекторе в шапке чата и сравните ответы на одном промпте.
- Загрузите PDF через скрепку в окне ввода — спросите «о чём этот документ». Это и есть RAG.
- Когда закончите — остановите инстанс кнопкой в панели управления, чтобы не платить за простой.
Подробное пошаговое руководство — в туториале по чат-боту. Эта страница — про сервис; туториал — про то, как именно нажимать на кнопки и какие модели выбирать под русский, под код, под длинный контекст.
Частые вопросы про чат-бот на open-source LLM
Сколько это реально стоит на практике?
Чем это отличается от ChatGPT.com или Claude?
Какие модели можно скачать кроме предустановленной?
Как обстоят дела с русским языком?
Можно подключить как API, а не только через веб-чат?
Можно загружать документы и спрашивать по ним?
Сохранятся ли мои чаты между сеансами?
Что мне покажет первый экран?
Чем это отличается от вашего туториала по чат-боту?
Готовы запустить?
5 минут до первого сообщения. Оплата по часам — остановили инстанс, счётчик встал.
Запустить за 1 клик