Self-hosted coding LLM

ИИ-агент для кода на своём GPU

Qwen2.5-Coder-32B через vLLM на облачной видеокарте — OpenAI-совместимый эндпоинт для CloudCompute Coder, Cline, Continue, Aider и любого совместимого клиента.

  • ~10 минут до API
  • от 80 ₽/час
  • OpenAI-совместимый endpoint
  • VS Code / Cline / Continue

Что это даёт

Облачный GPU с Qwen2.5-Coder-32B через vLLM и HTTPS-туннель. Вы получаете OpenAI-совместимый API и подключаете его к редактору — код остаётся на вашем инстансе, а не у стороннего SaaS.

Рекомендуем CloudCompute Coder — наше расширение для VS Code. Также работают Cline, Continue.dev, Aider и любой клиент с Chat Completions API.

Cursor: кастомная модель доступна только для обычного Chat; Agent/Edit/Tab — на встроенных моделях Cursor. Для полноценного агента используйте Coder или Cline.

GPU для Qwen2.5-Coder-32B

Модель AWQ помещается в 24 ГБ VRAM — RTX 4090 для одного-двух разработчиков, A6000/H100 для команды и высокой нагрузки.

RTX 4090

48 ГБ VRAM

RTX 4090

от 74.61 ₽/час

≈ 76 896 ₽/мес при 24/7

RTX A6000

48 ГБ VRAM

от 96.78 ₽/час

≈ 69 682 ₽/мес при 24/7

H100 SXM

80 ГБ VRAM

H100 SXM

от 526.96 ₽/час

≈ 379 411 ₽/мес при 24/7

Как подключить

  1. Запустите приложение — через 5–10 минут на странице инстанса появятся Base URL, API key и имя модели.
  2. VS Code: установите CloudCompute Coder и вставьте настройки.
  3. Cline / Continue: добавьте OpenAI-compatible provider с теми же полями.

Подробнее — в туториале.

Частые вопросы

С чем это работает из коробки?

Любой клиент с OpenAI Chat Completions API: наше расширение CloudCompute Coder для VS Code, Cline, Continue.dev, Aider, curl. Cursor поддерживает кастомные модели только для обычного Chat — Agent, Edit и Tab остаются на встроенных моделях Cursor.

Сколько токенов в секунду?

На RTX 4090 — порядка 30–50 токенов/сек для одного активного запроса. Для чата и правок кода этого достаточно; Tab-completion может быть медленнее, чем у облачных сервисов.

Код уходит на ваши серверы?

Нет. Запросы идут с вашего компьютера на HTTPS-туннель вашего инстанса. Мы видим факт работы GPU для биллинга, но не содержимое промптов.

Как подключить CloudCompute Coder?

Скачайте расширение на странице /coder или в разделе «Среда разработки» панели управления. После запуска приложения скопируйте Base URL, API key и имя модели с карточки инстанса.

Почему URL меняется после перезапуска?

Бесплатный Cloudflare quick tunnel выдаёт новый адрес на каждый запуск. Скопируйте свежие значения в клиент после каждого нового инстанса.

Сколько стоит рабочий день?

8 часов × ~80 ₽/час на RTX 4090 ≈ 640 ₽ за день. Останавливайте инстанс, когда не пишете код — платите только за активное время GPU.

Свой coding LLM за 10 минут

Запустить агента для кода