Self-hosted coding LLM

ИИ-агент для кода на своём GPU

Qwen2.5-Coder-32B через vLLM на облачной видеокарте — OpenAI-совместимый эндпоинт для CloudCompute Coder, Cline, Continue, Aider и любого совместимого клиента.

~10 минут до API
от 80 ₽/час
OpenAI-совместимый endpoint
VS Code / Cline / Continue

Запустить агента для кода CloudCompute Coder для VS Code →

Что это даёт

Облачный GPU с Qwen2.5-Coder-32B через vLLM и HTTPS-туннель. Вы получаете OpenAI-совместимый API и подключаете его к редактору — код остаётся на вашем инстансе, а не у стороннего SaaS.

Рекомендуем CloudCompute Coder — наше расширение для VS Code. Также работают Cline, Continue.dev, Aider и любой клиент с Chat Completions API.

Cursor: кастомная модель доступна только для обычного Chat; Agent/Edit/Tab — на встроенных моделях Cursor. Для полноценного агента используйте Coder или Cline.

GPU для Qwen2.5-Coder-32B

Модель AWQ помещается в 24 ГБ VRAM — RTX 4090 для одного-двух разработчиков, A6000/H100 для команды и высокой нагрузки.

RTX 4090

48 ГБ VRAM

от 20.57 ₽/час

≈ 38 002 ₽/мес при 24/7

Запустить на RTX 4090 Подробнее о RTX 4090

RTX A6000

48 ГБ VRAM

от 95.22 ₽/час

≈ 68 558 ₽/мес при 24/7

Запустить на RTX A6000 Подробнее о RTX A6000

H100 SXM

80 ГБ VRAM

от 276.29 ₽/час

≈ 198 929 ₽/мес при 24/7

Запустить на H100 SXM Подробнее о H100 SXM

Как подключить

Запустите приложение — через 5–10 минут на странице инстанса появятся Base URL, API key и имя модели.
VS Code: установите CloudCompute Coder и вставьте настройки.
Cline / Continue: добавьте OpenAI-compatible provider с теми же полями.

Подробнее — в туториале.

Частые вопросы

С чем это работает из коробки?

Любой клиент с OpenAI Chat Completions API: наше расширение CloudCompute Coder для VS Code, Cline, Continue.dev, Aider, curl. Cursor поддерживает кастомные модели только для обычного Chat — Agent, Edit и Tab остаются на встроенных моделях Cursor.

Сколько токенов в секунду?

На RTX 4090 — порядка 30–50 токенов/сек для одного активного запроса. Для чата и правок кода этого достаточно; Tab-completion может быть медленнее, чем у облачных сервисов.

Код уходит на ваши серверы?

Нет. Запросы идут с вашего компьютера на HTTPS-туннель вашего инстанса. Мы видим факт работы GPU для биллинга, но не содержимое промптов.

Как подключить CloudCompute Coder?

Скачайте расширение на странице /coder или в разделе «Среда разработки» панели управления. После запуска приложения скопируйте Base URL, API key и имя модели с карточки инстанса.

Почему URL меняется после перезапуска?

Бесплатный Cloudflare quick tunnel выдаёт новый адрес на каждый запуск. Скопируйте свежие значения в клиент после каждого нового инстанса.

Сколько стоит рабочий день?

8 часов × ~80 ₽/час на RTX 4090 ≈ 640 ₽ за день. Останавливайте инстанс, когда не пишете код — платите только за активное время GPU.

Свой coding LLM за 10 минут

Запустить агента для кода