ИИ-агент для кода на GPU
Qwen2.5-Coder-32B через vLLM — OpenAI-совместимый API для VS Code, Cline, Continue и других клиентов
Что это и зачем
Это приложение поднимает на облачной видеокарте Qwen2.5-Coder-32B через vLLM и отдаёт OpenAI-совместимый HTTPS-эндпоинт (POST /v1/chat/completions). Его можно подключить к любому клиенту, который умеет работать с OpenAI API:
- CloudCompute Coder — наше расширение для VS Code (рекомендуемый путь);
- Cline, Continue.dev, Aider — популярные open-source ассистенты в VS Code / JetBrains;
- curl или свой скрипт через OpenAI SDK.
Код и промпты не проходят через наши серверы — запросы идут с вашего компьютера на HTTPS-туннель вашего инстанса.
Про Cursor: Cursor принимает кастомные OpenAI-модели только для обычного Chat. Agent, Edit и Tab остаются на встроенных моделях Cursor — это ограничение самого Cursor, а не нашего сервиса. Если вам нужен полноценный агент в редакторе, используйте CloudCompute Coder, Cline или Continue.
Что вы получите
- vLLM с Qwen2.5-Coder-32B-Instruct-AWQ (~24 ГБ VRAM);
- автоматически сгенерированный API-ключ;
- Cloudflare quick tunnel — HTTPS Base URL вида
https://….trycloudflare.com/v1; - карточку на странице инстанса с тремя полями: Base URL, API key, Model name (
qwen2.5-coder-32b).
Как это работает
- Нажмите «Запустить» в разделе Приложения — при необходимости зарегистрируйтесь и пополните баланс.
- Мастер подберёт GPU от 24 ГБ VRAM (RTX 4090, A6000 и др.).
- Через 5–10 минут на странице инстанса появится карточка с настройками подключения.
- Скопируйте значения в клиент:
- CloudCompute Coder: установите
.vsixс /coder или из раздела Среда разработки в панели → вставьте Base URL и ключ в настройки расширения. - Cline / Continue: Settings → добавьте OpenAI-compatible provider с теми же тремя полями.
- Cursor (только Chat): Settings → Models → Custom OpenAI — те же поля; Agent/Tab работать не будут.
- CloudCompute Coder: установите
Сколько ждать
Первый запуск — 5–10 минут (vLLM, загрузка модели ~20 ГБ, поднятие туннеля). Пока инстанс работает, эндпоинт доступен. После остановки URL и ключ меняются — вставьте новые значения в клиент.
Сколько это стоит
Ориентиры на RTX 4090: ~60–90 ₽/час. Платите только за время работы GPU — останавливайте инстанс, когда закончили сессию.
Что попробовать дальше
- Подключите тот же эндпоинт к нескольким клиентам — формат API одинаковый.
- Для команды из 4+ человек один инстанс часто дешевле, чем отдельные подписки на облачные ассистенты.
- Если качество AWQ не устраивает — на 80 ГБ карте можно перейти на полную версию модели (настройка на стороне provision-скрипта).
Частые вопросы
Что если запуск завис? Если прогресс стоит дольше 15 минут — остановите и пересоздайте инстанс. Логи провижининга доступны на странице инстанса.
Сохранится ли модель между запусками? В рамках одного запущенного инстанса — да. После остановки каждый новый запуск — чистое окружение.
Безопасно ли для NDA-кода? Запросы идут напрямую на ваш инстанс. Мы не храним содержимое промптов.
Готовы запустить?
Запустить туториал