Qwen2.5-Coder-32B через vLLM — OpenAI-совместимый API для VS Code, Cline, Continue и других клиентов

Что это и зачем

Это приложение поднимает на облачной видеокарте Qwen2.5-Coder-32B через vLLM и отдаёт OpenAI-совместимый HTTPS-эндпоинт (POST /v1/chat/completions). Его можно подключить к любому клиенту, который умеет работать с OpenAI API:

CloudCompute Coder — наше расширение для VS Code (рекомендуемый путь);
Cline, Continue.dev, Aider — популярные open-source ассистенты в VS Code / JetBrains;
curl или свой скрипт через OpenAI SDK.

Код и промпты не проходят через наши серверы — запросы идут с вашего компьютера на HTTPS-туннель вашего инстанса.

Про Cursor: Cursor принимает кастомные OpenAI-модели только для обычного Chat. Agent, Edit и Tab остаются на встроенных моделях Cursor — это ограничение самого Cursor, а не нашего сервиса. Если вам нужен полноценный агент в редакторе, используйте CloudCompute Coder, Cline или Continue.

Что вы получите

vLLM с Qwen2.5-Coder-32B-Instruct-AWQ (~24 ГБ VRAM);
автоматически сгенерированный API-ключ;
Cloudflare quick tunnel — HTTPS Base URL вида https://….trycloudflare.com/v1;
карточку на странице инстанса с тремя полями: Base URL, API key, Model name (qwen2.5-coder-32b).

Как это работает

Нажмите «Запустить» в разделе Приложения — при необходимости зарегистрируйтесь и пополните баланс.
Мастер подберёт GPU от 24 ГБ VRAM (RTX 4090, A6000 и др.).
Через 5–10 минут на странице инстанса появится карточка с настройками подключения.
Скопируйте значения в клиент:
- CloudCompute Coder: установите .vsix с /coder или из раздела Среда разработки в панели → вставьте Base URL и ключ в настройки расширения.
- Cline / Continue: Settings → добавьте OpenAI-compatible provider с теми же тремя полями.
- Cursor (только Chat): Settings → Models → Custom OpenAI — те же поля; Agent/Tab работать не будут.

Сколько ждать

Первый запуск — 5–10 минут (vLLM, загрузка модели ~20 ГБ, поднятие туннеля). Пока инстанс работает, эндпоинт доступен. После остановки URL и ключ меняются — вставьте новые значения в клиент.

Сколько это стоит

Ориентиры на RTX 4090: ~60–90 ₽/час. Платите только за время работы GPU — останавливайте инстанс, когда закончили сессию.

Что попробовать дальше

Подключите тот же эндпоинт к нескольким клиентам — формат API одинаковый.
Для команды из 4+ человек один инстанс часто дешевле, чем отдельные подписки на облачные ассистенты.
Если качество AWQ не устраивает — на 80 ГБ карте можно перейти на полную версию модели (настройка на стороне provision-скрипта).

Частые вопросы

Что если запуск завис? Если прогресс стоит дольше 15 минут — остановите и пересоздайте инстанс. Логи провижининга доступны на странице инстанса.

Сохранится ли модель между запусками? В рамках одного запущенного инстанса — да. После остановки каждый новый запуск — чистое окружение.

Безопасно ли для NDA-кода? Запросы идут напрямую на ваш инстанс. Мы не храним содержимое промптов.

ИИ-агент для кода на GPU