Свой LLM для Cursor

Запустите Qwen 2.5 Coder 32B на облачном GPU и подключите как кастомную модель в Cursor

от 24 ГБ VRAM ≈80 ₽/час ~10 минут до результата

Что это и зачем

Cursor умеет подключать любую OpenAI-совместимую модель — рядом с Claude, GPT и Composer в выпадающем списке моделей появится ещё одна, которая работает на арендованном вами GPU. Этот туториал поднимает такую модель за пару кликов: на облачной видеокарте запускается Qwen 2.5 Coder 32B — одна из лучших open-source моделей для кода, по качеству сравнимая с коммерческими — и публикуется через HTTPS-туннель, который вы вставляете в настройки Cursor.

Ваш код при работе с этой моделью не уходит ни к OpenAI, ни в Cursor Cloud — запросы идут с вашего ноутбука напрямую в туннель и оттуда на вашу видеокарту. Это полезно, если вы:

  • работаете с кодом, который нельзя отправлять в сторонние сервисы;
  • хотите попробовать open-source модели в реальном workflow, а не в чатах для демо;
  • упёрлись в лимиты Cursor Pro и ищете альтернативу с почасовой оплатой только когда модель действительно работает.

Что вы получите

OpenAI-совместимый API эндпоинт вида https://что-то.trycloudflare.com/v1, который принимает обычные POST /v1/chat/completions (Cursor отправляет именно их), с авторизацией по ключу sk-cc-…. Внутри — vLLM с моделью Qwen 2.5 Coder 32B Instruct (AWQ INT4).

В пайплайне:

  • vLLM с актуальной версией и Marlin-ядром для AWQ-квантизации
  • модель Qwen 2.5 Coder 32B в 4-битной квантизации (~22 ГБ VRAM)
  • автоматически сгенерированный API-ключ (свой на каждый запуск)
  • Cloudflare quick tunnel — HTTPS-адрес «из коробки», без DNS и сертификатов

Как это работает

  1. Нажмите «Запустить» — если ещё не вошли, откроется регистрация.
  2. Пополните баланс — для пробного сеанса хватит небольшой суммы (модель стоит около 80 ₽/час на RTX 4090).
  3. Сервис подберёт подходящую видеокарту от 24 ГБ VRAM и запустит инстанс.
  4. Через 5–10 минут на странице инстанса появится карточка «Подключить к Cursor» с тремя полями: Base URL, API key, Model name.
  5. Скопируйте их в Cursor → Settings → Models → Add custom model и выберите новую модель в селекторе.

Сколько ждать

Первый запуск занимает 5–10 минут: образ vLLM поднимается, скачивается модель (~20 ГБ) и одновременно поднимается Cloudflare-туннель. Дальше всё работает мгновенно — пока инстанс жив, эндпоинт открыт.

При перезапуске инстанса URL туннеля и API-ключ меняются — это особенность бесплатного Cloudflare quick tunnel. Вставьте новые значения в Cursor.

Как добавить в Cursor

  1. Откройте Cursor → Settings → Models.
  2. Нажмите Add custom model.
  3. Вставьте три поля из карточки на странице инстанса:
    • Base URL — ссылка вида https://…trycloudflare.com/v1
    • API Key — строка sk-cc-…
    • Model nameqwen-2.5-coder-32b
  4. Включите модель и выберите её в селекторе моделей внизу окна Cursor.
  5. Готово — теперь Tab, Chat и Composer работают через вашу видеокарту.

Если Cursor покажет ошибку соединения — проверьте, что в карточке инстанса не загорелась красная плашка с сообщением об ошибке, и что URL скопирован целиком вместе с /v1 в конце.

Сколько это стоит

Цена зависит от выбранной видеокарты. Ориентиры:

  • RTX 4090 (24 ГБ) — около 60–90 ₽/час, сладкая точка по цене.
  • RTX A6000 (48 ГБ) — около 120–180 ₽/час, с запасом памяти.
  • A100 80 ГБ / H100300–700 ₽/час, имеет смысл только для не-квантизованных версий модели.

Платите вы по факту работы видеокарты. Когда закончили — обязательно остановите инстанс кнопкой в панели управления, иначе вы будете платить за простой. При исчерпании баланса инстанс остановится автоматически, но это не страховка — следите за остатком.

Что попробовать дальше

  • Включите модель в Composer и Agent Mode в Cursor — Qwen 2.5 Coder неплохо справляется с tool-вызовами и многошаговыми правками.
  • Подключите этот же эндпоинт к другим OpenAI-совместимым клиентам: Continue.dev, Cline, Aider, curl — формат API одинаковый.
  • Если вы упираетесь в качество — поменяйте модель на не-AWQ версию на 80-гигабайтной карте: квантизация даёт заметный, но не критичный проигрыш. Это переменная окружения в скрипте провижининга.

Частые вопросы

Почему не Composer / Claude из коробки? Это альтернатива, а не замена. Composer и Claude обучены лучше и стабильнее в агентном режиме. Но они стоят денег по подписке и видят ваш код. Этот туториал — про сценарий, где важнее контроль и приватность.

Останется ли модель доступна, если я закрою браузер? Да. Пока инстанс работает, эндпоинт открыт. Закрытие вкладки с панелью управления никак не влияет на vLLM или туннель.

Что будет с моделью при остановке инстанса? Эндпоинт перестанет отвечать, Cursor покажет ошибку. При следующем запуске инстанса адрес и ключ будут другие — вставьте новые значения в Cursor.

Сохранится ли скачанная модель между запусками? В рамках одного запущенного инстанса — да. После остановки и нового запуска модель скачивается заново: каждый запуск — чистое окружение.

Можно ли подключить из других редакторов? Да. Любой клиент, который поддерживает OpenAI-совместимый эндпоинт (Continue.dev, Cline, Aider, raw curl) работает с теми же тремя значениями.

Что делать, если запуск завис? Если прогресс не двигается дольше 15 минут — остановите и пересоздайте инстанс. Логи провижининга доступны в панели управления, ошибка отобразится прямо на странице инстанса.

Рекомендуемые видеокарты

Готовы запустить?

Запустить туториал