Свой LLM для Cursor
Запустите Qwen 2.5 Coder 32B на облачном GPU и подключите как кастомную модель в Cursor
Что это и зачем
Cursor умеет подключать любую OpenAI-совместимую модель — рядом с Claude, GPT и Composer в выпадающем списке моделей появится ещё одна, которая работает на арендованном вами GPU. Этот туториал поднимает такую модель за пару кликов: на облачной видеокарте запускается Qwen 2.5 Coder 32B — одна из лучших open-source моделей для кода, по качеству сравнимая с коммерческими — и публикуется через HTTPS-туннель, который вы вставляете в настройки Cursor.
Ваш код при работе с этой моделью не уходит ни к OpenAI, ни в Cursor Cloud — запросы идут с вашего ноутбука напрямую в туннель и оттуда на вашу видеокарту. Это полезно, если вы:
- работаете с кодом, который нельзя отправлять в сторонние сервисы;
- хотите попробовать open-source модели в реальном workflow, а не в чатах для демо;
- упёрлись в лимиты Cursor Pro и ищете альтернативу с почасовой оплатой только когда модель действительно работает.
Что вы получите
OpenAI-совместимый API эндпоинт вида
https://что-то.trycloudflare.com/v1, который принимает обычные
POST /v1/chat/completions (Cursor отправляет именно их), с
авторизацией по ключу sk-cc-…. Внутри — vLLM с моделью Qwen 2.5
Coder 32B Instruct (AWQ INT4).
В пайплайне:
- vLLM с актуальной версией и Marlin-ядром для AWQ-квантизации
- модель Qwen 2.5 Coder 32B в 4-битной квантизации (~22 ГБ VRAM)
- автоматически сгенерированный API-ключ (свой на каждый запуск)
- Cloudflare quick tunnel — HTTPS-адрес «из коробки», без DNS и сертификатов
Как это работает
- Нажмите «Запустить» — если ещё не вошли, откроется регистрация.
- Пополните баланс — для пробного сеанса хватит небольшой суммы (модель стоит около 80 ₽/час на RTX 4090).
- Сервис подберёт подходящую видеокарту от 24 ГБ VRAM и запустит инстанс.
- Через 5–10 минут на странице инстанса появится карточка «Подключить к Cursor» с тремя полями: Base URL, API key, Model name.
- Скопируйте их в Cursor → Settings → Models → Add custom model и выберите новую модель в селекторе.
Сколько ждать
Первый запуск занимает 5–10 минут: образ vLLM поднимается, скачивается модель (~20 ГБ) и одновременно поднимается Cloudflare-туннель. Дальше всё работает мгновенно — пока инстанс жив, эндпоинт открыт.
При перезапуске инстанса URL туннеля и API-ключ меняются — это особенность бесплатного Cloudflare quick tunnel. Вставьте новые значения в Cursor.
Как добавить в Cursor
- Откройте Cursor → Settings → Models.
- Нажмите Add custom model.
- Вставьте три поля из карточки на странице инстанса:
- Base URL — ссылка вида
https://…trycloudflare.com/v1 - API Key — строка
sk-cc-… - Model name —
qwen-2.5-coder-32b
- Base URL — ссылка вида
- Включите модель и выберите её в селекторе моделей внизу окна Cursor.
- Готово — теперь Tab, Chat и Composer работают через вашу видеокарту.
Если Cursor покажет ошибку соединения — проверьте, что в карточке
инстанса не загорелась красная плашка с сообщением об ошибке, и что
URL скопирован целиком вместе с /v1 в конце.
Сколько это стоит
Цена зависит от выбранной видеокарты. Ориентиры:
- RTX 4090 (24 ГБ) — около 60–90 ₽/час, сладкая точка по цене.
- RTX A6000 (48 ГБ) — около 120–180 ₽/час, с запасом памяти.
- A100 80 ГБ / H100 — 300–700 ₽/час, имеет смысл только для не-квантизованных версий модели.
Платите вы по факту работы видеокарты. Когда закончили — обязательно остановите инстанс кнопкой в панели управления, иначе вы будете платить за простой. При исчерпании баланса инстанс остановится автоматически, но это не страховка — следите за остатком.
Что попробовать дальше
- Включите модель в Composer и Agent Mode в Cursor — Qwen 2.5 Coder неплохо справляется с tool-вызовами и многошаговыми правками.
- Подключите этот же эндпоинт к другим OpenAI-совместимым клиентам:
Continue.dev, Cline, Aider,
curl— формат API одинаковый. - Если вы упираетесь в качество — поменяйте модель на не-AWQ версию на 80-гигабайтной карте: квантизация даёт заметный, но не критичный проигрыш. Это переменная окружения в скрипте провижининга.
Частые вопросы
Почему не Composer / Claude из коробки? Это альтернатива, а не замена. Composer и Claude обучены лучше и стабильнее в агентном режиме. Но они стоят денег по подписке и видят ваш код. Этот туториал — про сценарий, где важнее контроль и приватность.
Останется ли модель доступна, если я закрою браузер? Да. Пока инстанс работает, эндпоинт открыт. Закрытие вкладки с панелью управления никак не влияет на vLLM или туннель.
Что будет с моделью при остановке инстанса? Эндпоинт перестанет отвечать, Cursor покажет ошибку. При следующем запуске инстанса адрес и ключ будут другие — вставьте новые значения в Cursor.
Сохранится ли скачанная модель между запусками? В рамках одного запущенного инстанса — да. После остановки и нового запуска модель скачивается заново: каждый запуск — чистое окружение.
Можно ли подключить из других редакторов? Да. Любой клиент,
который поддерживает OpenAI-совместимый эндпоинт (Continue.dev, Cline,
Aider, raw curl) работает с теми же тремя значениями.
Что делать, если запуск завис? Если прогресс не двигается дольше 15 минут — остановите и пересоздайте инстанс. Логи провижининга доступны в панели управления, ошибка отобразится прямо на странице инстанса.
Готовы запустить?
Запустить туториал