Свой LLM для Cursor на облачном GPU
Qwen 2.5 Coder 32B как OpenAI-совместимый API. Полный приватный код, без отправки в Anthropic или OpenAI.
- ~10 минут до готового API
- от 80 ₽/час
- OpenAI-совместимый endpoint
- Код не покидает ваш инстанс
Что это даёт
Cursor — IDE на базе VS Code со встроенным AI-ассистентом от Anthropic и OpenAI. По умолчанию весь ваш код во время Chat- и Edit-операций отправляется на серверы Cursor, которые передают его в Claude или GPT-4. Для open-source проектов это никого не смущает, но корпоративные кодовые базы, проекты под NDA и контракты, запрещающие отправку кода в публичные LLM, в такой схеме работать не могут.
Наш сервис запускает локальный inference open-source модели Qwen 2.5 Coder 32B через vLLM, оборачивает в OpenAI-совместимый HTTPS-endpoint через Cloudflare Quick Tunnel, и даёт вам Base URL + API key. Вы добавляете их в Cursor как кастомную модель — Cursor дальше шлёт запросы прямо на ваш инстанс, минуя серверы Anthropic и OpenAI. Код не покидает вашу инфраструктуру.
Почему Qwen 2.5 Coder 32B
На HumanEval и в реальных кодовых задачах Qwen 2.5 Coder 32B показывает результаты на уровне GPT-4 Turbo и заметно выше Claude 3 Haiku. В отличие от закрытых моделей, веса полностью открыты — вы знаете, что именно стоит за ответами, и версия не поменяется без вашего ведома.
Мы запускаем вариант AWQ INT4 — квантизированная сборка, которая сохраняет качество исходной модели и при этом помещается в одну карту с 24 ГБ VRAM. Это означает, что вам не нужен мульти-GPU инстанс — RTX 4090 или RTX A6000 хватит для одного активного разработчика и непринуждённой подгрузки одного-двух коллег.
Как это считается в деньгах
Подписки Cursor — за seat, наш инстанс — за час GPU независимо от того, сколько людей к нему подключено. Для команд от 4 человек экономика переворачивается.
| Сценарий | Cursor Pro | Cursor Business | Наш сервис на RTX 4090 |
|---|---|---|---|
| 1 разработчик, 8 ч/день, 22 дня | $20/мес ≈ 1 700 ₽ | $40/мес ≈ 3 400 ₽ | ~14 000 ₽/мес |
| Команда из 4 человек | $80/мес ≈ 6 800 ₽ | $160/мес ≈ 13 600 ₽ | ~14 000 ₽/мес (один инстанс) |
| Команда из 10 человек | $200/мес ≈ 17 000 ₽ | $400/мес ≈ 34 000 ₽ | ~14 000 ₽ + апгрейд на A6000 |
Курс USD взят условно для иллюстрации — фактический может отличаться. Наш ценник зависит только от часов GPU.
GPU для Qwen 2.5 Coder 32B
Qwen 2.5 Coder 32B AWQ помещается в 24 ГБ VRAM. RTX 4090 — на одного-двух разработчиков, A6000 — для команды, H100 — если нужна пиковая скорость и многопоточность.
RTX 4090
48 ГБ VRAM
от 156.1 ₽/час
≈ 127 555 ₽/мес при 24/7
Кому это подходит
Разработчикам с приватным кодом
Корпоративная кодовая база, NDA-проекты, контракты, где запрещено отправлять код в публичные LLM. Cursor подключается к вашему инстансу — код никуда не уходит.
Командам и стартапам
Одну запущенную модель может использовать вся команда через общий endpoint. Дешевле, чем подписки Cursor Pro на каждого, если у вас 5+ разработчиков.
Соло-фрилансерам
Берёте по часам ровно под рабочий день — закрыли ноутбук, инстанс остановлен, счётчик встал. Никаких ежемесячных подписок.
AI-исследователям
Гоняйте свои промпт-инженерные эксперименты с известными весами и параметрами. Никакой A/B-маршрутизации между версиями моделей как в коммерческих API.
Технические нюансы, которые стоит знать заранее
- Скорость генерации. На RTX 4090 — 30–50 токенов/секунду на одного активного пользователя. Для Chat и Edit это комфортно (быстрее, чем читаете). Для Tab-completion может ощущаться медленнее, чем встроенный Cursor — это общая проблема всех self-hosted code-моделей, не только у нас.
- Cold start. Инстанс запускается с нуля 5–10 минут (vLLM загружает модель с быстрого SSD-кеша). В рабочий день запускаете один раз утром, останавливаете вечером.
- Только OpenAI-совместимый API. Cursor умеет работать с любым endpoint, который соблюдает OpenAI Chat Completions API. Ollama-совместимый протокол на текущей сборке не поднят.
Как подключить к Cursor
Полная пошаговая инструкция со скриншотами — в туториале по Cursor LLM. Если коротко:
- Запускаете инстанс. В панели управления через 5–10 минут появляются Base URL и API key.
- В Cursor: Settings → Models → + Add Model → Custom OpenAI.
- Вставляете Base URL (что-то вроде
https://<random>.trycloudflare.com/v1), API key, имя моделиqwen-2.5-coder-32b-instruct-awq. - Включаете эту модель в активные. Cursor проверит соединение и зажжёт зелёную галочку.
Частые вопросы про Cursor + Qwen 2.5 Coder
Сколько токенов в минуту я получу?
Какие модели можно поставить, кроме Qwen 2.5 Coder?
Как именно код не уходит за пределы моего инстанса?
Работает ли это с Tab-комплитом в Cursor?
Сколько в месяц выйдет, если использовать каждый день?
Что с задержкой? Cursor же требует быстрой реакции.
Как добавить как модель в Cursor?
Можно ли запустить inference на нескольких карточках?
Перезапускать каждый день — это нормально?
Чем это отличается от туториала по Cursor LLM?
Готовы вернуть себе контроль над кодом?
10 минут до первого ответа из вашей собственной LLM. Cursor подключится за минуту.
Поднять свой Cursor LLM