Self-hosted LLM для Cursor IDE

Свой LLM для Cursor на облачном GPU

Qwen 2.5 Coder 32B как OpenAI-совместимый API. Полный приватный код, без отправки в Anthropic или OpenAI.

  • ~10 минут до готового API
  • от 80 ₽/час
  • OpenAI-совместимый endpoint
  • Код не покидает ваш инстанс

Что это даёт

Cursor — IDE на базе VS Code со встроенным AI-ассистентом от Anthropic и OpenAI. По умолчанию весь ваш код во время Chat- и Edit-операций отправляется на серверы Cursor, которые передают его в Claude или GPT-4. Для open-source проектов это никого не смущает, но корпоративные кодовые базы, проекты под NDA и контракты, запрещающие отправку кода в публичные LLM, в такой схеме работать не могут.

Наш сервис запускает локальный inference open-source модели Qwen 2.5 Coder 32B через vLLM, оборачивает в OpenAI-совместимый HTTPS-endpoint через Cloudflare Quick Tunnel, и даёт вам Base URL + API key. Вы добавляете их в Cursor как кастомную модель — Cursor дальше шлёт запросы прямо на ваш инстанс, минуя серверы Anthropic и OpenAI. Код не покидает вашу инфраструктуру.

Почему Qwen 2.5 Coder 32B

На HumanEval и в реальных кодовых задачах Qwen 2.5 Coder 32B показывает результаты на уровне GPT-4 Turbo и заметно выше Claude 3 Haiku. В отличие от закрытых моделей, веса полностью открыты — вы знаете, что именно стоит за ответами, и версия не поменяется без вашего ведома.

Мы запускаем вариант AWQ INT4 — квантизированная сборка, которая сохраняет качество исходной модели и при этом помещается в одну карту с 24 ГБ VRAM. Это означает, что вам не нужен мульти-GPU инстанс — RTX 4090 или RTX A6000 хватит для одного активного разработчика и непринуждённой подгрузки одного-двух коллег.

Как это считается в деньгах

Подписки Cursor — за seat, наш инстанс — за час GPU независимо от того, сколько людей к нему подключено. Для команд от 4 человек экономика переворачивается.

Сценарий Cursor Pro Cursor Business Наш сервис на RTX 4090
1 разработчик, 8 ч/день, 22 дня $20/мес ≈ 1 700 ₽ $40/мес ≈ 3 400 ₽ ~14 000 ₽/мес
Команда из 4 человек $80/мес ≈ 6 800 ₽ $160/мес ≈ 13 600 ₽ ~14 000 ₽/мес (один инстанс)
Команда из 10 человек $200/мес ≈ 17 000 ₽ $400/мес ≈ 34 000 ₽ ~14 000 ₽ + апгрейд на A6000

Курс USD взят условно для иллюстрации — фактический может отличаться. Наш ценник зависит только от часов GPU.

GPU для Qwen 2.5 Coder 32B

Qwen 2.5 Coder 32B AWQ помещается в 24 ГБ VRAM. RTX 4090 — на одного-двух разработчиков, A6000 — для команды, H100 — если нужна пиковая скорость и многопоточность.

RTX 4090

48 ГБ VRAM

RTX 4090

от 156.1 ₽/час

≈ 127 555 ₽/мес при 24/7

Кому это подходит

Разработчикам с приватным кодом

Корпоративная кодовая база, NDA-проекты, контракты, где запрещено отправлять код в публичные LLM. Cursor подключается к вашему инстансу — код никуда не уходит.

Командам и стартапам

Одну запущенную модель может использовать вся команда через общий endpoint. Дешевле, чем подписки Cursor Pro на каждого, если у вас 5+ разработчиков.

Соло-фрилансерам

Берёте по часам ровно под рабочий день — закрыли ноутбук, инстанс остановлен, счётчик встал. Никаких ежемесячных подписок.

AI-исследователям

Гоняйте свои промпт-инженерные эксперименты с известными весами и параметрами. Никакой A/B-маршрутизации между версиями моделей как в коммерческих API.

Технические нюансы, которые стоит знать заранее

  • Скорость генерации. На RTX 4090 — 30–50 токенов/секунду на одного активного пользователя. Для Chat и Edit это комфортно (быстрее, чем читаете). Для Tab-completion может ощущаться медленнее, чем встроенный Cursor — это общая проблема всех self-hosted code-моделей, не только у нас.
  • Cold start. Инстанс запускается с нуля 5–10 минут (vLLM загружает модель с быстрого SSD-кеша). В рабочий день запускаете один раз утром, останавливаете вечером.
  • Только OpenAI-совместимый API. Cursor умеет работать с любым endpoint, который соблюдает OpenAI Chat Completions API. Ollama-совместимый протокол на текущей сборке не поднят.

Как подключить к Cursor

Полная пошаговая инструкция со скриншотами — в туториале по Cursor LLM. Если коротко:

  1. Запускаете инстанс. В панели управления через 5–10 минут появляются Base URL и API key.
  2. В Cursor: Settings → Models → + Add Model → Custom OpenAI.
  3. Вставляете Base URL (что-то вроде https://<random>.trycloudflare.com/v1), API key, имя модели qwen-2.5-coder-32b-instruct-awq.
  4. Включаете эту модель в активные. Cursor проверит соединение и зажжёт зелёную галочку.

Частые вопросы про Cursor + Qwen 2.5 Coder

Сколько токенов в минуту я получу?

На RTX 4090 — порядка 30–50 токенов/сек для одного активного запроса. На A100/H100 — в 2–3 раза быстрее, плюс параллельные запросы для команды. Cursor работает комфортно начиная с 20 токенов/сек.

Какие модели можно поставить, кроме Qwen 2.5 Coder?

По умолчанию — Qwen 2.5 Coder 32B AWQ (8-bit). По запросу можем настроить DeepSeek Coder, Codestral, Llama 3.3 — любые open-source модели, которые поддерживает vLLM. Пишите в поддержку.

Как именно код не уходит за пределы моего инстанса?

Cursor отправляет запросы напрямую на ваш HTTPS-туннель через Cloudflare. Туннель работает только для активного инстанса с уникальным URL. Мы видим факт обращения (для биллинга) — но не содержимое запросов.

Работает ли это с Tab-комплитом в Cursor?

Pro/Business-фичи Cursor (Tab-комплит, Agent Mode) частично работают с кастомными моделями. Полный список ограничений зависит от версии Cursor — рекомендуем сначала проверить на бесплатном тарифе. Chat и Edit с кастомной моделью работают стабильно.

Сколько в месяц выйдет, если использовать каждый день?

8 часов в день × 22 рабочих дня × ~80 ₽/час ≈ 14 000 ₽/мес на RTX 4090. Дешевле, чем Cursor Business на команду из 4 человек ($80×4×80₽ ≈ 25 600 ₽/мес). Останавливаете инстанс на ночь и выходные — экономите ещё.

Что с задержкой? Cursor же требует быстрой реакции.

Дата-центры в Европе дают 30–80 мс пинга из Москвы. Inference на 32B-модели — 0.3–0.5 секунды на первый токен, дальше стрим. Для Chat это незаметно; для Tab-комплита может быть медленнее, чем встроенный Cursor — открытая проблема всех self-hosted решений.

Как добавить как модель в Cursor?

В настройках Cursor → Models → Custom OpenAI. Base URL и API key мы показываем сразу после запуска в панели управления — копируете и вставляете. Подробные скриншоты — в туториале /tutorials/cursor-llm.

Можно ли запустить inference на нескольких карточках?

Текущая сборка — одна 24+ GB карта. Многокарточные конфиги для 70B/405B моделей делаем под запрос — пишите, обсудим вашу нагрузку.

Перезапускать каждый день — это нормально?

Да, это штатный сценарий. Запуск с нуля — около 5–10 минут (vLLM подтягивается с диска, который сохраняется в шаблоне). Если планируете 24/7 — пишите в поддержку, оформим зарезервированный инстанс с месячной оплатой и фиксированным URL.

Чем это отличается от туториала по Cursor LLM?

Эта страница — про сервис: зачем своя LLM для Cursor, сколько стоит, как это сравнивается с Cursor Pro и облачным OpenAI. Туториал /tutorials/cursor-llm — пошаговое руководство по самой настройке, со скриншотами.

Готовы вернуть себе контроль над кодом?

10 минут до первого ответа из вашей собственной LLM. Cursor подключится за минуту.

Поднять свой Cursor LLM