ИИ-агент для кода на своём GPU
Qwen2.5-Coder-32B через vLLM на облачной видеокарте — OpenAI-совместимый эндпоинт для CloudCompute Coder, Cline, Continue, Aider и любого совместимого клиента.
- ~10 минут до API
- от 80 ₽/час
- OpenAI-совместимый endpoint
- VS Code / Cline / Continue
Что это даёт
Облачный GPU с Qwen2.5-Coder-32B через vLLM и HTTPS-туннель. Вы получаете OpenAI-совместимый API и подключаете его к редактору — код остаётся на вашем инстансе, а не у стороннего SaaS.
Рекомендуем CloudCompute Coder — наше расширение для VS Code. Также работают Cline, Continue.dev, Aider и любой клиент с Chat Completions API.
Cursor: кастомная модель доступна только для обычного Chat; Agent/Edit/Tab — на встроенных моделях Cursor. Для полноценного агента используйте Coder или Cline.
GPU для Qwen2.5-Coder-32B
Модель AWQ помещается в 24 ГБ VRAM — RTX 4090 для одного-двух разработчиков, A6000/H100 для команды и высокой нагрузки.
RTX A6000
48 ГБ VRAM
от 96.78 ₽/час
≈ 69 682 ₽/мес при 24/7
H100 SXM
80 ГБ VRAM

от 526.96 ₽/час
≈ 379 411 ₽/мес при 24/7
Как подключить
- Запустите приложение — через 5–10 минут на странице инстанса появятся Base URL, API key и имя модели.
- VS Code: установите CloudCompute Coder и вставьте настройки.
- Cline / Continue: добавьте OpenAI-compatible provider с теми же полями.
Подробнее — в туториале.
