Видеокарта для LLM в 2026: какую арендовать для обучения, инференса и локального запуска
Гайд по выбору GPU для LLM: H100, H200, A100, RTX PRO 6000, RTX 5090, RTX 4090 и L40S. Что нужно по VRAM, по бюджету и по типу задачи — fine-tuning, inference, локальная разработка.
Выбор GPU под LLM в 2026 году — это не про FLOPS и не про маркетинговые слайды Nvidia. Это про две конкретные цифры: размер модели в гигабайтах и сколько у видеокарты VRAM. Всё остальное вторично.
Это практический гайд: какую видеокарту арендовать под обучение, fine-tuning, production-инференс и локальный запуск LLM. Без «топ-5 от блогера», просто разбор по тирам с реальными сценариями.
Главное: какую GPU арендовать под вашу задачу
Если нет времени читать всю статью — короткий ответ:
| Задача | Модель | Минимум VRAM | Рекомендуем |
|---|---|---|---|
| Запустить 7-8B локально (4-bit инференс) | Llama 3.1 8B, Qwen 2.5 7B | 8 ГБ | RTX 4090, RTX 3090 |
| Запустить 7-8B в production (fp16, батч) | Llama 3.1 8B | 24 ГБ | RTX 4090, L40S |
| QLoRA 7-8B | Llama 3.1 8B | 16 ГБ | RTX 4090 |
| LoRA 7-8B | Llama 3.1 8B | 24 ГБ | RTX 4090, L40S |
| Full fine-tune 7-8B | Llama 3.1 8B | 80 ГБ | A100 80GB, H100 |
| Запустить 70B локально (4-bit) | Llama 3.1 70B | 40 ГБ | A100 80GB, RTX PRO 6000 |
| 70B в production (fp16, одна нода) | Llama 3.1 70B | 160 ГБ | 2× A100 80GB или H200 |
| QLoRA 70B | Llama 3.1 70B | 48 ГБ | A100 80GB, RTX PRO 6000 |
| Full fine-tune 70B | Llama 3.1 70B | 800+ ГБ | Multi-node H100 SXM, H200 |
| Pre-training с нуля | от 7B | от 800 ГБ | Кластер H200 SXM, B200 |
Аренда почасовая, без капитальных вложений в железо — актуальные цены на GPU.
Как считать VRAM: формула, по которой выбирают GPU
VRAM — узкое горло почти любой LLM-задачи. CUDA-ядер обычно хватает; VRAM не хватает почти всегда. Чтобы не ошибиться, посчитайте память сами.
Инференс
Три составляющих:
Веса модели — параметры × байт на параметр:
- FP16 / BF16 — 2 байта/параметр → 8B = 16 ГБ
- INT8 — 1 байт/параметр → 8B = 8 ГБ
- Q4 (4-bit) — 0.5 байта/параметр → 8B = 4 ГБ, 70B = 35 ГБ
KV-кеш — память на состояние attention для каждого токена контекста. Грубо: 2 × n_layers × n_heads × head_dim × context_length × precision. Для Llama 3.1 8B при контексте 8K в fp16 — около 4 ГБ. При контексте 128K — около 64 ГБ. Длинный контекст — отдельная статья расходов.
Активации и буферы — ещё 10-20% сверху.
Итог для инференса:
| Модель | Q4 | INT8 | FP16 |
|---|---|---|---|
| 8B | 6-8 ГБ | 12-16 ГБ | 20-24 ГБ |
| 70B | 40-48 ГБ | 80-96 ГБ | 150-180 ГБ |
| 405B | 220-260 ГБ | 440-520 ГБ | 850+ ГБ |
Fine-tuning
Дообучение требует памяти не только под веса, но и под градиенты, состояние оптимизатора и активации. Детальный расчёт — в статье «Сколько стоит зафайнтюнить Llama 3», здесь — короткая сводка:
| Метод | Множитель к размеру модели в fp16 |
|---|---|
| QLoRA (4-bit база + LoRA-адаптеры) | ×1.2-1.5 |
| LoRA (fp16 база + адаптеры) | ×3-4 |
| Full fine-tune (Adam) | ×16-20 |
То есть для full fine-tune 8B модели нужно ~150 ГБ VRAM, для LoRA — ~30 ГБ, для QLoRA — ~12-16 ГБ.
Pre-training с нуля
Те же правила, что и у full fine-tune, плюс распределённое обучение с тензорным и pipeline-параллелизмом. На одной видеокарте pre-training не делают: это всегда multi-node кластер с H100 SXM или H200, NVLink/NVSwitch внутри ноды, InfiniBand между нодами.
GPU для LLM: разбор по тирам
Топ-тир: H100, H200, B200 — фронтир-обучение
NVIDIA H100 SXM — стандарт-де-факто для обучения LLM. 80 ГБ HBM3, 3.35 ТБ/с пропускной способности памяти, 700 Вт TDP, NVLink для соединения 8 GPU в одной ноде. Поддерживает FP8 (Hopper-фича) — почти удвоение производительности инференса по сравнению с A100.
PCIe-версия H100 — тот же чип в стандартном форм-факторе, без NVLink-свича. Для одиночных воркстейшнов и инференса подходит; для серьёзного обучения нужна SXM. См. H100 PCIe vs A100 80GB.
NVIDIA H200 SXM — апгрейд H100: 141 ГБ HBM3e (вместо 80 ГБ HBM3), 4.8 ТБ/с пропускной способности. Те же compute-ядра, но в 1.76 раза больше памяти. Критично для long-context инференса и больших моделей: 70B в fp16 теперь помещается в один GPU. См. H100 SXM vs H200 SXM.
NVIDIA B200 — Blackwell, поколение 2025 года. 192 ГБ HBM3e, поддержка FP4 для инференса, до 2.5× производительности H100 на LLM-инференсе. Доступность ограниченная, цена соответствующая.
Когда арендовать топ-тир: pre-training, full fine-tune моделей 30B+, production-инференс 70B+ с низкой задержкой, исследования с долгими контекстами.
Рабочая лошадка: A100 80GB
NVIDIA A100 80GB — пенсионер, который всё ещё в строю. 80 ГБ HBM2e, 2 ТБ/с пропускной способности, поддержка MIG (можно разделить на 7 виртуальных GPU). На рынке аренды A100 80GB остаётся золотой серединой по соотношению цена/производительность.
Что A100 умеет лучше всего:
- Инференс Llama 3.1 70B в Q4/Q8 на одной карте
- LoRA / QLoRA любых моделей до 30B
- Production-инференс 8B-13B моделей в fp16 с большим батчем
- MIG-разбиение для multi-tenant сценариев
Чего A100 не умеет: FP8 (это Hopper-фича) и Transformer Engine — на современных оптимизациях инференса A100 уступает H100 примерно в 2 раза. Но если задача не требует FP8 — A100 80GB обычно лучший выбор по экономике. См. A100 80GB vs RTX 4090, H100 SXM vs A100 SXM.
Новый претендент: RTX PRO 6000 Blackwell
RTX PRO 6000 Server (Blackwell) — самое интересное в Nvidia на 2026 год для LLM-практиков с ограниченным бюджетом. 96 ГБ GDDR7, архитектура Blackwell, поддержка FP4/FP8. Цена аренды значительно ниже H100, а VRAM — больше, чем у A100 80GB.
Ограничения:
- Нет NVLink — multi-GPU работает только через PCIe (медленнее в обучении)
- GDDR7 даёт меньшую пропускную способность, чем HBM3 на H100 (1.6 vs 3.35 ТБ/с)
- Не подходит для распределённого обучения больших моделей
Зато для одиночного инференса больших моделей, LoRA/QLoRA fine-tuning, экспериментов и dev-окружения — это лучший value в каталоге Nvidia. См. RTX PRO 6000 vs RTX 5090.
Инференс-оптимизированные: L40S
NVIDIA L40S — производная от RTX 6000 Ada, заточена под inference. 48 ГБ GDDR6, 864 ГБ/с пропускной способности, поддержка FP8. Дешевле H100 примерно в 3-4 раза, но и медленнее в инференсе примерно вдвое.
Когда L40S — оптимум: production-инференс 7B-13B моделей с умеренным трафиком, multi-modal задачи (Stable Diffusion + LLM на одной карте), serving с длинным контекстом для small/mid-моделей.
Прокси-GPU: RTX 5090 и RTX 4090
RTX 5090 — топовый consumer-GPU 2025 года. 32 ГБ GDDR7, 1.79 ТБ/с пропускной способности. На бумаге — мощная карта для LLM. На практике есть нюансы: нет ECC, нет MIG, нет полноценной поддержки multi-GPU (P2P между потребительскими картами работает плохо). Зато 32 ГБ VRAM в consumer-сегменте — это много.
RTX 4090 — предыдущее поколение, 24 ГБ. В аренде дешевле 5090, и для большинства задач хватает: инференс 8B fp16, QLoRA 8B-13B, Stable Diffusion в production.
Что важно понимать про consumer-GPU в облаке:
- Подходят для одиночных задач, не для multi-GPU кластеров
- Часто доступны на interruptible-инстансах — это снижает цену в разы
- Драйверы и cuDNN / cuBLAS работают идентично датацентровым
См. RTX 5090 vs RTX 4090, RTX 4090 vs A100 80GB.
Бюджет: L4, RTX 3090
NVIDIA L4 — 24 ГБ, низкое энергопотребление (72 Вт), оптимизирована под inference. Дешёвая аренда. Подходит для CPU-bound сценариев, batch-инференса небольших моделей, edge-задач.
RTX 3090 — 24 ГБ GDDR6X, поколение Ampere. Самая дешёвая 24-гиговая карта в аренде. Для локальной разработки, dev-инференса и QLoRA небольших моделей — отличный выбор. См. RTX 4090 vs RTX 3090.
Сколько стоит арендовать GPU для LLM
Цена зависит от трёх факторов: модель GPU, тип инстанса (interruptible vs гарантированный), длина аренды.
Ориентиры (актуальные цены — на странице тарифов):
- RTX 4090 — самый дешёвый рабочий вариант
- A100 80GB — обычно в 2-3 раза дороже 4090
- H100 SXM — в 1.5-2 раза дороже A100 80GB
- H200 / B200 — премиум, ограниченная доступность
Месячная подписка обычно даёт 30-50% скидку относительно почасовой ставки. Если задача — постоянный production-инференс, есть смысл бронировать на месяц. Если задача — fine-tuning или эксперименты, почасовая аренда гибче и часто дешевле в итоге.
Конкретные сценарии — что арендовать
Запустить Llama 3.1 8B локально
QLoRA-fine-tune и локальный инференс для тестирования: RTX 4090 24GB — оптимум по цене. Если нужен длинный контекст (32K+) — лучше RTX 5090 или L40S. Готовое решение vLLM поднимается за минуты.
Fine-tune Llama 3.1 70B на своих данных
QLoRA 70B требует ~48 ГБ VRAM. Варианты по возрастанию цены:
- RTX PRO 6000 Server (96GB) — лучший value
- A100 80GB — проверенный workhorse
- H100 — быстрее, но дороже
Подробный расчёт — в статье про fine-tune Llama.
Production-инференс для чат-бота
Размер модели определяет всё:
- 8B fp16, до 100 RPS — 1× RTX 4090 или L40S с vLLM
- 8B fp8, до 500 RPS — 1× H100 с Transformer Engine
- 70B Q8, до 50 RPS — 1× H200 SXM или 2× A100 80GB
- 70B fp16, низкая задержка — 2× H100 SXM с NVLink
Рекомендуемый стек — vLLM на нашей платформе.
Stable Diffusion плюс LLM (мультимодальные пайплайны)
Здесь VRAM важнее compute. Хорошие варианты: L40S 48GB, если бюджет средний, или RTX PRO 6000 96GB, если нужна максимум VRAM на одной карте. См. также решения по image generation.
FAQ
Можно ли обучать LLM на RTX 4090?
Можно, если речь о QLoRA для моделей до 13B или LoRA для моделей до 8B. Full fine-tune даже 8B на одной 4090 не поместится — не хватит VRAM под Adam optimizer state. Для серьёзного обучения нужен датацентровый GPU с большим VRAM.
Сколько GPU нужно для запуска Llama 3.1 70B?
В Q4-квантизации — одна карта с 48+ ГБ VRAM (RTX PRO 6000 или A100 80GB). В fp16 — две карты по 80 ГБ или одна H200 со 141 ГБ.
В чём разница между PCIe и SXM-версией H100?
SXM — специальный socket для серверов с поддержкой NVLink-свича (900 ГБ/с между GPU). PCIe — стандартный форм-фактор, NVLink-свича нет (может быть NVLink bridge — 600 ГБ/с между двумя картами). Для distributed-обучения SXM в разы быстрее. Для одиночного инференса разницы почти нет.
Что выгоднее — почасовая аренда или месячная?
Зависит от утилизации. Если планируете гонять GPU 24/7 — месяц дешевле. Если задача — fine-tuning на неделю или эксперименты — почасовая аренда выгоднее. Точка безубыточности обычно в районе 60-70% утилизации.
Поддерживает ли RTX PRO 6000 NVLink?
Нет. NVLink-моста между двумя RTX PRO 6000 не предусмотрено. Multi-GPU работает через PCIe — это медленнее для tensor/pipeline-параллелизма. Если важен NVLink — нужны H100 SXM или A100 SXM.
Можно ли использовать AMD GPU для LLM?
Технически можно (через ROCm), но экосистема CUDA пока шире: vLLM, TensorRT-LLM, FlashAttention-2 — всё это в первую очередь оптимизировано под Nvidia. В нашем каталоге аренды — только Nvidia.
Готовы начать? Выбрать GPU и арендовать → · Сравнить GPU попарно → · Решения для LLM → · Глоссарий по обучению →