GPU-инстанс
Облачная виртуальная машина или контейнер с доступом к одному или нескольким GPU.
Что такое GPU-инстанс
GPU-инстанс — вычислительный ресурс в облаке, предоставляющий доступ к GPU через виртуальную машину или контейнер. Пользователь получает SSH-доступ или Jupyter-среду, внутри которой GPU выглядит как стандартное CUDA-устройство — без разницы, физическое это железо или виртуализированная часть.
Типы GPU-инстансов
Выделенный GPU — физический GPU предоставляется одному пользователю целиком. Нет соседей, максимальная VRAM, предсказуемая производительность.
MIG-инстанс — изолированная доля GPU A100/H100. Например, 3g.40gb — 40 ГБ с ~3/7 вычислительной мощности A100.
Bare metal — прямой доступ к физическому серверу без виртуализации; необходим для задач с NVLink и максимальной производительностью.
Параметры при выборе инстанса
| Параметр | Что смотреть |
|---|---|
| GPU модель | H100/A100 для 70B+, RTX 4090 для 7–13B |
| VRAM | Должна вмещать модель + KV-кеш |
| Число GPU | 1 GPU достаточно до 30B BF16 |
| CPU/RAM | Важно для предобработки данных |
| Тип диска | NVMe SSD для датасетов >100 ГБ |
| Сетевой bandwidth | Важен при multi-GPU обучении |
| Почасовой тариф | Посчитать стоимость обучения/инференса |
Типичные рабочие сценарии
# Подключение к инстансу
ssh user@IP_адрес -i ~/.ssh/key.pem -p PORT
# Проверка GPU
nvidia-smi
# Запуск vLLM в Docker
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model meta-llama/Llama-3.1-8B-Instruct
Связанные термины
Готовы запустить GPU-задачу?
Запустить GPU-сервер