GPU Hardware

GPU-инстанс

Облачная виртуальная машина или контейнер с доступом к одному или нескольким GPU.

Что такое GPU-инстанс

GPU-инстанс — вычислительный ресурс в облаке, предоставляющий доступ к GPU через виртуальную машину или контейнер. Пользователь получает SSH-доступ или Jupyter-среду, внутри которой GPU выглядит как стандартное CUDA-устройство — без разницы, физическое это железо или виртуализированная часть.

Типы GPU-инстансов

Выделенный GPU — физический GPU предоставляется одному пользователю целиком. Нет соседей, максимальная VRAM, предсказуемая производительность.

MIG-инстанс — изолированная доля GPU A100/H100. Например, 3g.40gb — 40 ГБ с ~3/7 вычислительной мощности A100.

Bare metal — прямой доступ к физическому серверу без виртуализации; необходим для задач с NVLink и максимальной производительностью.

Параметры при выборе инстанса

Параметр Что смотреть
GPU модель H100/A100 для 70B+, RTX 4090 для 7–13B
VRAM Должна вмещать модель + KV-кеш
Число GPU 1 GPU достаточно до 30B BF16
CPU/RAM Важно для предобработки данных
Тип диска NVMe SSD для датасетов >100 ГБ
Сетевой bandwidth Важен при multi-GPU обучении
Почасовой тариф Посчитать стоимость обучения/инференса

Типичные рабочие сценарии

# Подключение к инстансу
ssh user@IP_адрес -i ~/.ssh/key.pem -p PORT

# Проверка GPU
nvidia-smi

# Запуск vLLM в Docker
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model meta-llama/Llama-3.1-8B-Instruct

Связанные термины

  • VRAM — ключевой параметр выбора инстанса
  • MIG — технология разделения GPU для изолированных инстансов
  • Vast.ai — маркетплейс GPU-инстансов (внешняя ссылка)
  • Docker — стандартный способ деплоя на GPU-инстансах
  • SSH — протокол доступа к инстансам

Готовы запустить GPU-задачу?

Запустить GPU-сервер