GPU Hardware

GPU-кластер

Группа серверов с GPU, объединённых высокоскоростной сетью для распределённых вычислений.

Что такое GPU-кластер

GPU-кластер — совокупность серверов с GPU, соединённых высокоскоростной сетью (InfiniBand или RoCE) для совместного выполнения задач, не умещающихся на одном сервере. Используется преимущественно для обучения очень больших моделей (GPT-4, Llama 3 405B, Mixtral) и для масштабирования inference-сервисов.

Компоненты кластера

GPU-узлы — серверы с 4–8 GPU (DGX H100 = 8× H100 SXM); GPU связаны NVLink внутри узла
High-speed interconnect — InfiniBand HDR/NDR (200–400 ГБ/с) или RoCE 400G для межузловой коммуникации
Shared storage — параллельная файловая система (Lustre, GPFS, BeeGFS) для датасетов и чекпоинтов
Scheduler — SLURM или Kubernetes для управления задачами и очередями
Мониторинг — DCGM для метрик GPU, Prometheus+Grafana для инфраструктуры

Топология сети

[DGX Node 0]──NVLink──[8× H100]
     │
     │ InfiniBand NDR 400G
     │
[DGX Node 1]──NVLink──[8× H100]
     │
  [InfiniBand Switch]
     │
[DGX Node N]──NVLink──[8× H100]

Параллелизм в кластере

Для обучения 70B+ моделей используется 3D parallelism:

Data Parallelism — копии модели на разных узлах
Tensor Parallelism — внутри узла (NVLink)
Pipeline Parallelism — между узлами (InfiniBand)

Связанные термины

NVIDIA H100 — стандартный GPU для кластеров обучения
NVLink — внутриузловое соединение
tensor parallelism — параллелизм внутри узла
pipeline parallelism — параллелизм между узлами
DeepSpeed — фреймворк для распределённого обучения

Готовы запустить GPU-задачу?

Запустить GPU-сервер