GPU Hardware

GPU-кластер

Группа серверов с GPU, объединённых высокоскоростной сетью для распределённых вычислений.

Что такое GPU-кластер

GPU-кластер — совокупность серверов с GPU, соединённых высокоскоростной сетью (InfiniBand или RoCE) для совместного выполнения задач, не умещающихся на одном сервере. Используется преимущественно для обучения очень больших моделей (GPT-4, Llama 3 405B, Mixtral) и для масштабирования inference-сервисов.

Компоненты кластера

  • GPU-узлы — серверы с 4–8 GPU (DGX H100 = 8× H100 SXM); GPU связаны NVLink внутри узла
  • High-speed interconnect — InfiniBand HDR/NDR (200–400 ГБ/с) или RoCE 400G для межузловой коммуникации
  • Shared storage — параллельная файловая система (Lustre, GPFS, BeeGFS) для датасетов и чекпоинтов
  • Scheduler — SLURM или Kubernetes для управления задачами и очередями
  • Мониторинг — DCGM для метрик GPU, Prometheus+Grafana для инфраструктуры

Топология сети

[DGX Node 0]──NVLink──[8× H100]
     │
     │ InfiniBand NDR 400G
     │
[DGX Node 1]──NVLink──[8× H100]
     │
  [InfiniBand Switch]
     │
[DGX Node N]──NVLink──[8× H100]

Параллелизм в кластере

Для обучения 70B+ моделей используется 3D parallelism:

  • Data Parallelism — копии модели на разных узлах
  • Tensor Parallelism — внутри узла (NVLink)
  • Pipeline Parallelism — между узлами (InfiniBand)

Связанные термины

  • NVIDIA H100 — стандартный GPU для кластеров обучения
  • NVLink — внутриузловое соединение
  • tensor parallelism — параллелизм внутри узла
  • pipeline parallelism — параллелизм между узлами
  • DeepSpeed — фреймворк для распределённого обучения

Готовы запустить GPU-задачу?

Запустить GPU-сервер