GPU Hardware
GPU-кластер
Группа серверов с GPU, объединённых высокоскоростной сетью для распределённых вычислений.
Что такое GPU-кластер
GPU-кластер — совокупность серверов с GPU, соединённых высокоскоростной сетью (InfiniBand или RoCE) для совместного выполнения задач, не умещающихся на одном сервере. Используется преимущественно для обучения очень больших моделей (GPT-4, Llama 3 405B, Mixtral) и для масштабирования inference-сервисов.
Компоненты кластера
- GPU-узлы — серверы с 4–8 GPU (DGX H100 = 8× H100 SXM); GPU связаны NVLink внутри узла
- High-speed interconnect — InfiniBand HDR/NDR (200–400 ГБ/с) или RoCE 400G для межузловой коммуникации
- Shared storage — параллельная файловая система (Lustre, GPFS, BeeGFS) для датасетов и чекпоинтов
- Scheduler — SLURM или Kubernetes для управления задачами и очередями
- Мониторинг — DCGM для метрик GPU, Prometheus+Grafana для инфраструктуры
Топология сети
[DGX Node 0]──NVLink──[8× H100]
│
│ InfiniBand NDR 400G
│
[DGX Node 1]──NVLink──[8× H100]
│
[InfiniBand Switch]
│
[DGX Node N]──NVLink──[8× H100]
Параллелизм в кластере
Для обучения 70B+ моделей используется 3D parallelism:
- Data Parallelism — копии модели на разных узлах
- Tensor Parallelism — внутри узла (NVLink)
- Pipeline Parallelism — между узлами (InfiniBand)
Связанные термины
- NVIDIA H100 — стандартный GPU для кластеров обучения
- NVLink — внутриузловое соединение
- tensor parallelism — параллелизм внутри узла
- pipeline parallelism — параллелизм между узлами
- DeepSpeed — фреймворк для распределённого обучения
Готовы запустить GPU-задачу?
Запустить GPU-сервер