GPU Hardware

HBM (High Bandwidth Memory)

Тип GPU-памяти с вертикальной компоновкой чипов, обеспечивающий в разы большую пропускную способность чем GDDR.

Что такое HBM

HBM (High Bandwidth Memory) — тип памяти, используемый в серверных GPU и некоторых CPU (AMD EPYC). Отличается от GDDR6 не технологией самих ячеек, а физической компоновкой: множество слоёв DRAM-чипов уложены вертикально и соединены через чрезвычайно широкую шину с помощью через-кремниевых переходов (TSV).

Результат — пропускная способность в 2–5× выше, чем у GDDR6, при меньшем энергопотреблении и площади. Это критично для ML: большинство операций инференса (особенно decode) memory-bound — ограничены скоростью чтения весов из памяти.

Поколения HBM

Поколение GPU Пропускная способность
HBM2 A100 40GB 1555 ГБ/с
HBM2e A100 80GB 2000 ГБ/с
HBM3 H100 SXM 3350 ГБ/с
HBM3e H200, MI300X 4800–5300 ГБ/с

HBM vs GDDR6

HBM3 (H100) GDDR6X (RTX 4090)
Пропускная способность 3350 ГБ/с 1008 ГБ/с
Объём 80 ГБ 24 ГБ
Расположение На подложке с GPU (2.5D) Отдельные чипы на PCB
Цена Значительно выше Ниже

Почему пропускная способность важна для LLM

Скорость decode в LLM-инференсе определяется тем, как быстро GPU может прочитать веса модели из памяти. Для модели 70B (~140 ГБ весов) на каждый токен нужно прочитать все веса:

  • RTX 4090 (1008 ГБ/с): 140 / 1008 ≈ 140 мс/токен при batch_size=1
  • H100 SXM (3350 ГБ/с): 140 / 3350 ≈ 42 мс/токен

Это объясняет разницу в скорости генерации в 3× без различий в вычислительной мощности.

Связанные термины

  • VRAM — общее понятие для GPU-памяти
  • GDDR6 — альтернативный тип памяти в потребительских GPU
  • TPOT — метрика decode, прямо зависящая от HBM bandwidth
  • NVIDIA H100 — GPU с HBM3

Готовы запустить GPU-задачу?

Запустить GPU-сервер