GPU Hardware

HBM (High Bandwidth Memory)

Тип GPU-памяти с вертикальной компоновкой чипов, обеспечивающий в разы большую пропускную способность чем GDDR.

Что такое HBM

HBM (High Bandwidth Memory) — тип памяти, используемый в серверных GPU и некоторых CPU (AMD EPYC). Отличается от GDDR6 не технологией самих ячеек, а физической компоновкой: множество слоёв DRAM-чипов уложены вертикально и соединены через чрезвычайно широкую шину с помощью через-кремниевых переходов (TSV).

Результат — пропускная способность в 2–5× выше, чем у GDDR6, при меньшем энергопотреблении и площади. Это критично для ML: большинство операций инференса (особенно decode) memory-bound — ограничены скоростью чтения весов из памяти.

Поколения HBM

Поколение	GPU	Пропускная способность
HBM2	A100 40GB	1555 ГБ/с
HBM2e	A100 80GB	2000 ГБ/с
HBM3	H100 SXM	3350 ГБ/с
HBM3e	H200, MI300X	4800–5300 ГБ/с

HBM vs GDDR6

	HBM3 (H100)	GDDR6X (RTX 4090)
Пропускная способность	3350 ГБ/с	1008 ГБ/с
Объём	80 ГБ	24 ГБ
Расположение	На подложке с GPU (2.5D)	Отдельные чипы на PCB
Цена	Значительно выше	Ниже

Почему пропускная способность важна для LLM

Скорость decode в LLM-инференсе определяется тем, как быстро GPU может прочитать веса модели из памяти. Для модели 70B (~140 ГБ весов) на каждый токен нужно прочитать все веса:

RTX 4090 (1008 ГБ/с): 140 / 1008 ≈ 140 мс/токен при batch_size=1
H100 SXM (3350 ГБ/с): 140 / 3350 ≈ 42 мс/токен

Это объясняет разницу в скорости генерации в 3× без различий в вычислительной мощности.

Связанные термины

VRAM — общее понятие для GPU-памяти
GDDR6 — альтернативный тип памяти в потребительских GPU
TPOT — метрика decode, прямо зависящая от HBM bandwidth
NVIDIA H100 — GPU с HBM3

Готовы запустить GPU-задачу?

Запустить GPU-сервер