GPU Hardware

FLOPS / TFLOPS

Floating Point Operations Per Second — мера вычислительной производительности GPU.

Что такое FLOPS

FLOPS (Floating Point Operations Per Second) — стандартная единица измерения вычислительной производительности. Для ML используются более крупные единицы:

TFLOPS (TeraFLOPS) = 10¹² операций/с
PFLOPS (PetaFLOPS) = 10¹⁵ операций/с

Производительность GPU зависит от формата данных: FP32 < TF32 < BF16/FP16 < FP8 по числу TFLOPS. Это связано с шириной Tensor Cores и числом операций за такт.

TFLOPS основных GPU

GPU	FP32	BF16/FP16	FP8
RTX 4090	~83	~330	~660
A100 80GB	19.5	624	—
H100 SXM	60	1979	3958
H200 SXM	60	1979	3958
AMD MI300X	163	1307	2614

Для трансформеров и LLM стандартный рабочий формат — BF16, поэтому релевантная цифра — BF16 TFLOPS.

FLOPS vs реальная производительность

Пиковые TFLOPS — теоретический максимум, достижимый только на специфических нагрузках с идеальной эффективностью. Реальная эффективность (FLOPS utilization, MFU) обычно составляет:

30–50% для обучения трансформеров
10–30% для инференса (из-за memory-bound decode)

Поэтому нельзя прямо сравнивать два GPU только по TFLOPS — важна также пропускная способность памяти.

Формула оценки производительности обучения

Tokens per second ≈ (GPU TFLOPS × MFU) / (6 × model_params)
# Где 6 — приближение для количества FLOP на токен при forward+backward
# MFU — Model FLOPS Utilization (доля от пикового TFLOPS)

Связанные термины

Tensor Core — аппаратные блоки, обеспечивающие TFLOPS
BF16 — формат, дающий максимальный TFLOPS при приемлемой точности
FP8 — новый формат для максимального TFLOPS на H100
NVIDIA H100 — GPU с наивысшим BF16 TFLOPS

Готовы запустить GPU-задачу?

Запустить GPU-сервер