GPU Hardware
Streaming Multiprocessor
Основной вычислительный блок GPU NVIDIA — синоним SM, содержащий ядра и Tensor Cores.
Что такое Streaming Multiprocessor
Streaming Multiprocessor (SM) — основной вычислительный блок GPU NVIDIA. Полное название термина, также известного как SM. GPU состоит из множества SM: H100 имеет 132 SM, A100 — 108 SM.
Каждый SM включает:
- CUDA-ядра — для вычислений FP32/INT32
- Tensor Cores — для матричных операций BF16/FP8
- Разделяемую память (shared memory) — быстрый scratchpad ~256 КБ
- Кеш L1 — объединён с shared memory
- Планировщик варпов — управляет переключением между варпами
Значение occupancy
Occupancy — процент максимально возможных активных варпов в SM. Высокая occupancy позволяет GPU скрывать задержки доступа к памяти (latency hiding):
# Профилирование с Nsight Compute
ncu --metrics sm__warps_active.avg.pct_of_peak_sustained_active \
python train.py
Целевое значение для хорошей утилизации: >50% occupancy.
Связанные термины
- SM — сокращённый термин для того же понятия
- CUDA — программная модель поверх SM
- Tensor Core — специализированные блоки внутри SM
- MIG — физически делит SM между изолированными экземплярами
Готовы запустить GPU-задачу?
Запустить GPU-сервер