GPU Hardware

ECC memory

Память с аппаратной коррекцией ошибок, предотвращающей тихое повреждение данных в GPU.

Что такое ECC memory

ECC (Error Correcting Code) — технология защиты памяти от однократных и двукратных битовых ошибок. Каждые 64 бита данных хранятся вместе с 8 битами контрольной суммы, позволяя аппаратно обнаруживать и исправлять одиночные ошибки (Single Bit Error, SBE) и обнаруживать двойные ошибки (Double Bit Error, DBE) без вмешательства ПО.

Серверные GPU — A100, H100, L40S — поддерживают ECC нативно. Потребительские RTX — нет.

Почему ECC важен в ML

При обучении нейросетей на тысячах GPU неделями единичная незамеченная битовая ошибка может привести к:

  • NaN в градиентах — тихое отравление обучения без видимой ошибки
  • Неправильные веса — модель внешне работает, но с деградированным качеством
  • Сбой при инференсе — ошибка в KV-кеше → артефакты в ответах

ECC гарантирует, что такие ошибки будут исправлены или зафиксированы.

Стоимость ECC

Включение ECC снижает эффективную пропускную способность памяти на ~5–10% из-за хранения контрольных сумм. В некоторых конфигурациях NVIDIA позволяет отключить ECC для максимальной производительности — допустимо для краткосрочных вычислений.

ECC vs без ECC

С ECC Без ECC
GPU A100, H100, L40S RTX 3090/4090
Долгосрочное обучение Рекомендуется Рискованно
Production-инференс Рекомендуется Допустимо для коротких сессий
Производительность -5–10% Максимальная

Связанные термины

Готовы запустить GPU-задачу?

Запустить GPU-сервер