ECC memory
Память с аппаратной коррекцией ошибок, предотвращающей тихое повреждение данных в GPU.
Что такое ECC memory
ECC (Error Correcting Code) — технология защиты памяти от однократных и двукратных битовых ошибок. Каждые 64 бита данных хранятся вместе с 8 битами контрольной суммы, позволяя аппаратно обнаруживать и исправлять одиночные ошибки (Single Bit Error, SBE) и обнаруживать двойные ошибки (Double Bit Error, DBE) без вмешательства ПО.
Серверные GPU — A100, H100, L40S — поддерживают ECC нативно. Потребительские RTX — нет.
Почему ECC важен в ML
При обучении нейросетей на тысячах GPU неделями единичная незамеченная битовая ошибка может привести к:
- NaN в градиентах — тихое отравление обучения без видимой ошибки
- Неправильные веса — модель внешне работает, но с деградированным качеством
- Сбой при инференсе — ошибка в KV-кеше → артефакты в ответах
ECC гарантирует, что такие ошибки будут исправлены или зафиксированы.
Стоимость ECC
Включение ECC снижает эффективную пропускную способность памяти на ~5–10% из-за хранения контрольных сумм. В некоторых конфигурациях NVIDIA позволяет отключить ECC для максимальной производительности — допустимо для краткосрочных вычислений.
ECC vs без ECC
| С ECC | Без ECC | |
|---|---|---|
| GPU | A100, H100, L40S | RTX 3090/4090 |
| Долгосрочное обучение | Рекомендуется | Рискованно |
| Production-инференс | Рекомендуется | Допустимо для коротких сессий |
| Производительность | -5–10% | Максимальная |
Связанные термины
- VRAM — память, защищаемая ECC
- NVIDIA A100 и H100 — GPU с ECC
- NVIDIA RTX 4090 — без ECC
Готовы запустить GPU-задачу?
Запустить GPU-сервер