ML Fundamentals

нормализация

Методы стандартизации распределений активаций для стабилизации и ускорения обучения нейросетей.

Что такое нормализация в нейросетях

Нормализация — класс техник, стандартизирующих распределения активаций в процессе обучения. Цель: предотвратить «смещение ковариат» (covariate shift) — изменение распределения входов каждого слоя при обновлении весов предыдущего. Это ускоряет обучение и позволяет использовать более высокие learning rate.

Основные методы

Batch Normalization (BatchNorm): нормализует по батчу — среднее и стд вычисляются по всем примерам батча для каждого канала. Эффективна для CNN, но проблематична при малых батчах и последовательных данных.

Layer Normalization (LayerNorm): нормализует по всем признакам одного примера. Стандарт для трансформеров.

RMSNorm: упрощённый LayerNorm без центрирования (только RMS). Чуть быстрее, используется в Llama, Mistral.

Group Normalization: нормализует по группам каналов. Используется в UNet для image generation.

Где применяется в LLM

Input tokens
   ↓
Token Embedding
   ↓
┌─────────────────┐
│ RMSNorm         │  ← перед attention
│ Self-Attention  │
│ Residual        │
│ RMSNorm         │  ← перед FFN
│ FFN (SwiGLU)    │
│ Residual        │
└─────────────────┘ × N layers
   ↓
Final RMSNorm       ← перед logits
   ↓
LM Head (Linear)

Связанные термины

layer norm — основной метод в трансформерах
трансформер — архитектура с нормализацией
hidden state — активации, которые нормализуются
regularization — смежный, но другой класс техник

Готовы запустить GPU-задачу?

Запустить GPU-сервер