нормализация
Методы стандартизации распределений активаций для стабилизации и ускорения обучения нейросетей.
Что такое нормализация в нейросетях
Нормализация — класс техник, стандартизирующих распределения активаций в процессе обучения. Цель: предотвратить «смещение ковариат» (covariate shift) — изменение распределения входов каждого слоя при обновлении весов предыдущего. Это ускоряет обучение и позволяет использовать более высокие learning rate.
Основные методы
Batch Normalization (BatchNorm): нормализует по батчу — среднее и стд вычисляются по всем примерам батча для каждого канала. Эффективна для CNN, но проблематична при малых батчах и последовательных данных.
Layer Normalization (LayerNorm): нормализует по всем признакам одного примера. Стандарт для трансформеров.
RMSNorm: упрощённый LayerNorm без центрирования (только RMS). Чуть быстрее, используется в Llama, Mistral.
Group Normalization: нормализует по группам каналов. Используется в UNet для image generation.
Где применяется в LLM
Input tokens
↓
Token Embedding
↓
┌─────────────────┐
│ RMSNorm │ ← перед attention
│ Self-Attention │
│ Residual │
│ RMSNorm │ ← перед FFN
│ FFN (SwiGLU) │
│ Residual │
└─────────────────┘ × N layers
↓
Final RMSNorm ← перед logits
↓
LM Head (Linear)
Связанные термины
- layer norm — основной метод в трансформерах
- трансформер — архитектура с нормализацией
- hidden state — активации, которые нормализуются
- regularization — смежный, но другой класс техник
Готовы запустить GPU-задачу?
Запустить GPU-сервер