ML Fundamentals

regularization

Методы снижения переобучения (overfitting) нейросети на тренировочных данных.

Что такое regularization

Regularization (регуляризация) — совокупность техник, снижающих переобучение нейросети: когда модель идеально «запоминает» тренировочный набор, но плохо обобщается на новые данные.

Основные методы regularization

Weight Decay (L2 regularization): добавляет к loss штраф за большие веса: L_total = L + λ × Σ w². Используется как weight_decay в AdamW оптимизаторе. Стандартный выбор для LLM обучения.

optimizer = AdamW(model.parameters(), lr=1e-4, weight_decay=0.1)

Dropout: во время обучения случайно обнуляет часть нейронов (типично 10–20%). Заставляет сеть выучивать более устойчивые признаки. Меньше используется в современных LLM, но присутствует в attention.

Early stopping: остановить обучение, когда метрика на validation set перестаёт улучшаться.

Data augmentation: увеличить разнообразие обучающих данных (текстовые paraphrase, mixup и т.д.).

Regularization в LLM fine-tuning

При fine-tuning LLM основные риски — catastrophic forgetting (потеря базовых навыков) и overfitting на маленьком датасете. Методы:

  • Небольшой learning rate (например, 1e-5 вместо 1e-3)
  • Weight decay = 0.01–0.1
  • LoRA / QLoRA: обновляют только небольшую часть весов, естественно ограничивая overfitting
  • Ограниченное число эпох (1–3)

Overfitting vs Underfitting

              Overfitting      Good fit      Underfitting
Train loss:     очень низкий     низкий         высокий
Val loss:       высокий          низкий         высокий
Метрика:        плохая           хорошая        плохая

Связанные термины

  • weight decay — главный метод regularization для LLM
  • dropout — случайное обнуление нейронов
  • overfitting — проблема, которую решает regularization
  • LoRA — PEFT-метод с эффектом regularization

Готовы запустить GPU-задачу?

Запустить GPU-сервер