regularization
Методы снижения переобучения (overfitting) нейросети на тренировочных данных.
Что такое regularization
Regularization (регуляризация) — совокупность техник, снижающих переобучение нейросети: когда модель идеально «запоминает» тренировочный набор, но плохо обобщается на новые данные.
Основные методы regularization
Weight Decay (L2 regularization): добавляет к loss штраф за большие веса: L_total = L + λ × Σ w². Используется как weight_decay в AdamW оптимизаторе. Стандартный выбор для LLM обучения.
optimizer = AdamW(model.parameters(), lr=1e-4, weight_decay=0.1)
Dropout: во время обучения случайно обнуляет часть нейронов (типично 10–20%). Заставляет сеть выучивать более устойчивые признаки. Меньше используется в современных LLM, но присутствует в attention.
Early stopping: остановить обучение, когда метрика на validation set перестаёт улучшаться.
Data augmentation: увеличить разнообразие обучающих данных (текстовые paraphrase, mixup и т.д.).
Regularization в LLM fine-tuning
При fine-tuning LLM основные риски — catastrophic forgetting (потеря базовых навыков) и overfitting на маленьком датасете. Методы:
- Небольшой learning rate (например, 1e-5 вместо 1e-3)
- Weight decay = 0.01–0.1
- LoRA / QLoRA: обновляют только небольшую часть весов, естественно ограничивая overfitting
- Ограниченное число эпох (1–3)
Overfitting vs Underfitting
Overfitting Good fit Underfitting
Train loss: очень низкий низкий высокий
Val loss: высокий низкий высокий
Метрика: плохая хорошая плохая
Связанные термины
- weight decay — главный метод regularization для LLM
- dropout — случайное обнуление нейронов
- overfitting — проблема, которую решает regularization
- LoRA — PEFT-метод с эффектом regularization
Готовы запустить GPU-задачу?
Запустить GPU-сервер