Training
RLHF
Reinforcement Learning from Human Feedback — метод выравнивания LLM по предпочтениям человека.
Что такое RLHF
RLHF (Reinforcement Learning from Human Feedback) — метод fine-tuning LLM, при котором модель оптимизируется не по минимуму кросс-энтропии, а по награде от обученной reward-модели, отражающей предпочтения людей. Применён в InstructGPT / ChatGPT (OpenAI) и широко использован при создании выровненных LLM.
Три этапа RLHF
Этап 1: SFT — обучить base-модель следовать инструкциям на демонстрациях.
Этап 2: Reward Model — обучить отдельную модель предсказывать награду за ответ:
- Люди оценивают пары ответов (A лучше B)
- Reward model обучается ранжировать ответы по этим оценкам
Этап 3: PPO — оптимизировать LLM-политику с помощью RL:
- LLM генерирует ответы
- Reward model оценивает их
- PPO-алгоритм обновляет LLM, максимизируя награду с KL-ограничением против SFT-политики
Почему RLHF сложен
- Нестабильность PPO — нужна тщательная настройка гиперпараметров
- Reward hacking — модель учится «обманывать» reward model, не улучшая реальное качество
- Compute-интенсивен — нужны одновременно policy model, reward model, reference model, value model
- Требует много GPU и человеческих аннотаций
Именно поэтому DPO стал популярной альтернативой: тот же результат без reward model и PPO.
Связанные термины
- DPO — более простая альтернатива RLHF
- SFT — обязательный предшественник RLHF
- instruction tuning — часть pipeline RLHF
- fine-tuning — общий контекст
Готовы запустить GPU-задачу?
Запустить GPU-сервер