Training

RLHF

Reinforcement Learning from Human Feedback — метод выравнивания LLM по предпочтениям человека.

Что такое RLHF

RLHF (Reinforcement Learning from Human Feedback) — метод fine-tuning LLM, при котором модель оптимизируется не по минимуму кросс-энтропии, а по награде от обученной reward-модели, отражающей предпочтения людей. Применён в InstructGPT / ChatGPT (OpenAI) и широко использован при создании выровненных LLM.

Три этапа RLHF

Этап 1: SFT — обучить base-модель следовать инструкциям на демонстрациях.

Этап 2: Reward Model — обучить отдельную модель предсказывать награду за ответ:

Люди оценивают пары ответов (A лучше B)
Reward model обучается ранжировать ответы по этим оценкам

Этап 3: PPO — оптимизировать LLM-политику с помощью RL:

LLM генерирует ответы
Reward model оценивает их
PPO-алгоритм обновляет LLM, максимизируя награду с KL-ограничением против SFT-политики

Почему RLHF сложен

Нестабильность PPO — нужна тщательная настройка гиперпараметров
Reward hacking — модель учится «обманывать» reward model, не улучшая реальное качество
Compute-интенсивен — нужны одновременно policy model, reward model, reference model, value model
Требует много GPU и человеческих аннотаций

Именно поэтому DPO стал популярной альтернативой: тот же результат без reward model и PPO.

Связанные термины

DPO — более простая альтернатива RLHF
SFT — обязательный предшественник RLHF
instruction tuning — часть pipeline RLHF
fine-tuning — общий контекст

Готовы запустить GPU-задачу?

Запустить GPU-сервер