Training

RLHF

Reinforcement Learning from Human Feedback — метод выравнивания LLM по предпочтениям человека.

Что такое RLHF

RLHF (Reinforcement Learning from Human Feedback) — метод fine-tuning LLM, при котором модель оптимизируется не по минимуму кросс-энтропии, а по награде от обученной reward-модели, отражающей предпочтения людей. Применён в InstructGPT / ChatGPT (OpenAI) и широко использован при создании выровненных LLM.

Три этапа RLHF

Этап 1: SFT — обучить base-модель следовать инструкциям на демонстрациях.

Этап 2: Reward Model — обучить отдельную модель предсказывать награду за ответ:

  • Люди оценивают пары ответов (A лучше B)
  • Reward model обучается ранжировать ответы по этим оценкам

Этап 3: PPO — оптимизировать LLM-политику с помощью RL:

  • LLM генерирует ответы
  • Reward model оценивает их
  • PPO-алгоритм обновляет LLM, максимизируя награду с KL-ограничением против SFT-политики

Почему RLHF сложен

  • Нестабильность PPO — нужна тщательная настройка гиперпараметров
  • Reward hacking — модель учится «обманывать» reward model, не улучшая реальное качество
  • Compute-интенсивен — нужны одновременно policy model, reward model, reference model, value model
  • Требует много GPU и человеческих аннотаций

Именно поэтому DPO стал популярной альтернативой: тот же результат без reward model и PPO.

Связанные термины

  • DPO — более простая альтернатива RLHF
  • SFT — обязательный предшественник RLHF
  • instruction tuning — часть pipeline RLHF
  • fine-tuning — общий контекст

Готовы запустить GPU-задачу?

Запустить GPU-сервер