Training

instruction tuning

Fine-tuning LLM на наборе разнообразных инструкций для улучшения способности следовать указаниям.

Что такое instruction tuning

Instruction tuning — особый вид SFT, при котором модель обучается на большом наборе разнообразных инструкций и ответов. Цель — научить модель следовать произвольным пользовательским инструкциям на естественном языке, а не только решать узкую задачу.

Отличие от обычного SFT: датасет намеренно максимально разнообразен — суммаризация, перевод, анализ кода, математика, ролевые игры, creative writing — всё в одном. Это обеспечивает обобщённую способность следовать инструкциям.

Ключевые датасеты

  • FLAN (Google) — 1800+ задач из NLP-бенчмарков в формате инструкций
  • Alpaca (Stanford) — 52K инструкций, сгенерированных GPT-3.5
  • OpenHermes — 1M+ высококачественных instruction-tuning пар
  • ShareGPT — реальные диалоги из ChatGPT

Формат данных

{"messages": [
  {"role": "user", "content": "Переведи на английский: «Небо голубое»"},
  {"role": "assistant", "content": "The sky is blue."}
]}
{"messages": [
  {"role": "user", "content": "Напиши функцию на Python для сортировки списка"},
  {"role": "assistant", "content": "```python\ndef sort_list(lst):\n    return sorted(lst)\n```"}
]}

Связанные термины

  • SFT — техника обучения, применяемая при instruction tuning
  • RLHF и DPO — следующий шаг после instruction tuning
  • fine-tuning — общий контекст

Готовы запустить GPU-задачу?

Запустить GPU-сервер