Training
instruction tuning
Fine-tuning LLM на наборе разнообразных инструкций для улучшения способности следовать указаниям.
Что такое instruction tuning
Instruction tuning — особый вид SFT, при котором модель обучается на большом наборе разнообразных инструкций и ответов. Цель — научить модель следовать произвольным пользовательским инструкциям на естественном языке, а не только решать узкую задачу.
Отличие от обычного SFT: датасет намеренно максимально разнообразен — суммаризация, перевод, анализ кода, математика, ролевые игры, creative writing — всё в одном. Это обеспечивает обобщённую способность следовать инструкциям.
Ключевые датасеты
- FLAN (Google) — 1800+ задач из NLP-бенчмарков в формате инструкций
- Alpaca (Stanford) — 52K инструкций, сгенерированных GPT-3.5
- OpenHermes — 1M+ высококачественных instruction-tuning пар
- ShareGPT — реальные диалоги из ChatGPT
Формат данных
{"messages": [
{"role": "user", "content": "Переведи на английский: «Небо голубое»"},
{"role": "assistant", "content": "The sky is blue."}
]}
{"messages": [
{"role": "user", "content": "Напиши функцию на Python для сортировки списка"},
{"role": "assistant", "content": "```python\ndef sort_list(lst):\n return sorted(lst)\n```"}
]}
Связанные термины
- SFT — техника обучения, применяемая при instruction tuning
- RLHF и DPO — следующий шаг после instruction tuning
- fine-tuning — общий контекст
Готовы запустить GPU-задачу?
Запустить GPU-сервер