ML Fundamentals
трансформер
Архитектура нейросети на основе механизма внимания, лежащая в основе современных LLM.
Что такое трансформер
Трансформер — архитектура нейросети, предложенная Vaswani et al. в статье «Attention is All You Need» (2017). Заменила рекуррентные сети (LSTM, GRU) в задачах обработки последовательностей и стала основой всех современных LLM: GPT, Llama, Mistral, Gemma, BERT.
Ключевая идея: механизм внимания (attention) позволяет каждому токену «смотреть» на все другие токены последовательности параллельно, без рекуррентных зависимостей. Это делает трансформеры значительно более эффективными для параллельного обучения на GPU.
Архитектура decoder-only трансформера (GPT-стиль)
Input tokens
↓
[Token Embedding + Position Encoding (RoPE)]
↓ × N layers
┌─────────────────────────────────────┐
│ [RMSNorm] │
│ [Multi-Head Attention (causal)] │ ← каждый токен смотрит на предыдущие
│ [Residual connection] │
│ [RMSNorm] │
│ [Feed-Forward Network (MLP)] │
│ [Residual connection] │
└─────────────────────────────────────┘
↓
[RMSNorm]
↓
[Linear (logits) → Softmax → Sampling]
↓
Output token
Типы трансформеров
| Тип | Архитектура | Применение | Пример |
|---|---|---|---|
| Decoder-only | Только decoder, causal mask | Генерация текста (LLM) | GPT, Llama, Mistral |
| Encoder-only | Только encoder, bidirectional | Классификация, эмбеддинги | BERT, RoBERTa |
| Encoder-decoder | Оба компонента | Перевод, seq2seq | T5, BART |
Связанные термины
- attention — механизм, лежащий в основе трансформера
- multi-head attention — расширение базового attention
- feedforward layer — MLP-компонент трансформера
- layer norm — нормализация в трансформере
- RoPE — позиционное кодирование в LLM
- MoE — эффективное масштабирование трансформеров
Готовы запустить GPU-задачу?
Запустить GPU-сервер