ML Fundamentals

трансформер

Архитектура нейросети на основе механизма внимания, лежащая в основе современных LLM.

Что такое трансформер

Трансформер — архитектура нейросети, предложенная Vaswani et al. в статье «Attention is All You Need» (2017). Заменила рекуррентные сети (LSTM, GRU) в задачах обработки последовательностей и стала основой всех современных LLM: GPT, Llama, Mistral, Gemma, BERT.

Ключевая идея: механизм внимания (attention) позволяет каждому токену «смотреть» на все другие токены последовательности параллельно, без рекуррентных зависимостей. Это делает трансформеры значительно более эффективными для параллельного обучения на GPU.

Архитектура decoder-only трансформера (GPT-стиль)

Input tokens
    ↓
[Token Embedding + Position Encoding (RoPE)]
    ↓ × N layers
┌─────────────────────────────────────┐
│  [RMSNorm]                          │
│  [Multi-Head Attention (causal)]    │  ← каждый токен смотрит на предыдущие
│  [Residual connection]              │
│  [RMSNorm]                          │
│  [Feed-Forward Network (MLP)]       │
│  [Residual connection]              │
└─────────────────────────────────────┘
    ↓
[RMSNorm]
    ↓
[Linear (logits) → Softmax → Sampling]
    ↓
Output token

Типы трансформеров

Тип Архитектура Применение Пример
Decoder-only Только decoder, causal mask Генерация текста (LLM) GPT, Llama, Mistral
Encoder-only Только encoder, bidirectional Классификация, эмбеддинги BERT, RoBERTa
Encoder-decoder Оба компонента Перевод, seq2seq T5, BART

Связанные термины

  • attention — механизм, лежащий в основе трансформера
  • multi-head attention — расширение базового attention
  • feedforward layer — MLP-компонент трансформера
  • layer norm — нормализация в трансформере
  • RoPE — позиционное кодирование в LLM
  • MoE — эффективное масштабирование трансформеров

Готовы запустить GPU-задачу?

Запустить GPU-сервер