ML Fundamentals

трансформер

Архитектура нейросети на основе механизма внимания, лежащая в основе современных LLM.

Что такое трансформер

Трансформер — архитектура нейросети, предложенная Vaswani et al. в статье «Attention is All You Need» (2017). Заменила рекуррентные сети (LSTM, GRU) в задачах обработки последовательностей и стала основой всех современных LLM: GPT, Llama, Mistral, Gemma, BERT.

Ключевая идея: механизм внимания (attention) позволяет каждому токену «смотреть» на все другие токены последовательности параллельно, без рекуррентных зависимостей. Это делает трансформеры значительно более эффективными для параллельного обучения на GPU.

Архитектура decoder-only трансформера (GPT-стиль)

Input tokens
    ↓
[Token Embedding + Position Encoding (RoPE)]
    ↓ × N layers
┌─────────────────────────────────────┐
│  [RMSNorm]                          │
│  [Multi-Head Attention (causal)]    │  ← каждый токен смотрит на предыдущие
│  [Residual connection]              │
│  [RMSNorm]                          │
│  [Feed-Forward Network (MLP)]       │
│  [Residual connection]              │
└─────────────────────────────────────┘
    ↓
[RMSNorm]
    ↓
[Linear (logits) → Softmax → Sampling]
    ↓
Output token

Типы трансформеров

Тип	Архитектура	Применение	Пример
Decoder-only	Только decoder, causal mask	Генерация текста (LLM)	GPT, Llama, Mistral
Encoder-only	Только encoder, bidirectional	Классификация, эмбеддинги	BERT, RoBERTa
Encoder-decoder	Оба компонента	Перевод, seq2seq	T5, BART

Связанные термины

attention — механизм, лежащий в основе трансформера
multi-head attention — расширение базового attention
feedforward layer — MLP-компонент трансформера
layer norm — нормализация в трансформере
RoPE — позиционное кодирование в LLM
MoE — эффективное масштабирование трансформеров

Готовы запустить GPU-задачу?

Запустить GPU-сервер