ML Fundamentals

параметр модели

Обучаемый вес нейросети — числовое значение, обновляемое в ходе тренировки.

Что такое параметр модели

Параметр модели (weight, weight parameter) — числовое значение внутри нейросети, изменяемое в процессе обучения через backpropagation. Вся «знание» LLM хранится в миллиардах таких чисел.

Параметры организованы в матрицы: матрица весов attention, FFN, embedding и т.д. «7 миллиардов параметров» означает примерно 7 × 10⁹ float-чисел.

Сколько памяти занимают параметры

Precision Байт/параметр 7B модель 70B модель
FP32 4 28 GB 280 GB
BF16/FP16 2 14 GB 140 GB
INT8 1 7 GB 70 GB
INT4/GPTQ 0.5 3.5 GB 35 GB

На практике inference требует параметры + KV-cache + overhead. Обучение требует параметры + градиенты + optimizer states ≈ 12–20 байт/параметр при FP32 Adam.

Архитектура и параметры

Для трансформера основные группы параметров:

  • Embedding: vocab_size × d_model
  • Attention per layer: Q, K, V, O матрицы: 4 × d_model²
  • FFN per layer: зависит от FFN размера: 8 × d_model² (SwiGLU с 4× expansion)
  • LM Head: d_model × vocab_size (часто разделяется с embedding)
# Посмотреть количество параметров
total_params = sum(p.numel() for p in model.parameters())
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"Total: {total_params/1e9:.1f}B, Trainable: {trainable_params/1e9:.1f}B")

Параметры vs гиперпараметры

Параметры: обучаются автоматически (веса нейросети). Гиперпараметры: задаются вручную (learning rate, batch size, число слоёв, d_model и т.д.).

Связанные термины

  • backpropagation — как обновляются параметры
  • VRAM — где хранятся параметры при inference/обучении
  • квантизация — уменьшение байт/параметр для экономии VRAM
  • LoRA — fine-tuning небольшого числа дополнительных параметров

Готовы запустить GPU-задачу?

Запустить GPU-сервер