ML Fundamentals

параметр модели

Обучаемый вес нейросети — числовое значение, обновляемое в ходе тренировки.

Что такое параметр модели

Параметр модели (weight, weight parameter) — числовое значение внутри нейросети, изменяемое в процессе обучения через backpropagation. Вся «знание» LLM хранится в миллиардах таких чисел.

Параметры организованы в матрицы: матрица весов attention, FFN, embedding и т.д. «7 миллиардов параметров» означает примерно 7 × 10⁹ float-чисел.

Сколько памяти занимают параметры

Precision	Байт/параметр	7B модель	70B модель
FP32	4	28 GB	280 GB
BF16/FP16	2	14 GB	140 GB
INT8	1	7 GB	70 GB
INT4/GPTQ	0.5	3.5 GB	35 GB

На практике inference требует параметры + KV-cache + overhead. Обучение требует параметры + градиенты + optimizer states ≈ 12–20 байт/параметр при FP32 Adam.

Архитектура и параметры

Для трансформера основные группы параметров:

Embedding: vocab_size × d_model
Attention per layer: Q, K, V, O матрицы: 4 × d_model²
FFN per layer: зависит от FFN размера: 8 × d_model² (SwiGLU с 4× expansion)
LM Head: d_model × vocab_size (часто разделяется с embedding)

# Посмотреть количество параметров
total_params = sum(p.numel() for p in model.parameters())
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"Total: {total_params/1e9:.1f}B, Trainable: {trainable_params/1e9:.1f}B")

Параметры vs гиперпараметры

Параметры: обучаются автоматически (веса нейросети). Гиперпараметры: задаются вручную (learning rate, batch size, число слоёв, d_model и т.д.).

Связанные термины

backpropagation — как обновляются параметры
VRAM — где хранятся параметры при inference/обучении
квантизация — уменьшение байт/параметр для экономии VRAM
LoRA — fine-tuning небольшого числа дополнительных параметров

Готовы запустить GPU-задачу?

Запустить GPU-сервер