параметр модели
Обучаемый вес нейросети — числовое значение, обновляемое в ходе тренировки.
Что такое параметр модели
Параметр модели (weight, weight parameter) — числовое значение внутри нейросети, изменяемое в процессе обучения через backpropagation. Вся «знание» LLM хранится в миллиардах таких чисел.
Параметры организованы в матрицы: матрица весов attention, FFN, embedding и т.д. «7 миллиардов параметров» означает примерно 7 × 10⁹ float-чисел.
Сколько памяти занимают параметры
| Precision | Байт/параметр | 7B модель | 70B модель |
|---|---|---|---|
| FP32 | 4 | 28 GB | 280 GB |
| BF16/FP16 | 2 | 14 GB | 140 GB |
| INT8 | 1 | 7 GB | 70 GB |
| INT4/GPTQ | 0.5 | 3.5 GB | 35 GB |
На практике inference требует параметры + KV-cache + overhead. Обучение требует параметры + градиенты + optimizer states ≈ 12–20 байт/параметр при FP32 Adam.
Архитектура и параметры
Для трансформера основные группы параметров:
- Embedding:
vocab_size × d_model - Attention per layer: Q, K, V, O матрицы:
4 × d_model² - FFN per layer: зависит от FFN размера:
8 × d_model²(SwiGLU с 4× expansion) - LM Head:
d_model × vocab_size(часто разделяется с embedding)
# Посмотреть количество параметров
total_params = sum(p.numel() for p in model.parameters())
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"Total: {total_params/1e9:.1f}B, Trainable: {trainable_params/1e9:.1f}B")
Параметры vs гиперпараметры
Параметры: обучаются автоматически (веса нейросети). Гиперпараметры: задаются вручную (learning rate, batch size, число слоёв, d_model и т.д.).
Связанные термины
- backpropagation — как обновляются параметры
- VRAM — где хранятся параметры при inference/обучении
- квантизация — уменьшение байт/параметр для экономии VRAM
- LoRA — fine-tuning небольшого числа дополнительных параметров
Готовы запустить GPU-задачу?
Запустить GPU-сервер