Глоссарий ML и GPU

173 терминов по GPU, инференсу, обучению моделей, генерации изображений, распознаванию речи и облачной инфраструктуре.

GPU Hardware

34 терминов
AMD MI300X

Datacenter-GPU AMD с 192 ГБ HBM3, конкурирующий с H100 в задачах LLM-инференса.

compute capability

Версионный идентификатор архитектуры GPU NVIDIA, определяющий поддерживаемые функции CUDA.

CUDA

Параллельная вычислительная платформа NVIDIA для программирования GPU, стандарт в ML.

CUDA Core

Базовые вычислительные ядра GPU NVIDIA для операций FP32 и INT32.

CUDA Toolkit

Набор инструментов NVIDIA для разработки и компиляции GPU-приложений на CUDA.

cuDNN

Библиотека NVIDIA с высокопроизводительными примитивами для нейросетей поверх CUDA.

datacenter GPU

GPU, спроектированный для серверных стоек: с ECC, большим VRAM и поддержкой multi-GPU.

ECC memory

Память с аппаратной коррекцией ошибок, предотвращающей тихое повреждение данных в GPU.

FLOPS / TFLOPS

Floating Point Operations Per Second — мера вычислительной производительности GPU.

GDDR6

Тип видеопамяти потребительских и ряда серверных GPU, более доступный аналог HBM.

GPU

Графический процессор, используемый для параллельных вычислений в задачах машинного обучения.

GPU passthrough

Прямой доступ виртуальной машины к физическому GPU без виртуализации CUDA-стека.

GPU utilization

Процент времени, когда GPU выполнял вычислительную работу; метрика эффективности использования.

GPU-инстанс

Облачная виртуальная машина или контейнер с доступом к одному или нескольким GPU.

GPU-кластер

Группа серверов с GPU, объединённых высокоскоростной сетью для распределённых вычислений.

HBM (High Bandwidth Memory)

Тип GPU-памяти с вертикальной компоновкой чипов, обеспечивающий в разы большую пропускную способность чем GDDR.

MIG (Multi-Instance GPU)

Технология NVIDIA для аппаратного разделения одного GPU на изолированные экземпляры.

NCCL

Библиотека NVIDIA для коллективных коммуникаций между GPU в распределённых вычислениях.

NVIDIA A100

Datacenter-GPU NVIDIA на архитектуре Ampere с 80 ГБ HBM2e для обучения и инференса.

NVIDIA Driver

Программный слой между GPU и ОС; определяет максимально поддерживаемую версию CUDA.

NVIDIA H100

Datacenter-GPU NVIDIA на архитектуре Hopper с поддержкой FP8 и NVLink 4.0.

NVIDIA H200

Обновлённый H100 с 141 ГБ памяти HBM3e для работы с крупными языковыми моделями.

NVIDIA L40S

GPU NVIDIA для инференса и рендеринга с 48 ГБ GDDR6 на архитектуре Ada Lovelace.

NVIDIA RTX 4090

Потребительский флагман NVIDIA с 24 ГБ GDDR6X, применяемый в fine-tuning и локальном инференсе.

NVLink

Высокоскоростная межсоединительная шина NVIDIA между GPU с пропускной способностью до 900 ГБ/с.

NVMe SSD

Твердотельный накопитель с интерфейсом NVMe, обеспечивающий высокую скорость загрузки датасетов.

PCIe

Стандарт шины для подключения GPU к серверу; ограничивает скорость multi-GPU коммуникации.

SM (Streaming Multiprocessor)

Основной вычислительный блок GPU NVIDIA, содержащий CUDA-ядра и Tensor Cores.

spot-инстанс

Прерываемый облачный инстанс по сниженной цене, который может быть отозван в любой момент.

Streaming Multiprocessor

Основной вычислительный блок GPU NVIDIA — синоним SM, содержащий ядра и Tensor Cores.

TDP (Thermal Design Power)

Тепловая мощность GPU, определяющая требования к охлаждению и питанию сервера.

Tensor Core

Специализированные вычислительные блоки GPU NVIDIA для ускоренных матричных умножений.

VRAM

Видеопамять GPU, определяющая максимальный размер модели, который можно загрузить.

пропускная способность памяти GPU

Скорость передачи данных между GPU и его памятью; критична для decode-фазы инференса.

Inference

29 терминов
AWQ

Метод квантизации весов до 4 бит с учётом важности активаций для минимизации потерь качества.

batching

Одновременная обработка нескольких запросов одним прогоном модели.

continuous batching

Динамическое добавление новых запросов в батч без ожидания завершения текущего.

decode

Фаза авторегрессивной генерации, в которой модель пошагово создаёт выходные токены.

GGUF

Формат файла для квантизованных моделей, используемый llama.cpp и совместимыми движками.

GPTQ

Алгоритм посткалиброванной квантизации LLM до 4–8 бит с минимальными потерями перплексии.

KV-кеш

Кеш ключей и значений механизма внимания, устраняющий повторное вычисление токенов в контексте.

llama.cpp

Инференс-движок для LLM на C++, поддерживающий квантизацию и работу на CPU и GPU.

Ollama

Инструмент для локального запуска LLM через единый CLI и REST API.

PagedAttention

Алгоритм vLLM, хранящий KV-кеш в несмежных блоках памяти для уменьшения фрагментации.

pipeline parallelism

Распределение слоёв модели по разным GPU для обработки разных микробатчей одновременно.

prefill

Фаза инференса, в которой обрабатывается весь входной промпт и заполняется KV-кеш.

prompt caching

Повторное использование уже вычисленного KV-кеша для одинаковых префиксов запросов.

serving

Эксплуатация модели как сетевого сервиса, принимающего внешние запросы через API.

SGLang

Фреймворк для структурированной генерации и эффективного инференса LLM с RadixAttention.

speculative decoding

Ускорение генерации: черновая модель предлагает токены, основная верифицирует их пакетом.

streaming

Поэтапная отправка токенов клиенту по мере генерации, без ожидания полного ответа.

structured outputs

Принудительная генерация модели в заданном формате (JSON, regex) с помощью grammar-сэмплинга.

temperature

Параметр, масштабирующий логиты перед softmax; управляет степенью случайности генерации.

tensor parallelism

Разбиение тензоров модели по нескольким GPU для параллельного вычисления внутри одного слоя.

TGI (Text Generation Inference)

Сервер инференса от Hugging Face с поддержкой continuous batching и streaming.

tokens per second

Основная метрика скорости инференса: количество генерируемых токенов за секунду.

top-p (nucleus sampling)

Сэмплинг из минимального множества токенов, чья совокупная вероятность превышает порог p.

TPOT (Time Per Output Token)

Среднее время генерации одного токена после первого; определяет воспринимаемую скорость стриминга.

TTFT (Time to First Token)

Время от отправки запроса до получения первого токена; ключевая метрика латентности инференса.

vLLM

Высокопроизводительный фреймворк инференса LLM с PagedAttention для эффективного управления KV-кешем.

инференс

Процесс получения предсказаний от обученной модели на новых входных данных.

квантизация

Снижение точности весов модели (например, до int4/int8) для уменьшения VRAM и ускорения инференса.

контекстное окно

Максимальное число токенов, которые модель учитывает одновременно на входе и выходе.

Training

29 терминов
AdamW

Стандартный оптимизатор для обучения трансформеров: Adam с корректным L2-регуляризатором.

batch size

Число примеров, обрабатываемых за один шаг оптимизатора; влияет на стабильность и скорость обучения.

BF16

Brain Float 16 — 16-битный формат с диапазоном FP32 и 7-битной мантиссой, стандарт для LLM-обучения.

DeepSpeed

Библиотека Microsoft для распределённого обучения с ZeRO-оптимизатором и снижением потребления памяти.

DPO

Direct Preference Optimization — упрощённая альтернатива RLHF без отдельной reward-модели.

epoch

Один полный проход по всему обучающему датасету.

fine-tuning

Дообучение предобученной модели на специализированном датасете для адаптации к задаче.

FP16

16-битный формат с плавающей точкой для ускорения GPU-вычислений; требует loss scaling при обучении.

FP8

8-битный формат с плавающей точкой для H100/H200; удваивает throughput матричных операций.

FSDP

Fully Sharded Data Parallel — PyTorch-реализация шардирования параметров, аналог ZeRO-3.

gradient accumulation

Накопление градиентов нескольких микробатчей перед шагом оптимизатора для имитации большого батча.

gradient checkpointing

Техника обучения: перевычисление активаций при backward pass вместо их хранения в памяти.

instruction tuning

Fine-tuning LLM на наборе разнообразных инструкций для улучшения способности следовать указаниям.

learning rate

Шаг градиентного спуска — ключевой гиперпараметр обучения нейросети.

LoRA

Low-Rank Adaptation — техника fine-tuning, обновляющая только матрицы малого ранга вместо всех весов.

lr scheduler

Алгоритм изменения learning rate в процессе обучения — обычно снижение со временем.

microbatch

Малая порция данных, обрабатываемая за один шаг при gradient accumulation.

mixed precision

Обучение с использованием FP16/BF16 для вычислений и FP32 для накопления — баланс скорости и точности.

overfitting

Переобучение: модель отлично работает на train, но плохо — на новых данных.

PEFT

Parameter-Efficient Fine-Tuning — методы дообучения, обновляющие малую долю параметров модели.

pretraining

Начальное обучение модели на огромном корпусе данных для формирования универсальных представлений.

PyTorch

Основной фреймворк для глубокого обучения с динамическими графами вычислений на Python.

QLoRA

Квантизованная LoRA: fine-tuning поверх 4-битной модели, снижающий требования к VRAM до ~8 ГБ.

RLHF

Reinforcement Learning from Human Feedback — метод выравнивания LLM по предпочтениям человека.

SFT (Supervised Fine-Tuning)

Дообучение LLM с учителем на парах ввод-вывод для придания нужного поведения.

warmup

Начальная фаза обучения с постепенным ростом learning rate от нуля до целевого значения.

weight decay

L2-регуляризация весов, штрафующая большие значения и снижающая риск переобучения.

ZeRO

Zero Redundancy Optimizer — алгоритм DeepSpeed, устраняющий дублирование параметров между GPU.

чекпоинт

Сохранённое состояние модели и оптимизатора в определённый момент обучения.

Image Generation

19 терминов
AUTOMATIC1111

Классический веб-интерфейс для Stable Diffusion с удобным UI и огромной экосистемой расширений.

CFG scale

Classifier-Free Guidance scale — степень следования промпту при генерации изображений.

ComfyUI

Node-based визуальный редактор пайплайнов генерации изображений для Stable Diffusion и FLUX.

ControlNet

Метод условной генерации изображений, управляющий позой, контуром, глубиной и другими параметрами.

denoising strength

Степень изменения входного изображения в img2img: 0 — без изменений, 1 — полная перегенерация.

FLUX

Семейство диффузионных моделей Black Forest Labs на Rectified Flow с лучшим качеством на 2024 год.

img2img

Трансформация существующего изображения по промпту с регулируемой степенью изменения.

inpainting

Редактирование части изображения по маске — замена или восстановление выделенной области.

LoRA (image gen)

Лёгкие адаптеры для Stable Diffusion, добавляющие стиль, персонажа или концепцию без переобучения.

negative prompt

Описание нежелательных элементов изображения, которые модель должна избегать.

outpainting

Расширение изображения за его исходные границы с генерацией нового правдоподобного контента.

sampler

Алгоритм итеративного denoising в диффузионных моделях; влияет на качество и скорость генерации.

SDXL

Stable Diffusion XL — улучшенная версия SD с двойным текстовым кодировщиком и разрешением 1024×1024.

seed

Начальное случайное число, определяющее конкретный результат генерации при фиксированных параметрах.

Stable Diffusion

Семейство диффузионных моделей генерации изображений от Stability AI с открытым кодом.

txt2img

Генерация изображения с нуля по текстовому описанию — базовый режим Stable Diffusion.

UNet

Архитектура нейросети в Stable Diffusion, выполняющая итеративное удаление шума (denoising).

upscaler

Нейросетевой инструмент для увеличения разрешения изображения с сохранением деталей.

VAE

Variational Autoencoder — компонент Stable Diffusion, кодирующий изображения в латентное пространство.

Speech

13 терминов
alignment

Принудительное выравнивание — точное сопоставление слов транскрипции с временными позициями в аудио.

ASR

Automatic Speech Recognition — автоматическое распознавание речи, преобразование аудио в текст.

endpointing

Определение конца речевого высказывания в streaming ASR — момент, когда пользователь закончил говорить.

faster-whisper

Оптимизированная реализация Whisper на CTranslate2 — в 4× быстрее оригинала при меньшем потреблении памяти.

pyannote

Open-source Python-библиотека для диаризации и сегментации речи, лидер по качеству среди open-source решений.

speaker embedding

Плотный вектор, кодирующий уникальные характеристики голоса конкретного человека.

TTS

Text-to-Speech — синтез речи, преобразование текста в звуковую волну.

VAD

Voice Activity Detection — автоматическое определение участков аудио, содержащих речь.

WER

Word Error Rate — доля неправильно распознанных слов, основная метрика качества ASR.

Whisper

Мультиязычная модель ASR от OpenAI, обученная на 680 000 часах размеченного аудио.

word timestamps

Временные метки для каждого слова в транскрипции — момент начала и окончания произнесения.

диаризация

Speaker diarization — разметка аудио по спикерам: кто говорил и когда.

транскрипция

Текстовый вывод ASR-системы — преобразованная в текст речь с опциональными временными метками.

ML Fundamentals

28 терминов
activation function

Нелинейная функция в нейросети, позволяющая моделировать сложные зависимости.

attention

Механизм, позволяющий нейросети динамически фокусироваться на релевантных частях входа.

backpropagation

Алгоритм вычисления градиентов loss по всем параметрам нейросети через цепное правило дифференцирования.

BPE

Byte Pair Encoding — алгоритм токенизации, итеративно объединяющий частые пары символов в один токен.

feedforward layer

Компонент трансформера, применяющий два линейных преобразования с нелинейностью к каждому токену.

GQA

Grouped Query Attention — вариант attention с разделёнными K/V-головами для снижения KV-cache и ускорения inference.

gradient

Вектор частных производных loss по параметрам модели — указывает направление наибольшего роста loss.

hidden state

Промежуточное представление токена в трансформере — вектор, обновляемый каждым слоем.

layer normalization

Нормализация активаций внутри слоя трансформера для стабилизации обучения.

logits

Ненормализованные выходы LM head — один скор на каждый токен словаря перед softmax.

loss

Функция потерь — скалярная метрика ошибки модели, минимизируемая в ходе обучения.

MoE (Mixture of Experts)

Архитектура, где каждый токен маршрутизируется к подмножеству специализированных подсетей.

multi-head attention

Параллельное применение нескольких независимых механизмов attention для захвата различных паттернов в данных.

perplexity

Метрика качества языковой модели: экспонента от среднего cross-entropy loss по токенам.

regularization

Методы снижения переобучения (overfitting) нейросети на тренировочных данных.

RoPE

Rotary Position Embedding — метод позиционного кодирования LLM, обеспечивающий длинный контекст.

self-attention

Механизм attention, где Q, K, V берутся из одной и той же последовательности — каждый токен «смотрит» на все остальные.

shape

Кортеж размерностей тензора, описывающий его форму: (batch, seq_len, d_model).

softmax

Функция нормализации, превращающая вектор оценок в вероятностное распределение.

датасет

Набор размеченных или неразмеченных данных для обучения или оценки модели.

нормализация

Методы стандартизации распределений активаций для стабилизации и ускорения обучения нейросетей.

параметр модели

Обучаемый вес нейросети — числовое значение, обновляемое в ходе тренировки.

тензор

Многомерный массив числовых данных — базовая структура данных в PyTorch и других ML-фреймворках.

токен

Базовая единица обработки текста в LLM — субстрока, которой соответствует числовой идентификатор в словаре модели.

токенизатор

Компонент LLM, преобразующий текст в последовательность числовых идентификаторов и обратно.

токенизация

Разбивка текста на токены — числовые идентификаторы, понятные языковой модели.

трансформер

Архитектура нейросети на основе механизма внимания, лежащая в основе современных LLM.

эмбеддинг

Плотный вектор фиксированной размерности, представляющий токен, слово или целый текст в пространстве значений.

Infrastructure

21 терминов
autoscaling

Автоматическое добавление или снятие реплик сервиса в зависимости от текущей нагрузки.

Docker

Платформа для создания и запуска контейнеров — изолированных сред с приложением и зависимостями.

Docker Image

Неизменяемый снимок файловой системы с приложением, используемый для запуска контейнеров.

Dockerfile

Скрипт сборки Docker-образа — набор инструкций для создания воспроизводимой среды.

health check

Периодический запрос к сервису для проверки его доступности и готовности обрабатывать запросы.

Hugging Face Hub

Платформа для публикации, обмена и загрузки ML-моделей, датасетов и демо-приложений.

JupyterLab

Веб-IDE для интерактивной работы с кодом, данными и GPU на сервере.

latency

Время между отправкой запроса и получением ответа — ключевая метрика качества сервиса.

load balancer

Компонент, распределяющий входящие запросы между несколькими репликами сервиса.

model registry

Централизованное хранилище версий ML-моделей с метаданными, метриками и статусами деплоя.

NVIDIA Container Toolkit

Пакет, предоставляющий GPU-доступ контейнерам Docker и Kubernetes.

object storage

Масштабируемое хранилище файлов с HTTP-доступом (S3/MinIO) для датасетов и артефактов.

persistent volume

Постоянное блочное хранилище для контейнеров, сохраняющееся после остановки сервиса.

REST API

Архитектурный стиль HTTP-API для взаимодействия клиента с inference-сервером.

snapshot

Мгновенный снимок состояния диска GPU-инстанса для резервного копирования или клонирования.

spot-инстанс

Прерываемый облачный инстанс по сниженной цене с возможностью отзыва провайдером.

SSH

Протокол защищённого удалённого доступа к серверу через зашифрованный терминал.

SSH-ключ

Пара криптографических ключей для аутентификации SSH без пароля.

throughput

Пропускная способность сервиса: число запросов или токенов, обрабатываемых за единицу времени.

WebSocket

Протокол двунаправленной постоянной связи между клиентом и сервером для real-time приложений.

контейнер

Изолированный запущенный экземпляр Docker-образа с собственной файловой системой и сетью.