Глоссарий ML и GPU
173 терминов по GPU, инференсу, обучению моделей, генерации изображений, распознаванию речи и облачной инфраструктуре.
GPU Hardware
34 терминовDatacenter-GPU AMD с 192 ГБ HBM3, конкурирующий с H100 в задачах LLM-инференса.
Версионный идентификатор архитектуры GPU NVIDIA, определяющий поддерживаемые функции CUDA.
Параллельная вычислительная платформа NVIDIA для программирования GPU, стандарт в ML.
Базовые вычислительные ядра GPU NVIDIA для операций FP32 и INT32.
Набор инструментов NVIDIA для разработки и компиляции GPU-приложений на CUDA.
Библиотека NVIDIA с высокопроизводительными примитивами для нейросетей поверх CUDA.
GPU, спроектированный для серверных стоек: с ECC, большим VRAM и поддержкой multi-GPU.
Память с аппаратной коррекцией ошибок, предотвращающей тихое повреждение данных в GPU.
Floating Point Operations Per Second — мера вычислительной производительности GPU.
Тип видеопамяти потребительских и ряда серверных GPU, более доступный аналог HBM.
Графический процессор, используемый для параллельных вычислений в задачах машинного обучения.
Прямой доступ виртуальной машины к физическому GPU без виртуализации CUDA-стека.
Процент времени, когда GPU выполнял вычислительную работу; метрика эффективности использования.
Облачная виртуальная машина или контейнер с доступом к одному или нескольким GPU.
Группа серверов с GPU, объединённых высокоскоростной сетью для распределённых вычислений.
Тип GPU-памяти с вертикальной компоновкой чипов, обеспечивающий в разы большую пропускную способность чем GDDR.
Технология NVIDIA для аппаратного разделения одного GPU на изолированные экземпляры.
Библиотека NVIDIA для коллективных коммуникаций между GPU в распределённых вычислениях.
Datacenter-GPU NVIDIA на архитектуре Ampere с 80 ГБ HBM2e для обучения и инференса.
Программный слой между GPU и ОС; определяет максимально поддерживаемую версию CUDA.
Datacenter-GPU NVIDIA на архитектуре Hopper с поддержкой FP8 и NVLink 4.0.
Обновлённый H100 с 141 ГБ памяти HBM3e для работы с крупными языковыми моделями.
GPU NVIDIA для инференса и рендеринга с 48 ГБ GDDR6 на архитектуре Ada Lovelace.
Потребительский флагман NVIDIA с 24 ГБ GDDR6X, применяемый в fine-tuning и локальном инференсе.
Высокоскоростная межсоединительная шина NVIDIA между GPU с пропускной способностью до 900 ГБ/с.
Твердотельный накопитель с интерфейсом NVMe, обеспечивающий высокую скорость загрузки датасетов.
Стандарт шины для подключения GPU к серверу; ограничивает скорость multi-GPU коммуникации.
Основной вычислительный блок GPU NVIDIA, содержащий CUDA-ядра и Tensor Cores.
Прерываемый облачный инстанс по сниженной цене, который может быть отозван в любой момент.
Основной вычислительный блок GPU NVIDIA — синоним SM, содержащий ядра и Tensor Cores.
Тепловая мощность GPU, определяющая требования к охлаждению и питанию сервера.
Специализированные вычислительные блоки GPU NVIDIA для ускоренных матричных умножений.
Видеопамять GPU, определяющая максимальный размер модели, который можно загрузить.
Скорость передачи данных между GPU и его памятью; критична для decode-фазы инференса.
Inference
29 терминовМетод квантизации весов до 4 бит с учётом важности активаций для минимизации потерь качества.
Одновременная обработка нескольких запросов одним прогоном модели.
Динамическое добавление новых запросов в батч без ожидания завершения текущего.
Фаза авторегрессивной генерации, в которой модель пошагово создаёт выходные токены.
Формат файла для квантизованных моделей, используемый llama.cpp и совместимыми движками.
Алгоритм посткалиброванной квантизации LLM до 4–8 бит с минимальными потерями перплексии.
Кеш ключей и значений механизма внимания, устраняющий повторное вычисление токенов в контексте.
Инференс-движок для LLM на C++, поддерживающий квантизацию и работу на CPU и GPU.
Инструмент для локального запуска LLM через единый CLI и REST API.
Алгоритм vLLM, хранящий KV-кеш в несмежных блоках памяти для уменьшения фрагментации.
Распределение слоёв модели по разным GPU для обработки разных микробатчей одновременно.
Фаза инференса, в которой обрабатывается весь входной промпт и заполняется KV-кеш.
Повторное использование уже вычисленного KV-кеша для одинаковых префиксов запросов.
Эксплуатация модели как сетевого сервиса, принимающего внешние запросы через API.
Фреймворк для структурированной генерации и эффективного инференса LLM с RadixAttention.
Ускорение генерации: черновая модель предлагает токены, основная верифицирует их пакетом.
Поэтапная отправка токенов клиенту по мере генерации, без ожидания полного ответа.
Принудительная генерация модели в заданном формате (JSON, regex) с помощью grammar-сэмплинга.
Параметр, масштабирующий логиты перед softmax; управляет степенью случайности генерации.
Разбиение тензоров модели по нескольким GPU для параллельного вычисления внутри одного слоя.
Сервер инференса от Hugging Face с поддержкой continuous batching и streaming.
Основная метрика скорости инференса: количество генерируемых токенов за секунду.
Сэмплинг из минимального множества токенов, чья совокупная вероятность превышает порог p.
Среднее время генерации одного токена после первого; определяет воспринимаемую скорость стриминга.
Время от отправки запроса до получения первого токена; ключевая метрика латентности инференса.
Высокопроизводительный фреймворк инференса LLM с PagedAttention для эффективного управления KV-кешем.
Процесс получения предсказаний от обученной модели на новых входных данных.
Снижение точности весов модели (например, до int4/int8) для уменьшения VRAM и ускорения инференса.
Максимальное число токенов, которые модель учитывает одновременно на входе и выходе.
Training
29 терминовСтандартный оптимизатор для обучения трансформеров: Adam с корректным L2-регуляризатором.
Число примеров, обрабатываемых за один шаг оптимизатора; влияет на стабильность и скорость обучения.
Brain Float 16 — 16-битный формат с диапазоном FP32 и 7-битной мантиссой, стандарт для LLM-обучения.
Библиотека Microsoft для распределённого обучения с ZeRO-оптимизатором и снижением потребления памяти.
Direct Preference Optimization — упрощённая альтернатива RLHF без отдельной reward-модели.
Один полный проход по всему обучающему датасету.
Дообучение предобученной модели на специализированном датасете для адаптации к задаче.
16-битный формат с плавающей точкой для ускорения GPU-вычислений; требует loss scaling при обучении.
8-битный формат с плавающей точкой для H100/H200; удваивает throughput матричных операций.
Fully Sharded Data Parallel — PyTorch-реализация шардирования параметров, аналог ZeRO-3.
Накопление градиентов нескольких микробатчей перед шагом оптимизатора для имитации большого батча.
Техника обучения: перевычисление активаций при backward pass вместо их хранения в памяти.
Fine-tuning LLM на наборе разнообразных инструкций для улучшения способности следовать указаниям.
Шаг градиентного спуска — ключевой гиперпараметр обучения нейросети.
Low-Rank Adaptation — техника fine-tuning, обновляющая только матрицы малого ранга вместо всех весов.
Алгоритм изменения learning rate в процессе обучения — обычно снижение со временем.
Малая порция данных, обрабатываемая за один шаг при gradient accumulation.
Обучение с использованием FP16/BF16 для вычислений и FP32 для накопления — баланс скорости и точности.
Переобучение: модель отлично работает на train, но плохо — на новых данных.
Parameter-Efficient Fine-Tuning — методы дообучения, обновляющие малую долю параметров модели.
Начальное обучение модели на огромном корпусе данных для формирования универсальных представлений.
Основной фреймворк для глубокого обучения с динамическими графами вычислений на Python.
Квантизованная LoRA: fine-tuning поверх 4-битной модели, снижающий требования к VRAM до ~8 ГБ.
Reinforcement Learning from Human Feedback — метод выравнивания LLM по предпочтениям человека.
Дообучение LLM с учителем на парах ввод-вывод для придания нужного поведения.
Начальная фаза обучения с постепенным ростом learning rate от нуля до целевого значения.
L2-регуляризация весов, штрафующая большие значения и снижающая риск переобучения.
Zero Redundancy Optimizer — алгоритм DeepSpeed, устраняющий дублирование параметров между GPU.
Сохранённое состояние модели и оптимизатора в определённый момент обучения.
Image Generation
19 терминовКлассический веб-интерфейс для Stable Diffusion с удобным UI и огромной экосистемой расширений.
Classifier-Free Guidance scale — степень следования промпту при генерации изображений.
Node-based визуальный редактор пайплайнов генерации изображений для Stable Diffusion и FLUX.
Метод условной генерации изображений, управляющий позой, контуром, глубиной и другими параметрами.
Степень изменения входного изображения в img2img: 0 — без изменений, 1 — полная перегенерация.
Семейство диффузионных моделей Black Forest Labs на Rectified Flow с лучшим качеством на 2024 год.
Трансформация существующего изображения по промпту с регулируемой степенью изменения.
Редактирование части изображения по маске — замена или восстановление выделенной области.
Лёгкие адаптеры для Stable Diffusion, добавляющие стиль, персонажа или концепцию без переобучения.
Описание нежелательных элементов изображения, которые модель должна избегать.
Расширение изображения за его исходные границы с генерацией нового правдоподобного контента.
Алгоритм итеративного denoising в диффузионных моделях; влияет на качество и скорость генерации.
Stable Diffusion XL — улучшенная версия SD с двойным текстовым кодировщиком и разрешением 1024×1024.
Начальное случайное число, определяющее конкретный результат генерации при фиксированных параметрах.
Семейство диффузионных моделей генерации изображений от Stability AI с открытым кодом.
Генерация изображения с нуля по текстовому описанию — базовый режим Stable Diffusion.
Архитектура нейросети в Stable Diffusion, выполняющая итеративное удаление шума (denoising).
Нейросетевой инструмент для увеличения разрешения изображения с сохранением деталей.
Variational Autoencoder — компонент Stable Diffusion, кодирующий изображения в латентное пространство.
Speech
13 терминовПринудительное выравнивание — точное сопоставление слов транскрипции с временными позициями в аудио.
Automatic Speech Recognition — автоматическое распознавание речи, преобразование аудио в текст.
Определение конца речевого высказывания в streaming ASR — момент, когда пользователь закончил говорить.
Оптимизированная реализация Whisper на CTranslate2 — в 4× быстрее оригинала при меньшем потреблении памяти.
Open-source Python-библиотека для диаризации и сегментации речи, лидер по качеству среди open-source решений.
Плотный вектор, кодирующий уникальные характеристики голоса конкретного человека.
Text-to-Speech — синтез речи, преобразование текста в звуковую волну.
Voice Activity Detection — автоматическое определение участков аудио, содержащих речь.
Word Error Rate — доля неправильно распознанных слов, основная метрика качества ASR.
Мультиязычная модель ASR от OpenAI, обученная на 680 000 часах размеченного аудио.
Временные метки для каждого слова в транскрипции — момент начала и окончания произнесения.
Speaker diarization — разметка аудио по спикерам: кто говорил и когда.
Текстовый вывод ASR-системы — преобразованная в текст речь с опциональными временными метками.
ML Fundamentals
28 терминовНелинейная функция в нейросети, позволяющая моделировать сложные зависимости.
Механизм, позволяющий нейросети динамически фокусироваться на релевантных частях входа.
Алгоритм вычисления градиентов loss по всем параметрам нейросети через цепное правило дифференцирования.
Byte Pair Encoding — алгоритм токенизации, итеративно объединяющий частые пары символов в один токен.
Компонент трансформера, применяющий два линейных преобразования с нелинейностью к каждому токену.
Grouped Query Attention — вариант attention с разделёнными K/V-головами для снижения KV-cache и ускорения inference.
Вектор частных производных loss по параметрам модели — указывает направление наибольшего роста loss.
Промежуточное представление токена в трансформере — вектор, обновляемый каждым слоем.
Нормализация активаций внутри слоя трансформера для стабилизации обучения.
Ненормализованные выходы LM head — один скор на каждый токен словаря перед softmax.
Функция потерь — скалярная метрика ошибки модели, минимизируемая в ходе обучения.
Архитектура, где каждый токен маршрутизируется к подмножеству специализированных подсетей.
Параллельное применение нескольких независимых механизмов attention для захвата различных паттернов в данных.
Метрика качества языковой модели: экспонента от среднего cross-entropy loss по токенам.
Методы снижения переобучения (overfitting) нейросети на тренировочных данных.
Rotary Position Embedding — метод позиционного кодирования LLM, обеспечивающий длинный контекст.
Механизм attention, где Q, K, V берутся из одной и той же последовательности — каждый токен «смотрит» на все остальные.
Кортеж размерностей тензора, описывающий его форму: (batch, seq_len, d_model).
Функция нормализации, превращающая вектор оценок в вероятностное распределение.
Набор размеченных или неразмеченных данных для обучения или оценки модели.
Методы стандартизации распределений активаций для стабилизации и ускорения обучения нейросетей.
Обучаемый вес нейросети — числовое значение, обновляемое в ходе тренировки.
Многомерный массив числовых данных — базовая структура данных в PyTorch и других ML-фреймворках.
Базовая единица обработки текста в LLM — субстрока, которой соответствует числовой идентификатор в словаре модели.
Компонент LLM, преобразующий текст в последовательность числовых идентификаторов и обратно.
Разбивка текста на токены — числовые идентификаторы, понятные языковой модели.
Архитектура нейросети на основе механизма внимания, лежащая в основе современных LLM.
Плотный вектор фиксированной размерности, представляющий токен, слово или целый текст в пространстве значений.
Infrastructure
21 терминовАвтоматическое добавление или снятие реплик сервиса в зависимости от текущей нагрузки.
Платформа для создания и запуска контейнеров — изолированных сред с приложением и зависимостями.
Неизменяемый снимок файловой системы с приложением, используемый для запуска контейнеров.
Скрипт сборки Docker-образа — набор инструкций для создания воспроизводимой среды.
Периодический запрос к сервису для проверки его доступности и готовности обрабатывать запросы.
Платформа для публикации, обмена и загрузки ML-моделей, датасетов и демо-приложений.
Веб-IDE для интерактивной работы с кодом, данными и GPU на сервере.
Время между отправкой запроса и получением ответа — ключевая метрика качества сервиса.
Компонент, распределяющий входящие запросы между несколькими репликами сервиса.
Централизованное хранилище версий ML-моделей с метаданными, метриками и статусами деплоя.
Пакет, предоставляющий GPU-доступ контейнерам Docker и Kubernetes.
Масштабируемое хранилище файлов с HTTP-доступом (S3/MinIO) для датасетов и артефактов.
Постоянное блочное хранилище для контейнеров, сохраняющееся после остановки сервиса.
Архитектурный стиль HTTP-API для взаимодействия клиента с inference-сервером.
Мгновенный снимок состояния диска GPU-инстанса для резервного копирования или клонирования.
Прерываемый облачный инстанс по сниженной цене с возможностью отзыва провайдером.
Протокол защищённого удалённого доступа к серверу через зашифрованный терминал.
Пара криптографических ключей для аутентификации SSH без пароля.
Пропускная способность сервиса: число запросов или токенов, обрабатываемых за единицу времени.
Протокол двунаправленной постоянной связи между клиентом и сервером для real-time приложений.
Изолированный запущенный экземпляр Docker-образа с собственной файловой системой и сетью.