ML Fundamentals

MoE (Mixture of Experts)

Архитектура, где каждый токен маршрутизируется к подмножеству специализированных подсетей.

Что такое Mixture of Experts

MoE (Mixture of Experts) — архитектурный паттерн для нейросетей, при котором каждый входной токен обрабатывается не всеми слоями сети, а лишь отдельными «экспертами» — небольшими подсетями. Router (маршрутизатор) для каждого токена выбирает топ-K экспертов (обычно 2 из 8–64).

Это позволяет иметь огромное число всего параметров при небольшом числе активных параметров на токен.

Как устроен MoE-слой

В трансформере MoE заменяет стандартный FFN (feedforward layer):

Input token hidden state
        ↓
   Router (Linear)
        ↓
   Top-K Experts (обычно 2 из N)
   [Expert 1: FFN]
   [Expert 2: FFN]
        ↓
   Weighted sum → output

Router обучается совместно с экспертами и учится направлять разные типы токенов к подходящим экспертам.

Примеры MoE-моделей

Модель Всего параметров Активных на токен Экспертов
Mixtral 8×7B ~47B ~12B 8, топ-2
Mixtral 8×22B ~141B ~39B 8, топ-2
DeepSeek-V3 671B 37B 256, топ-8
GPT-4 (слухи) ~1.8T ~110B 16, топ-2

Преимущества и сложности

Преимущества:

  • Качество «большой» модели при вычислительной стоимости «маленькой»
  • Параллельные эксперты хорошо масштабируются на GPU-кластеры

Сложности:

  • Требуют больше VRAM для хранения всех экспертов
  • Load balancing: router должен равномерно нагружать экспертов (без этого одни переполнены, другие простаивают)
  • Неэффективность при small batch sizes

MoE на cloudcompute.ru

Для inference Mixtral и DeepSeek нужно несколько GPU: Mixtral 8×7B в BF16 занимает ~87 GB VRAM. Оптимально: 2× H100 80GB или кластер A100 80GB. Рекомендуем использовать vLLM с tensor parallelism.

Связанные термины

  • feedforward layer — заменяется MoE-слоем
  • трансформер — базовая архитектура для MoE
  • tensor parallelism — необходим для распределения экспертов по GPU
  • vLLM — поддерживает Mixtral, DeepSeek MoE-модели

Готовы запустить GPU-задачу?

Запустить GPU-сервер