ML Fundamentals

MoE (Mixture of Experts)

Архитектура, где каждый токен маршрутизируется к подмножеству специализированных подсетей.

Что такое Mixture of Experts

MoE (Mixture of Experts) — архитектурный паттерн для нейросетей, при котором каждый входной токен обрабатывается не всеми слоями сети, а лишь отдельными «экспертами» — небольшими подсетями. Router (маршрутизатор) для каждого токена выбирает топ-K экспертов (обычно 2 из 8–64).

Это позволяет иметь огромное число всего параметров при небольшом числе активных параметров на токен.

Как устроен MoE-слой

В трансформере MoE заменяет стандартный FFN (feedforward layer):

Input token hidden state
        ↓
   Router (Linear)
        ↓
   Top-K Experts (обычно 2 из N)
   [Expert 1: FFN]
   [Expert 2: FFN]
        ↓
   Weighted sum → output

Router обучается совместно с экспертами и учится направлять разные типы токенов к подходящим экспертам.

Примеры MoE-моделей

Модель	Всего параметров	Активных на токен	Экспертов
Mixtral 8×7B	~47B	~12B	8, топ-2
Mixtral 8×22B	~141B	~39B	8, топ-2
DeepSeek-V3	671B	37B	256, топ-8
GPT-4 (слухи)	~1.8T	~110B	16, топ-2

Преимущества и сложности

Преимущества:

Качество «большой» модели при вычислительной стоимости «маленькой»
Параллельные эксперты хорошо масштабируются на GPU-кластеры

Сложности:

Требуют больше VRAM для хранения всех экспертов
Load balancing: router должен равномерно нагружать экспертов (без этого одни переполнены, другие простаивают)
Неэффективность при small batch sizes

MoE на cloudcompute.ru

Для inference Mixtral и DeepSeek нужно несколько GPU: Mixtral 8×7B в BF16 занимает ~87 GB VRAM. Оптимально: 2× H100 80GB или кластер A100 80GB. Рекомендуем использовать vLLM с tensor parallelism.

Связанные термины

feedforward layer — заменяется MoE-слоем
трансформер — базовая архитектура для MoE
tensor parallelism — необходим для распределения экспертов по GPU
vLLM — поддерживает Mixtral, DeepSeek MoE-модели

Готовы запустить GPU-задачу?

Запустить GPU-сервер