MoE (Mixture of Experts)
Архитектура, где каждый токен маршрутизируется к подмножеству специализированных подсетей.
Что такое Mixture of Experts
MoE (Mixture of Experts) — архитектурный паттерн для нейросетей, при котором каждый входной токен обрабатывается не всеми слоями сети, а лишь отдельными «экспертами» — небольшими подсетями. Router (маршрутизатор) для каждого токена выбирает топ-K экспертов (обычно 2 из 8–64).
Это позволяет иметь огромное число всего параметров при небольшом числе активных параметров на токен.
Как устроен MoE-слой
В трансформере MoE заменяет стандартный FFN (feedforward layer):
Input token hidden state
↓
Router (Linear)
↓
Top-K Experts (обычно 2 из N)
[Expert 1: FFN]
[Expert 2: FFN]
↓
Weighted sum → output
Router обучается совместно с экспертами и учится направлять разные типы токенов к подходящим экспертам.
Примеры MoE-моделей
| Модель | Всего параметров | Активных на токен | Экспертов |
|---|---|---|---|
| Mixtral 8×7B | ~47B | ~12B | 8, топ-2 |
| Mixtral 8×22B | ~141B | ~39B | 8, топ-2 |
| DeepSeek-V3 | 671B | 37B | 256, топ-8 |
| GPT-4 (слухи) | ~1.8T | ~110B | 16, топ-2 |
Преимущества и сложности
Преимущества:
- Качество «большой» модели при вычислительной стоимости «маленькой»
- Параллельные эксперты хорошо масштабируются на GPU-кластеры
Сложности:
- Требуют больше VRAM для хранения всех экспертов
- Load balancing: router должен равномерно нагружать экспертов (без этого одни переполнены, другие простаивают)
- Неэффективность при small batch sizes
MoE на cloudcompute.ru
Для inference Mixtral и DeepSeek нужно несколько GPU: Mixtral 8×7B в BF16 занимает ~87 GB VRAM. Оптимально: 2× H100 80GB или кластер A100 80GB. Рекомендуем использовать vLLM с tensor parallelism.
Связанные термины
- feedforward layer — заменяется MoE-слоем
- трансформер — базовая архитектура для MoE
- tensor parallelism — необходим для распределения экспертов по GPU
- vLLM — поддерживает Mixtral, DeepSeek MoE-модели
Готовы запустить GPU-задачу?
Запустить GPU-сервер