LLM Apache-2.0

Mixtral 8×22B

141B параметров · MoE · Контекст 66k · Mistral AI · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 270 ГБ Максимальное Для продакшена
FP8 135 ГБ Отличное Оптимально
INT8 135 ГБ Хорошее
INT4/Q4 68 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT8, INT4 Арендовать
141 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Mixtral-8x22B-Instruct-v0.1 \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Mistral AI
Год выпуска
2024
Параметры
141B
Архитектура
MoE
Контекстное окно
65,536 токенов
Лицензия
Apache-2.0

Применение

Reasoning Code generation Complex instruction following Research

Mixtral 8×22B — «тяжёлый артиллерийский» MoE от Mistral: суммарный масштаб 141B при активации около 39B на токен даёт качество заметно выше класса 70B dense при более разумной стоимости шага, чем у монолитных 100B+. Модель хорошо подходит для сложных инструкций, кода и многошаговых рассуждений, когда 8×7B уже не тянет задачу. Деплой почти всегда multi-GPU, зато открытая лицензия и предсказуемая экосистема vLLM упрощают интеграцию.

Контекстное окно 64k; чекпоинт instruct: mistralai/Mixtral-8x22B-Instruct-v0.1.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Mixtral 8×22B в fp16 нужен пул H100 / H200 (часто несколько карт). Перейдите в каталог GPU и арендуйте инстанс с суммарным VRAM, достаточным под веса и KV-cache.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model mistralai/Mixtral-8x22B-Instruct-v0.1 \
  --dtype auto \
  --max-model-len 65536 \
  --tensor-parallel-size 4

Число GPU подставьте под вашу конфигурацию (иногда достаточно 2×80GB при FP8/агрессивных настройках памяти — проверяйте на своём железе).

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistralai/Mixtral-8x22B-Instruct-v0.1",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

  • Начните с умеренного --max-model-len: 64k в полный рост редко нужен с первого дня, а память съедается быстро.
  • Следите за --gpu-memory-utilization и фрагментацией памяти при одновременных запросах.
  • Для стабильного TTFT на tensor parallel важна пропускная способность линка между GPU — избегайте «случайных» PCIe-топологий без проверки.