VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	270 ГБ	Максимальное	Для продакшена
FP8	135 ГБ	Отличное	Оптимально
INT8	135 ГБ	Хорошее
INT4/Q4	68 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA H100 SXM	80 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA H200 SXM	141 ГБ	FP16, FP8, INT8, INT4	Арендовать

Характеристики модели

Технические параметры

Разработчик: Mistral AI
Год выпуска: 2024
Параметры: 141B
Архитектура: MoE
Контекстное окно: 65,536 токенов
Лицензия: Apache-2.0

Применение

Reasoning Code generation Complex instruction following Research

Mixtral 8×22B — «тяжёлый артиллерийский» MoE от Mistral: суммарный масштаб 141B при активации около 39B на токен даёт качество заметно выше класса 70B dense при более разумной стоимости шага, чем у монолитных 100B+. Модель хорошо подходит для сложных инструкций, кода и многошаговых рассуждений, когда 8×7B уже не тянет задачу. Деплой почти всегда multi-GPU, зато открытая лицензия и предсказуемая экосистема vLLM упрощают интеграцию.

Контекстное окно 64k; чекпоинт instruct: mistralai/Mixtral-8x22B-Instruct-v0.1.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Mixtral 8×22B в fp16 нужен пул H100 / H200 (часто несколько карт). Перейдите в каталог GPU и арендуйте инстанс с суммарным VRAM, достаточным под веса и KV-cache.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model mistralai/Mixtral-8x22B-Instruct-v0.1 \
  --dtype auto \
  --max-model-len 65536 \
  --tensor-parallel-size 4

Число GPU подставьте под вашу конфигурацию (иногда достаточно 2×80GB при FP8/агрессивных настройках памяти — проверяйте на своём железе).

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistralai/Mixtral-8x22B-Instruct-v0.1",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

Начните с умеренного --max-model-len: 64k в полный рост редко нужен с первого дня, а память съедается быстро.
Следите за --gpu-memory-utilization и фрагментацией памяти при одновременных запросах.
Для стабильного TTFT на tensor parallel важна пропускная способность линка между GPU — избегайте «случайных» PCIe-топологий без проверки.

Mixtral 8×22B