LLM Apache-2.0

Mixtral 8×7B

47B параметров · MoE · Контекст 32k · Mistral AI · 2023

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 90 ГБ Максимальное Для продакшена
FP8 45 ГБ Отличное Оптимально
INT8 45 ГБ Хорошее
INT4/Q4 24 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT8, INT4 Арендовать
80 ГБ FP16, FP8, INT8, INT4 Арендовать
24 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Mixtral-8x7B-Instruct-v0.1 \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Mistral AI
Год выпуска
2023
Параметры
47B
Архитектура
MoE
Контекстное окно
32,000 токенов
Лицензия
Apache-2.0

Применение

Reasoning Code generation Instruction following Multi-turn dialogue

Mixtral 8×7B стал эталоном «первой волны» открытых MoE: разреженная активация экспертов даёт ощущение модели уровня 40B+ при заметно более дешёвом шаге декодирования. На практике это хороший выбор, когда нужны reasoning и код без прыжка сразу на гигантские dense-веса. Инструкт-вариант предсказуемо ведёт себя в чате и tool-like сценариях, если промпт и формат сообщений выдержаны в духе chat template.

MoE-архитектура: 8×7B экспертов, на токен активируется подмножество параметров порядка 12.9B; контекст 32k. Hugging Face: mistralai/Mixtral-8x7B-Instruct-v0.1.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Mixtral 8×7B в fp16 ориентируйтесь на H100 или A100 с достаточным суммарным VRAM (или несколько RTX 4090 с распределением весов). Перейдите в каталог GPU и арендуйте инстанс.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model mistralai/Mixtral-8x7B-Instruct-v0.1 \
  --dtype auto \
  --max-model-len 32768

На нескольких GPU добавьте --tensor-parallel-size (часто 2 или 4) в зависимости от числа карт и доступной памяти.

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistralai/Mixtral-8x7B-Instruct-v0.1",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

  • MoE чувствительна к балансировке batch: при высоком concurrency полезнее стабильная очередь, чем «все запросы сразу».
  • Если не хватает VRAM, начните с --dtype auto и снижения --max-model-len; крайний случай — квантизация весов на стороне сервера (если поддерживается вашей сборкой vLLM).
  • Для длинного контекста заранее оцените размер KV-cache — он растёт линейно с числом одновременных сессий.