VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	90 ГБ	Максимальное	Для продакшена
FP8	45 ГБ	Отличное	Оптимально
INT8	45 ГБ	Хорошее
INT4/Q4	24 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA H100 SXM

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA RTX 4090

24 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Mistral AI
Год выпуска: 2023
Параметры: 47B
Архитектура: MoE
Контекстное окно: 32,000 токенов
Лицензия: Apache-2.0

Применение

Reasoning Code generation Instruction following Multi-turn dialogue

Mixtral 8×7B стал эталоном «первой волны» открытых MoE: разреженная активация экспертов даёт ощущение модели уровня 40B+ при заметно более дешёвом шаге декодирования. На практике это хороший выбор, когда нужны reasoning и код без прыжка сразу на гигантские dense-веса. Инструкт-вариант предсказуемо ведёт себя в чате и tool-like сценариях, если промпт и формат сообщений выдержаны в духе chat template.

MoE-архитектура: 8×7B экспертов, на токен активируется подмножество параметров порядка 12.9B; контекст 32k. Hugging Face: mistralai/Mixtral-8x7B-Instruct-v0.1.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Mixtral 8×7B в fp16 ориентируйтесь на H100 или A100 с достаточным суммарным VRAM (или несколько RTX 4090 с распределением весов). Перейдите в каталог GPU и арендуйте инстанс.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model mistralai/Mixtral-8x7B-Instruct-v0.1 \
  --dtype auto \
  --max-model-len 32768

На нескольких GPU добавьте --tensor-parallel-size (часто 2 или 4) в зависимости от числа карт и доступной памяти.

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistralai/Mixtral-8x7B-Instruct-v0.1",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

MoE чувствительна к балансировке batch: при высоком concurrency полезнее стабильная очередь, чем «все запросы сразу».
Если не хватает VRAM, начните с --dtype auto и снижения --max-model-len; крайний случай — квантизация весов на стороне сервера (если поддерживается вашей сборкой vLLM).
Для длинного контекста заранее оцените размер KV-cache — он растёт линейно с числом одновременных сессий.

Mixtral 8×7B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация