Mixtral 8×7B
47B параметров · MoE · Контекст 32k · Mistral AI · 2023
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 90 ГБ | Максимальное | Для продакшена |
| FP8 | 45 ГБ | Отличное | Оптимально |
| INT8 | 45 ГБ | Хорошее | |
| INT4/Q4 | 24 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Mixtral-8x7B-Instruct-v0.1 \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Mistral AI
- Год выпуска
- 2023
- Параметры
- 47B
- Архитектура
- MoE
- Контекстное окно
- 32,000 токенов
- Лицензия
- Apache-2.0
Применение
Mixtral 8×7B стал эталоном «первой волны» открытых MoE: разреженная активация экспертов даёт ощущение модели уровня 40B+ при заметно более дешёвом шаге декодирования. На практике это хороший выбор, когда нужны reasoning и код без прыжка сразу на гигантские dense-веса. Инструкт-вариант предсказуемо ведёт себя в чате и tool-like сценариях, если промпт и формат сообщений выдержаны в духе chat template.
MoE-архитектура: 8×7B экспертов, на токен активируется подмножество параметров порядка 12.9B; контекст 32k. Hugging Face: mistralai/Mixtral-8x7B-Instruct-v0.1.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Mixtral 8×7B в fp16 ориентируйтесь на H100 или A100 с достаточным суммарным VRAM (или несколько RTX 4090 с распределением весов). Перейдите в каталог GPU и арендуйте инстанс.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model mistralai/Mixtral-8x7B-Instruct-v0.1 \
--dtype auto \
--max-model-len 32768
На нескольких GPU добавьте --tensor-parallel-size (часто 2 или 4) в зависимости от числа карт и доступной памяти.
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "mistralai/Mixtral-8x7B-Instruct-v0.1",
"messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
}'
Оптимизация
- MoE чувствительна к балансировке batch: при высоком concurrency полезнее стабильная очередь, чем «все запросы сразу».
- Если не хватает VRAM, начните с
--dtype autoи снижения--max-model-len; крайний случай — квантизация весов на стороне сервера (если поддерживается вашей сборкой vLLM). - Для длинного контекста заранее оцените размер KV-cache — он растёт линейно с числом одновременных сессий.