Mistral Small 3.1
24B параметров · Transformer · Контекст 128k · Mistral AI · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 48 ГБ | Максимальное | Для продакшена |
| FP8 | 24 ГБ | Отличное | Оптимально |
| INT8 | 24 ГБ | Хорошее | |
| INT4/Q4 | 12 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Mistral-Small-3.1-24B-Instruct-2503 \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Mistral AI
- Год выпуска
- 2025
- Параметры
- 24B
- Архитектура
- Transformer
- Контекстное окно
- 128,000 токенов
- Лицензия
- Apache-2.0
Применение
Mistral Small 3.1 — это «средний» слот в линейке Mistral: заметно мощнее классических 7–8B, но без цены и инфраструктуры флагманов. Модель заточена под практичный enterprise-стек: длинный контекст, мультиязычность, аккуратное следование инструкциям и устойчивость в многоходовых сценариях. Для команд, которым нужен баланс качества и стоимости GPU-часа, это часто оптимальный компромисс перед переходом на топовые MoE.
Технически это instruct-модель с окном 128k токенов; веса и карточка модели — mistralai/Mistral-Small-3.1-24B-Instruct-2503 (в fp16 по памяти ближе к двум потребительским 24 ГБ-картам, чем к одной).
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Mistral Small 3.1 в fp16 ориентируйтесь на две RTX 4090 (по 24 ГБ) или одну A100 / H100 с достаточным объёмом памяти; в FP8 чаще хватает одной 4090. Перейдите в каталог GPU и арендуйте инстанс (при двух GPU укажите хост с парой карт или выберите класс с большим VRAM).
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model mistralai/Mistral-Small-3.1-24B-Instruct-2503 \
--dtype auto \
--max-model-len 131072
На двух RTX 4090 в fp16 добавьте --tensor-parallel-size 2; на одной A100/H100 с большим объёмом VRAM этот флаг не нужен.
Альтернативно, для быстрого старта используйте Ollama:
ollama run mistral-small3.1
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "mistralai/Mistral-Small-3.1-24B-Instruct-2503",
"messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
}'
Оптимизация
- Для 128k контекста на практике часто начинают с меньшего
--max-model-lenи поднимают его после профилирования KV-cache. - Если арендуете две карты под fp16, используйте
--tensor-parallel-size 2и следите за связностью PCIe/NVLINK — это влияет на latency первого токена. - Если нужен стабильный throughput, разумно ограничить concurrency на уровне прокси и использовать очередь запросов.