Mistral 7B v0.3
7B параметров · Transformer · Контекст 32k · Mistral AI · 2023
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 14 ГБ | Максимальное | Для продакшена |
| FP8 | 7 ГБ | Отличное | Оптимально |
| INT8 | 7 ГБ | Хорошее | |
| INT4/Q4 | 4 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 24 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Mistral-7B-Instruct-v0.3 \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Mistral AI
- Год выпуска
- 2023
- Параметры
- 7B
- Архитектура
- Transformer
- Контекстное окно
- 32,000 токенов
- Лицензия
- Apache-2.0
Применение
Mistral 7B Instruct v0.3 — компактная модель, которая задала планку для класса 7B: сильное следование инструкциям, уверенная работа с кодом и диалогом при скромном footprint. Её часто выбирают как «рабочую лошадку» для чат-ботов и внутренних ассистентов, где важны предсказуемость ответа и лицензия без vendor lock-in. Контекст 32k позволяет скармливать длинные документы без немедленного перехода на более тяжёлые веса.
Архитектура — decoder-only Transformer; чекпоинт на Hugging Face: mistralai/Mistral-7B-Instruct-v0.3.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Mistral 7B в fp16 рекомендуем одну RTX 4090 (24 ГБ) или RTX 3090 (24 ГБ); в FP8/квантизации хватает и меньшего запаса по VRAM. Перейдите в каталог GPU и арендуйте инстанс.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model mistralai/Mistral-7B-Instruct-v0.3 \
--dtype auto \
--max-model-len 32768
Альтернативно, для быстрого старта используйте Ollama:
ollama run mistral:7b-instruct
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "mistralai/Mistral-7B-Instruct-v0.3",
"messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
}'
Оптимизация
- Если упираетесь в VRAM, оставьте
--dtype autoи при необходимости снизьте--max-model-len— длинный контекст резервирует KV-cache. - Для продакшн-нагрузки имеет смысл задать
--gpu-memory-utilization(например0.92) и лимиты параллельных запросов под ваш SLO latency. - Для batch/offline-задач смотрите в сторону continuous batching vLLM и отдельного лимита
max_num_seqs.