VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	14 ГБ	Максимальное	Для продакшена
FP8	7 ГБ	Отличное	Оптимально
INT8	7 ГБ	Хорошее
INT4/Q4	4 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Mistral AI
Год выпуска: 2023
Параметры: 7B
Архитектура: Transformer
Контекстное окно: 32,000 токенов
Лицензия: Apache-2.0

Применение

Instruction following Code generation Text summarization Chatbots

Mistral 7B Instruct v0.3 — компактная модель, которая задала планку для класса 7B: сильное следование инструкциям, уверенная работа с кодом и диалогом при скромном footprint. Её часто выбирают как «рабочую лошадку» для чат-ботов и внутренних ассистентов, где важны предсказуемость ответа и лицензия без vendor lock-in. Контекст 32k позволяет скармливать длинные документы без немедленного перехода на более тяжёлые веса.

Архитектура — decoder-only Transformer; чекпоинт на Hugging Face: mistralai/Mistral-7B-Instruct-v0.3.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Mistral 7B в fp16 рекомендуем одну RTX 4090 (24 ГБ) или RTX 3090 (24 ГБ); в FP8/квантизации хватает и меньшего запаса по VRAM. Перейдите в каталог GPU и арендуйте инстанс.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model mistralai/Mistral-7B-Instruct-v0.3 \
  --dtype auto \
  --max-model-len 32768

Альтернативно, для быстрого старта используйте Ollama:

ollama run mistral:7b-instruct

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistralai/Mistral-7B-Instruct-v0.3",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

Если упираетесь в VRAM, оставьте --dtype auto и при необходимости снизьте --max-model-len — длинный контекст резервирует KV-cache.
Для продакшн-нагрузки имеет смысл задать --gpu-memory-utilization (например 0.92) и лимиты параллельных запросов под ваш SLO latency.
Для batch/offline-задач смотрите в сторону continuous batching vLLM и отдельного лимита max_num_seqs.

Mistral 7B v0.3

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация