VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	24 ГБ	Максимальное	Для продакшена
FP8	12 ГБ	Отличное	Оптимально
INT8	12 ГБ	Хорошее
INT4/Q4	6 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA H100 SXM

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Mistral AI
Год выпуска: 2024
Параметры: 12B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: Apache-2.0

Применение

Visual question answering Image captioning Document analysis Multimodal chat

Pixtral 12B — первая открытая VLM Mistral: умеет принимать несколько изображений в одном промпте и работать в длинном текстовом контексте (до 128k в спецификации семейства), что удобно для «принеси 5 скриншотов и сравни». Apache-2.0 снимает часть юридических вопросов для продуктовых пилотов; по VRAM это уже уровень «старшая однослотовая карта» или аккуратная квантизация.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — от ~24 ГБ VRAM в fp16; на практике чаще берут RTX 4090, A100 или H100 с запасом под несколько изображений. Перейдите в каталог GPU.

Шаг 2 — Поднимите vLLM (OpenAI-compatible + vision)

docker run --gpus all --shm-size=8g -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model mistralai/Pixtral-12B-2409 \
  --trust-remote-code \
  --max-model-len 32768 \
  --limit-mm-per-prompt image=8

Лимиты изображений и длины контекста уменьшайте, если ловите OOM.

Шаг 3 — Отправьте мультимодальный запрос

Используйте /v1/chat/completions: несколько блоков image_url подряд + текстовый запрос в том же content-массиве — типичный паттерн для сравнения скриншотов или пачки фото.

Оптимизация

Сжимайте изображения до достаточного для задачи разрешения: VLM редко нужны 8K пикселей по длинной стороне для UI-багов.
Длинный контекст дорог: храните историю диалога компактно и не пересылайте одни и те же картинки без необходимости.

Pixtral 12B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Поднимите vLLM (OpenAI-compatible + vision)

Шаг 3 — Отправьте мультимодальный запрос

Оптимизация