Pixtral 12B
12B параметров · Transformer · Контекст 128k · Mistral AI · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 24 ГБ | Максимальное | Для продакшена |
| FP8 | 12 ГБ | Отличное | Оптимально |
| INT8 | 12 ГБ | Хорошее | |
| INT4/Q4 | 6 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Pixtral-12B-2409 \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Mistral AI
- Год выпуска
- 2024
- Параметры
- 12B
- Архитектура
- Transformer
- Контекстное окно
- 128,000 токенов
- Лицензия
- Apache-2.0
Применение
Pixtral 12B — первая открытая VLM Mistral: умеет принимать несколько изображений в одном промпте и работать в длинном текстовом контексте (до 128k в спецификации семейства), что удобно для «принеси 5 скриншотов и сравни». Apache-2.0 снимает часть юридических вопросов для продуктовых пилотов; по VRAM это уже уровень «старшая однослотовая карта» или аккуратная квантизация.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Ориентир — от ~24 ГБ VRAM в fp16; на практике чаще берут RTX 4090, A100 или H100 с запасом под несколько изображений. Перейдите в каталог GPU.
Шаг 2 — Поднимите vLLM (OpenAI-compatible + vision)
docker run --gpus all --shm-size=8g -p 8000:8000 \
vllm/vllm-openai:latest \
--model mistralai/Pixtral-12B-2409 \
--trust-remote-code \
--max-model-len 32768 \
--limit-mm-per-prompt image=8
Лимиты изображений и длины контекста уменьшайте, если ловите OOM.
Шаг 3 — Отправьте мультимодальный запрос
Используйте /v1/chat/completions: несколько блоков image_url подряд + текстовый запрос в том же content-массиве — типичный паттерн для сравнения скриншотов или пачки фото.
Оптимизация
- Сжимайте изображения до достаточного для задачи разрешения: VLM редко нужны 8K пикселей по длинной стороне для UI-багов.
- Длинный контекст дорог: храните историю диалога компактно и не пересылайте одни и те же картинки без необходимости.