VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	8 ГБ	Максимальное	Для продакшена
FP8	4 ГБ	Отличное	Оптимально
INT8	4 ГБ	Хорошее
INT4/Q4	2 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA RTX 4090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA RTX 3090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать

Характеристики модели

Технические параметры

Разработчик: Microsoft
Год выпуска: 2025
Параметры: 3.8B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: MIT

Применение

Reasoning Math Edge inference Code generation

Phi-4 Mini — попытка Microsoft уместить «phi-стиль» reasoning в формат около 3.8B, не жертвуя длинным контекстом: 128k открывает сценарии с большими вставками, а улучшения в math/logic заметны против Phi-3 Mini на типовых бенчмарках. Для команд, которым нужен лёгкий inference и всё же более взрослое мышление, чем у классических tiny-моделей, это сильный компромисс. В продакшене особенно хорошо заходит в связке с жёстким форматом ответа (JSON/schema) и пост-валидацией.

Чекпоинт: microsoft/Phi-4-mini-instruct (MIT).

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Phi-4 Mini в fp16 достаточно RTX 3090 или RTX 4090. Перейдите в каталог GPU и арендуйте инстанс.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model microsoft/Phi-4-mini-instruct \
  --dtype auto \
  --max-model-len 131072

Альтернативно, для быстрого старта используйте Ollama:

ollama run phi4-mini

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "microsoft/Phi-4-mini-instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

На 128k контексте первым делом ограничьте реальную длину вставок и измерьте память — иначе легко упереться в OOM при concurrency > 1.
Для math-задач добавляйте требование «ответ числом + краткое объяснение» — это улучшает парсинг на стороне приложения.
Держите temperature низким для фактических/числовых сценариев.

Phi-4 Mini