LLM MIT

Phi-4 Mini

3.8B параметров · Transformer · Контекст 128k · Microsoft · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 8 ГБ Максимальное Для продакшена
FP8 4 ГБ Отличное Оптимально
INT8 4 ГБ Хорошее
INT4/Q4 2 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, FP8, INT8, INT4 Арендовать
24 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

ollama
ollama run phi-4-mini

Характеристики модели

Технические параметры

Разработчик
Microsoft
Год выпуска
2025
Параметры
3.8B
Архитектура
Transformer
Контекстное окно
128,000 токенов
Лицензия
MIT

Применение

Reasoning Math Edge inference Code generation

Phi-4 Mini — попытка Microsoft уместить «phi-стиль» reasoning в формат около 3.8B, не жертвуя длинным контекстом: 128k открывает сценарии с большими вставками, а улучшения в math/logic заметны против Phi-3 Mini на типовых бенчмарках. Для команд, которым нужен лёгкий inference и всё же более взрослое мышление, чем у классических tiny-моделей, это сильный компромисс. В продакшене особенно хорошо заходит в связке с жёстким форматом ответа (JSON/schema) и пост-валидацией.

Чекпоинт: microsoft/Phi-4-mini-instruct (MIT).

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Phi-4 Mini в fp16 достаточно RTX 3090 или RTX 4090. Перейдите в каталог GPU и арендуйте инстанс.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model microsoft/Phi-4-mini-instruct \
  --dtype auto \
  --max-model-len 131072

Альтернативно, для быстрого старта используйте Ollama:

ollama run phi4-mini

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "microsoft/Phi-4-mini-instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

  • На 128k контексте первым делом ограничьте реальную длину вставок и измерьте память — иначе легко упереться в OOM при concurrency > 1.
  • Для math-задач добавляйте требование «ответ числом + краткое объяснение» — это улучшает парсинг на стороне приложения.
  • Держите temperature низким для фактических/числовых сценариев.