VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	8 ГБ	Максимальное	Для продакшена
FP8	4 ГБ	Отличное	Оптимально
INT8	4 ГБ	Хорошее
INT4/Q4	2 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA RTX 4090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA RTX 3090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать

Характеристики модели

Технические параметры

Разработчик: Microsoft
Год выпуска: 2024
Параметры: 3.8B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: MIT

Применение

Chatbots Edge inference Code generation Text summarization

Phi-3 Mini — демонстрация тезиса Microsoft «качество данных важнее голого масштаба»: всего 3.8B параметров, но в ряде сценариев она конкурирует с 7B-классом, особенно там, где важны инструкции и компактный стиль ответа. 128k контекста делает её неожиданно удобной для RAG-прототипов и длинных вставок, хотя на практике полезный предел всё равно стоит валидировать на своих документах. Для edge, дешёвых GPU и быстрых итераций продукта это сильный кандидат.

Instruct с длинным контекстом: microsoft/Phi-3-mini-128k-instruct (MIT).

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Phi-3 Mini в fp16 достаточно RTX 3090 или RTX 4090. Перейдите в каталог GPU и арендуйте инстанс.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model microsoft/Phi-3-mini-128k-instruct \
  --dtype auto \
  --max-model-len 131072

Альтернативно, для быстрого старта используйте Ollama:

ollama run phi3:mini

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "microsoft/Phi-3-mini-128k-instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

Длинный контекст ≠ «бесплатно»: на больших max-model-len следите за памятью KV-cache и одновременными сессиями.
Phi-3 серия чувствительна к «мусорным» вставкам в промпт — чистите документы перед RAG.
Для кода иногда лучше взять специализированную coding-модель; здесь упор на универсальный instruct.

Phi-3 Mini 3.8B