Phi-3 Mini 3.8B
3.8B параметров · Transformer · Контекст 128k · Microsoft · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 8 ГБ | Максимальное | Для продакшена |
| FP8 | 4 ГБ | Отличное | Оптимально |
| INT8 | 4 ГБ | Хорошее | |
| INT4/Q4 | 2 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
ollama run phi-3-mini-3.8b
Характеристики модели
Технические параметры
- Разработчик
- Microsoft
- Год выпуска
- 2024
- Параметры
- 3.8B
- Архитектура
- Transformer
- Контекстное окно
- 128,000 токенов
- Лицензия
- MIT
Применение
Phi-3 Mini — демонстрация тезиса Microsoft «качество данных важнее голого масштаба»: всего 3.8B параметров, но в ряде сценариев она конкурирует с 7B-классом, особенно там, где важны инструкции и компактный стиль ответа. 128k контекста делает её неожиданно удобной для RAG-прототипов и длинных вставок, хотя на практике полезный предел всё равно стоит валидировать на своих документах. Для edge, дешёвых GPU и быстрых итераций продукта это сильный кандидат.
Instruct с длинным контекстом: microsoft/Phi-3-mini-128k-instruct (MIT).
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Phi-3 Mini в fp16 достаточно RTX 3090 или RTX 4090. Перейдите в каталог GPU и арендуйте инстанс.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model microsoft/Phi-3-mini-128k-instruct \
--dtype auto \
--max-model-len 131072
Альтернативно, для быстрого старта используйте Ollama:
ollama run phi3:mini
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "microsoft/Phi-3-mini-128k-instruct",
"messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
}'
Оптимизация
- Длинный контекст ≠ «бесплатно»: на больших
max-model-lenследите за памятью KV-cache и одновременными сессиями. - Phi-3 серия чувствительна к «мусорным» вставкам в промпт — чистите документы перед RAG.
- Для кода иногда лучше взять специализированную coding-модель; здесь упор на универсальный instruct.