E5 Mistral 7B
7B параметров · Transformer · Microsoft · 2023
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 14 ГБ | Максимальное | Для продакшена |
| INT8 | 7 ГБ | Хорошее | |
| INT4/Q4 | 4 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8, INT4 | Арендовать |
| 24 ГБ | FP16, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model e5-mistral-7b-instruct \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Microsoft
- Год выпуска
- 2023
- Параметры
- 7B
- Архитектура
- Transformer
- Лицензия
- MIT
Применение
E5 Mistral 7B — инструктивно настроенные эмбеддинги поверх Mistral-7B: модель заточена под парные шаблоны вроде query: / passage: и даёт очень сильные вектора для семантического поиска и RAG на «сложных» формулировках. Это уже не «маленький encoder», а полноценный 7B-бэкбон — выше качество, выше VRAM и латентность, чем у компактных bge/e5-small.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Ориентир — от ~14 ГБ VRAM в fp16; надёжнее RTX 4090 или A100. Перейдите в каталог GPU.
Шаг 2 — Запустите TEI (Text Embeddings Inference)
docker run --gpus all -p 8080:80 \
ghcr.io/huggingface/text-embeddings-inference:latest \
--model-id intfloat/e5-mistral-7b-instruct
Если образ пожалуется на нехватку памяти, используйте свежий тег TEI с поддержкой нужной precision или уменьшите max-batch-tokens (см. документацию TEI).
Шаг 3 — Получите эмбеддинги
curl http://localhost:8080/embed \
-H "Content-Type: application/json" \
-d '{"inputs": "query: лучшие практики RAG для корпоративных документов"}'
Оптимизация
- Соблюдайте префиксы
query:иpassage:из обучения E5 — иначе качество retrieval резко падает. - Нормализуйте вектора, если ваш индекс (FAISS/Milvus) это ожидает; для cosine часто достаточно L2-нормы на входе.