Эмбеддинги MIT

E5 Mistral 7B

7B параметров · Transformer · Microsoft · 2023

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 14 ГБ Максимальное Для продакшена
INT8 7 ГБ Хорошее
INT4/Q4 4 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8, INT4 Арендовать
24 ГБ FP16, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model e5-mistral-7b-instruct \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Microsoft
Год выпуска
2023
Параметры
7B
Архитектура
Transformer
Лицензия
MIT

Применение

Semantic search RAG Document retrieval Question answering

E5 Mistral 7B — инструктивно настроенные эмбеддинги поверх Mistral-7B: модель заточена под парные шаблоны вроде query: / passage: и даёт очень сильные вектора для семантического поиска и RAG на «сложных» формулировках. Это уже не «маленький encoder», а полноценный 7B-бэкбон — выше качество, выше VRAM и латентность, чем у компактных bge/e5-small.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — от ~14 ГБ VRAM в fp16; надёжнее RTX 4090 или A100. Перейдите в каталог GPU.

Шаг 2 — Запустите TEI (Text Embeddings Inference)

docker run --gpus all -p 8080:80 \
  ghcr.io/huggingface/text-embeddings-inference:latest \
  --model-id intfloat/e5-mistral-7b-instruct

Если образ пожалуется на нехватку памяти, используйте свежий тег TEI с поддержкой нужной precision или уменьшите max-batch-tokens (см. документацию TEI).

Шаг 3 — Получите эмбеддинги

curl http://localhost:8080/embed \
  -H "Content-Type: application/json" \
  -d '{"inputs": "query: лучшие практики RAG для корпоративных документов"}'

Оптимизация

  • Соблюдайте префиксы query: и passage: из обучения E5 — иначе качество retrieval резко падает.
  • Нормализуйте вектора, если ваш индекс (FAISS/Milvus) это ожидает; для cosine часто достаточно L2-нормы на входе.