VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	14 ГБ	Максимальное	Для продакшена
INT8	7 ГБ	Хорошее
INT4/Q4	4 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, INT8, INT4

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Microsoft
Год выпуска: 2023
Параметры: 7B
Архитектура: Transformer
Лицензия: MIT

Применение

Semantic search RAG Document retrieval Question answering

E5 Mistral 7B — инструктивно настроенные эмбеддинги поверх Mistral-7B: модель заточена под парные шаблоны вроде query: / passage: и даёт очень сильные вектора для семантического поиска и RAG на «сложных» формулировках. Это уже не «маленький encoder», а полноценный 7B-бэкбон — выше качество, выше VRAM и латентность, чем у компактных bge/e5-small.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — от ~14 ГБ VRAM в fp16; надёжнее RTX 4090 или A100. Перейдите в каталог GPU.

Шаг 2 — Запустите TEI (Text Embeddings Inference)

docker run --gpus all -p 8080:80 \
  ghcr.io/huggingface/text-embeddings-inference:latest \
  --model-id intfloat/e5-mistral-7b-instruct

Если образ пожалуется на нехватку памяти, используйте свежий тег TEI с поддержкой нужной precision или уменьшите max-batch-tokens (см. документацию TEI).

Шаг 3 — Получите эмбеддинги

curl http://localhost:8080/embed \
  -H "Content-Type: application/json" \
  -d '{"inputs": "query: лучшие практики RAG для корпоративных документов"}'

Оптимизация

Соблюдайте префиксы query: и passage: из обучения E5 — иначе качество retrieval резко падает.
Нормализуйте вектора, если ваш индекс (FAISS/Milvus) это ожидает; для cosine часто достаточно L2-нормы на входе.

E5 Mistral 7B