VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	16 ГБ	Максимальное	Для продакшена
INT8	8 ГБ	Хорошее
INT4/Q4	4 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, INT8, INT4

Арендовать

NVIDIA H100 SXM

80 ГБ

FP16, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: NVIDIA
Год выпуска: 2024
Параметры: 7B
Архитектура: Transformer
Лицензия: MIT

Применение

Semantic search RAG Document retrieval Code search

NV-Embed v2 — эмбеддинговая модель NVIDIA, ориентированная на лидерство в retrieval-метриках (MTEB и родственные бенчмарки): сильна в поиске по документам, коду и длинным контекстам при правильной инструкции. Это тяжёлый 7B-класс: качество ближе к «топовым» открытым ретриверам, но и требования к VRAM выше, чем у компактных моделей. MIT-лицензия.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — от ~16 ГБ VRAM; разумный минимум — RTX 4090, для стабильного сервиса с батчами — A100 или H100. Перейдите в каталог GPU.

Шаг 2 — Запустите TEI (Text Embeddings Inference)

docker run --gpus all -p 8080:80 \
  ghcr.io/huggingface/text-embeddings-inference:latest \
  --model-id nvidia/NV-Embed-v2

Шаг 3 — Получите эмбеддинги

curl http://localhost:8080/embed \
  -H "Content-Type: application/json" \
  -d '{"inputs": "def fib(n): return n if n < 2 else fib(n-1)+fib(n-2)"}'

Оптимизация

Сверьтесь с карточкой модели: часть сценариев требует инструкционных префиксов для query/document — без них метрики заметно проседают.
Для code search комбинируйте с дешёвым keyword-индексом (BM25): гибрид часто бьёт «чистый» векторный поиск.

NV-Embed v2

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите TEI (Text Embeddings Inference)

Шаг 3 — Получите эмбеддинги

Оптимизация