VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	4 ГБ	Максимальное	Для продакшена
INT8	2 ГБ	Хорошее

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, INT8

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, INT8

Арендовать

Характеристики модели

Технические параметры

Разработчик: BAAI
Год выпуска: 2024
Архитектура: Transformer
Лицензия: MIT

Применение

Semantic search RAG Document retrieval Multilingual embeddings

BGE M3 — флагманский ретривер BAAI: одна модель умеет и dense, и sparse, и multi-vector представления, что редкость для open-source стека. Это особенно полезно в гибридном поиске (ключевые слова + семантика) и многоязычных корпусах без отдельного перевода запроса. MIT-лицензия и хорошая совместимость с TEI делают её удобной базой для RAG.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для TEI в float16 обычно достаточно от ~4 ГБ VRAM с запасом; старт — RTX 3090 или RTX 4090. Перейдите в каталог GPU.

Шаг 2 — Запустите TEI (Text Embeddings Inference)

docker run --gpus all -p 8080:80 \
  ghcr.io/huggingface/text-embeddings-inference:latest \
  --model-id BAAI/bge-m3

Шаг 3 — Получите эмбеддинги

curl http://localhost:8080/embed \
  -H "Content-Type: application/json" \
  -d '{"inputs": "Пример текста для получения эмбеддинга"}'

Оптимизация

Включайте батчинг на стороне клиента: TEI сильно выигрывает от пачек коротких строк.
Для гибридного поиска используйте sparse-выходы модели (см. документацию BGE M3), а не только dense-вектор.

BGE M3