Эмбеддинги MIT

BGE M3

Transformer · BAAI · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 4 ГБ Максимальное Для продакшена
INT8 2 ГБ Хорошее

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8 Арендовать
24 ГБ FP16, INT8 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model bge-m3 \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
BAAI
Год выпуска
2024
Архитектура
Transformer
Лицензия
MIT

Применение

Semantic search RAG Document retrieval Multilingual embeddings

BGE M3 — флагманский ретривер BAAI: одна модель умеет и dense, и sparse, и multi-vector представления, что редкость для open-source стека. Это особенно полезно в гибридном поиске (ключевые слова + семантика) и многоязычных корпусах без отдельного перевода запроса. MIT-лицензия и хорошая совместимость с TEI делают её удобной базой для RAG.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для TEI в float16 обычно достаточно от ~4 ГБ VRAM с запасом; старт — RTX 3090 или RTX 4090. Перейдите в каталог GPU.

Шаг 2 — Запустите TEI (Text Embeddings Inference)

docker run --gpus all -p 8080:80 \
  ghcr.io/huggingface/text-embeddings-inference:latest \
  --model-id BAAI/bge-m3

Шаг 3 — Получите эмбеддинги

curl http://localhost:8080/embed \
  -H "Content-Type: application/json" \
  -d '{"inputs": "Пример текста для получения эмбеддинга"}'

Оптимизация

  • Включайте батчинг на стороне клиента: TEI сильно выигрывает от пачек коротких строк.
  • Для гибридного поиска используйте sparse-выходы модели (см. документацию BGE M3), а не только dense-вектор.