Эмбеддинги
MIT
BGE M3
Transformer · BAAI · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 4 ГБ | Максимальное | Для продакшена |
| INT8 | 2 ГБ | Хорошее |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8 | Арендовать |
| 24 ГБ | FP16, INT8 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model bge-m3 \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- BAAI
- Год выпуска
- 2024
- Архитектура
- Transformer
- Лицензия
- MIT
Применение
Semantic search
RAG
Document retrieval
Multilingual embeddings
BGE M3 — флагманский ретривер BAAI: одна модель умеет и dense, и sparse, и multi-vector представления, что редкость для open-source стека. Это особенно полезно в гибридном поиске (ключевые слова + семантика) и многоязычных корпусах без отдельного перевода запроса. MIT-лицензия и хорошая совместимость с TEI делают её удобной базой для RAG.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для TEI в float16 обычно достаточно от ~4 ГБ VRAM с запасом; старт — RTX 3090 или RTX 4090. Перейдите в каталог GPU.
Шаг 2 — Запустите TEI (Text Embeddings Inference)
docker run --gpus all -p 8080:80 \
ghcr.io/huggingface/text-embeddings-inference:latest \
--model-id BAAI/bge-m3
Шаг 3 — Получите эмбеддинги
curl http://localhost:8080/embed \
-H "Content-Type: application/json" \
-d '{"inputs": "Пример текста для получения эмбеддинга"}'
Оптимизация
- Включайте батчинг на стороне клиента: TEI сильно выигрывает от пачек коротких строк.
- Для гибридного поиска используйте sparse-выходы модели (см. документацию BGE M3), а не только dense-вектор.