Эмбеддинги
Apache-2.0
GTE Qwen2 7B
7B параметров · Transformer · Alibaba · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 14 ГБ | Максимальное | Для продакшена |
| INT8 | 7 ГБ | Хорошее | |
| INT4/Q4 | 4 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8, INT4 | Арендовать |
| 24 ГБ | FP16, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model gte-Qwen2-7B-instruct \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Alibaba
- Год выпуска
- 2024
- Параметры
- 7B
- Архитектура
- Transformer
- Лицензия
- Apache-2.0
Применение
Semantic search
RAG
Multilingual retrieval
Long document embedding
GTE Qwen2 7B — эмбеддинги на базе Qwen2-7B с упором на длинные документы (контекст порядка десятков тысяч токенов в семействе Qwen2) и сильную мультиязычность, включая русский и китайский. Хороший выбор, когда чанки большие, а «маленький encoder» режет смысл на стыках абзацев. Лицензия Apache-2.0.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Ориентир — от ~14 ГБ VRAM в fp16; комфортно на RTX 4090 или A100. Перейдите в каталог GPU.
Шаг 2 — Запустите TEI (Text Embeddings Inference)
docker run --gpus all -p 8080:80 \
ghcr.io/huggingface/text-embeddings-inference:latest \
--model-id Alibaba-NLP/gte-Qwen2-7B-instruct
Шаг 3 — Получите эмбеддинги
curl http://localhost:8080/embed \
-H "Content-Type: application/json" \
-d '{"inputs": "Длинный фрагмент регламента или ТЗ для индексации в векторной базе"}'
Оптимизация
- Не скармливайте TEI тексты больше реального лимита токенизатора: обрезка посередине предложения бьёт по retrieval сильнее, чем аккуратный chunking.
- Для смешанных языков держите единый шаблон промпта/инструкции, если вы используете instruct-вариант в кастомном клиенте.