Эмбеддинги Apache-2.0

GTE Qwen2 7B

7B параметров · Transformer · Alibaba · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 14 ГБ Максимальное Для продакшена
INT8 7 ГБ Хорошее
INT4/Q4 4 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8, INT4 Арендовать
24 ГБ FP16, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model gte-Qwen2-7B-instruct \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Alibaba
Год выпуска
2024
Параметры
7B
Архитектура
Transformer
Лицензия
Apache-2.0

Применение

Semantic search RAG Multilingual retrieval Long document embedding

GTE Qwen2 7B — эмбеддинги на базе Qwen2-7B с упором на длинные документы (контекст порядка десятков тысяч токенов в семействе Qwen2) и сильную мультиязычность, включая русский и китайский. Хороший выбор, когда чанки большие, а «маленький encoder» режет смысл на стыках абзацев. Лицензия Apache-2.0.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — от ~14 ГБ VRAM в fp16; комфортно на RTX 4090 или A100. Перейдите в каталог GPU.

Шаг 2 — Запустите TEI (Text Embeddings Inference)

docker run --gpus all -p 8080:80 \
  ghcr.io/huggingface/text-embeddings-inference:latest \
  --model-id Alibaba-NLP/gte-Qwen2-7B-instruct

Шаг 3 — Получите эмбеддинги

curl http://localhost:8080/embed \
  -H "Content-Type: application/json" \
  -d '{"inputs": "Длинный фрагмент регламента или ТЗ для индексации в векторной базе"}'

Оптимизация

  • Не скармливайте TEI тексты больше реального лимита токенизатора: обрезка посередине предложения бьёт по retrieval сильнее, чем аккуратный chunking.
  • Для смешанных языков держите единый шаблон промпта/инструкции, если вы используете instruct-вариант в кастомном клиенте.