VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	14 ГБ	Максимальное	Для продакшена
INT8	7 ГБ	Хорошее
INT4/Q4	4 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, INT8, INT4

Арендовать

NVIDIA RTX 3090

24 ГБ

FP16, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Alibaba
Год выпуска: 2024
Параметры: 7B
Архитектура: Transformer
Лицензия: Apache-2.0

Применение

Semantic search RAG Multilingual retrieval Long document embedding

GTE Qwen2 7B — эмбеддинги на базе Qwen2-7B с упором на длинные документы (контекст порядка десятков тысяч токенов в семействе Qwen2) и сильную мультиязычность, включая русский и китайский. Хороший выбор, когда чанки большие, а «маленький encoder» режет смысл на стыках абзацев. Лицензия Apache-2.0.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Ориентир — от ~14 ГБ VRAM в fp16; комфортно на RTX 4090 или A100. Перейдите в каталог GPU.

Шаг 2 — Запустите TEI (Text Embeddings Inference)

docker run --gpus all -p 8080:80 \
  ghcr.io/huggingface/text-embeddings-inference:latest \
  --model-id Alibaba-NLP/gte-Qwen2-7B-instruct

Шаг 3 — Получите эмбеддинги

curl http://localhost:8080/embed \
  -H "Content-Type: application/json" \
  -d '{"inputs": "Длинный фрагмент регламента или ТЗ для индексации в векторной базе"}'

Оптимизация

Не скармливайте TEI тексты больше реального лимита токенизатора: обрезка посередине предложения бьёт по retrieval сильнее, чем аккуратный chunking.
Для смешанных языков держите единый шаблон промпта/инструкции, если вы используете instruct-вариант в кастомном клиенте.

GTE Qwen2 7B