Эмбеддинги Apache-2.0

GTE Qwen2 7B

7B параметров · Transformer · Alibaba · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 14 ГБ Максимальное Для продакшена
INT8 7 ГБ Хорошее
INT4/Q4 4 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8, INT4 Арендовать
24 ГБ FP16, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model gte-Qwen2-7B-instruct \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Alibaba
Год выпуска
2024
Параметры
7B
Архитектура
Transformer
Лицензия
Apache-2.0

Применение

Semantic search RAG Multilingual retrieval Long document embedding

GTE Qwen2 7B — embedding-модель Alibaba на базе Qwen2 с поддержкой 32k токенов контекста. Apache-2.0 лицензия. Сильная мультиязычная поддержка, включая русский и китайский.