LLM Apache-2.0

Qwen 2.5 7B

7B параметров · Transformer · Контекст 128k · Alibaba · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 14 ГБ Максимальное Для продакшена
FP8 7 ГБ Отличное Оптимально
INT8 7 ГБ Хорошее
INT4/Q4 4 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, FP8, INT8, INT4 Арендовать
24 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen2.5-7B-Instruct \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Alibaba
Год выпуска
2024
Параметры
7B
Архитектура
Transformer
Контекстное окно
128,000 токенов
Лицензия
Apache-2.0

Применение

Instruction following Code generation Multilingual tasks Chatbots

Qwen 2.5 7B Instruct — рабочая лошадка линейки 2024 года: хороший русский и десятки других языков, уверенный coding и инструкции при скромном железе. Удобна как дефолт для чат-ботов, RAG и внутренних ассистентов, где важна стоимость инференса.

Dense Transformer, контекст 128k, лицензия Apache-2.0; на одной RTX 4090 чаще всего достаточно fp8 или bf16 с умеренным max-model-len.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Qwen 2.5 7B в fp16 рекомендуем RTX 4090 или RTX 3090 (около 14 ГБ под веса). Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-7B-Instruct \
  --dtype auto \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen2.5-7B-Instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе кратко: для каких задач ты лучше всего подходишь?"}]
  }'

Альтернативно, используйте Ollama для быстрого старта:

ollama run qwen2.5:7b

Оптимизация

  • Для RAG с длинными документами поднимайте --max-model-len осторожно и следите за памятью KV-cache.
  • При росте concurrency снижайте max_num_seqs или используйте квантизацию.
  • Для низкой задержки уменьшайте размер батча и длину генерации.