Qwen 2.5 7B
7B параметров · Transformer · Контекст 128k · Alibaba · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 14 ГБ | Максимальное | Для продакшена |
| FP8 | 7 ГБ | Отличное | Оптимально |
| INT8 | 7 ГБ | Хорошее | |
| INT4/Q4 | 4 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Qwen2.5-7B-Instruct \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Alibaba
- Год выпуска
- 2024
- Параметры
- 7B
- Архитектура
- Transformer
- Контекстное окно
- 128,000 токенов
- Лицензия
- Apache-2.0
Применение
Qwen 2.5 7B Instruct — рабочая лошадка линейки 2024 года: хороший русский и десятки других языков, уверенный coding и инструкции при скромном железе. Удобна как дефолт для чат-ботов, RAG и внутренних ассистентов, где важна стоимость инференса.
Dense Transformer, контекст 128k, лицензия Apache-2.0; на одной RTX 4090 чаще всего достаточно fp8 или bf16 с умеренным max-model-len.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Qwen 2.5 7B в fp16 рекомендуем RTX 4090 или RTX 3090 (около 14 ГБ под веса). Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model Qwen/Qwen2.5-7B-Instruct \
--dtype auto \
--max-model-len 32768
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen2.5-7B-Instruct",
"messages": [{"role": "user", "content": "Привет! Расскажи о себе кратко: для каких задач ты лучше всего подходишь?"}]
}'
Альтернативно, используйте Ollama для быстрого старта:
ollama run qwen2.5:7b
Оптимизация
- Для RAG с длинными документами поднимайте
--max-model-lenосторожно и следите за памятью KV-cache. - При росте concurrency снижайте
max_num_seqsили используйте квантизацию. - Для низкой задержки уменьшайте размер батча и длину генерации.