VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	14 ГБ	Максимальное	Для продакшена
FP8	7 ГБ	Отличное	Оптимально
INT8	7 ГБ	Хорошее
INT4/Q4	4 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA RTX 4090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA RTX 3090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать

Характеристики модели

Технические параметры

Разработчик: Alibaba
Год выпуска: 2024
Параметры: 7B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: Apache-2.0

Применение

Instruction following Code generation Multilingual tasks Chatbots

Qwen 2.5 7B Instruct — рабочая лошадка линейки 2024 года: хороший русский и десятки других языков, уверенный coding и инструкции при скромном железе. Удобна как дефолт для чат-ботов, RAG и внутренних ассистентов, где важна стоимость инференса.

Dense Transformer, контекст 128k, лицензия Apache-2.0; на одной RTX 4090 чаще всего достаточно fp8 или bf16 с умеренным max-model-len.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Qwen 2.5 7B в fp16 рекомендуем RTX 4090 или RTX 3090 (около 14 ГБ под веса). Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-7B-Instruct \
  --dtype auto \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen2.5-7B-Instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе кратко: для каких задач ты лучше всего подходишь?"}]
  }'

Альтернативно, используйте Ollama для быстрого старта:

ollama run qwen2.5:7b

Оптимизация

Для RAG с длинными документами поднимайте --max-model-len осторожно и следите за памятью KV-cache.
При росте concurrency снижайте max_num_seqs или используйте квантизацию.
Для низкой задержки уменьшайте размер батча и длину генерации.

Qwen 2.5 7B