LLM Apache-2.0

Qwen 2.5 72B

72B параметров · Transformer · Контекст 128k · Alibaba · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 144 ГБ Максимальное Для продакшена
FP8 72 ГБ Отличное Оптимально
INT8 72 ГБ Хорошее
INT4/Q4 36 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT8, INT4 Арендовать
141 ГБ FP16, FP8, INT8, INT4 Арендовать
80 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen2.5-72B-Instruct \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Alibaba
Год выпуска
2024
Параметры
72B
Архитектура
Transformer
Контекстное окно
128,000 токенов
Лицензия
Apache-2.0

Применение

Reasoning Code generation Multilingual tasks Complex instruction following

Qwen 2.5 72B Instruct — вершина открытой линейки Qwen 2.5: плотная 72B-модель, которая по многим бенчмаркам бьётся с Llama 3.1 70B и сильна в математике, коде и многоязычных сценариях. Подходит для «серьёзного» ассистента, сложного RAG и задач, где 32B уже не хватает.

Контекст 128k, Apache-2.0; fp16 веса ~144 ГБ VRAM — практичный путь fp8 на двух H100/H200 с tensor parallel.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Qwen 2.5 72B в fp8 (около 72 ГБ под веса) рекомендуем две H100 или H200 80 ГБ; альтернатива — одна карта с агрессивной квантизацией (см. документацию vLLM). Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-72B-Instruct \
  --dtype auto \
  --tensor-parallel-size 2 \
  --max-model-len 65536

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen2.5-72B-Instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе: в чём сильнее всего 72B Instruct по сравнению с компактными моделями?"}]
  }'

Оптимизация

  • Начните с --max-model-len 32k–64k на двух H100; полный 128k возможен, но дорог по памяти.
  • Увеличивайте TP до 4×, если нужен больший batch или длиннее контекст.
  • Для code-heavy нагрузок комбинируйте низкий temperature и жёсткие лимиты max_tokens.