VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	144 ГБ	Максимальное	Для продакшена
FP8	72 ГБ	Отличное	Оптимально
INT8	72 ГБ	Хорошее
INT4/Q4	36 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA H100 SXM

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA H200 SXM

141 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Alibaba
Год выпуска: 2024
Параметры: 72B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: Apache-2.0

Применение

Reasoning Code generation Multilingual tasks Complex instruction following

Qwen 2.5 72B Instruct — вершина открытой линейки Qwen 2.5: плотная 72B-модель, которая по многим бенчмаркам бьётся с Llama 3.1 70B и сильна в математике, коде и многоязычных сценариях. Подходит для «серьёзного» ассистента, сложного RAG и задач, где 32B уже не хватает.

Контекст 128k, Apache-2.0; fp16 веса ~144 ГБ VRAM — практичный путь fp8 на двух H100/H200 с tensor parallel.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Qwen 2.5 72B в fp8 (около 72 ГБ под веса) рекомендуем две H100 или H200 80 ГБ; альтернатива — одна карта с агрессивной квантизацией (см. документацию vLLM). Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-72B-Instruct \
  --dtype auto \
  --tensor-parallel-size 2 \
  --max-model-len 65536

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen2.5-72B-Instruct",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе: в чём сильнее всего 72B Instruct по сравнению с компактными моделями?"}]
  }'

Оптимизация

Начните с --max-model-len 32k–64k на двух H100; полный 128k возможен, но дорог по памяти.
Увеличивайте TP до 4×, если нужен больший batch или длиннее контекст.
Для code-heavy нагрузок комбинируйте низкий temperature и жёсткие лимиты max_tokens.

Qwen 2.5 72B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация