Qwen 2.5 72B
72B параметров · Transformer · Контекст 128k · Alibaba · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 144 ГБ | Максимальное | Для продакшена |
| FP8 | 72 ГБ | Отличное | Оптимально |
| INT8 | 72 ГБ | Хорошее | |
| INT4/Q4 | 36 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 141 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Qwen2.5-72B-Instruct \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Alibaba
- Год выпуска
- 2024
- Параметры
- 72B
- Архитектура
- Transformer
- Контекстное окно
- 128,000 токенов
- Лицензия
- Apache-2.0
Применение
Qwen 2.5 72B Instruct — вершина открытой линейки Qwen 2.5: плотная 72B-модель, которая по многим бенчмаркам бьётся с Llama 3.1 70B и сильна в математике, коде и многоязычных сценариях. Подходит для «серьёзного» ассистента, сложного RAG и задач, где 32B уже не хватает.
Контекст 128k, Apache-2.0; fp16 веса ~144 ГБ VRAM — практичный путь fp8 на двух H100/H200 с tensor parallel.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Qwen 2.5 72B в fp8 (около 72 ГБ под веса) рекомендуем две H100 или H200 80 ГБ; альтернатива — одна карта с агрессивной квантизацией (см. документацию vLLM). Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model Qwen/Qwen2.5-72B-Instruct \
--dtype auto \
--tensor-parallel-size 2 \
--max-model-len 65536
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen2.5-72B-Instruct",
"messages": [{"role": "user", "content": "Привет! Расскажи о себе: в чём сильнее всего 72B Instruct по сравнению с компактными моделями?"}]
}'
Оптимизация
- Начните с
--max-model-len32k–64k на двух H100; полный 128k возможен, но дорог по памяти. - Увеличивайте TP до 4×, если нужен больший batch или длиннее контекст.
- Для code-heavy нагрузок комбинируйте низкий temperature и жёсткие лимиты
max_tokens.