QwQ 32B
32B параметров · Transformer · Контекст 131k · Alibaba · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 64 ГБ | Максимальное | Для продакшена |
| FP8 | 32 ГБ | Отличное | Оптимально |
| INT8 | 32 ГБ | Хорошее | |
| INT4/Q4 | 16 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model QwQ-32B \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Alibaba
- Год выпуска
- 2025
- Параметры
- 32B
- Архитектура
- Transformer
- Контекстное окно
- 131,072 токенов
- Лицензия
- Apache-2.0
Применение
QwQ 32B — reasoning-ориентированная модель Qwen: обучена с RL и заточена на «долгое мышление», математику и многошаговую логику при скромном размере 32B. Удобна, когда нужен стиль R1-class без прыжка к 70B+, и при этом важна Apache-2.0.
Контекст до 131k токенов; на одной H100 80 ГБ в fp8 обычно достаточно для комфортного сервиса.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для QwQ 32B в fp8 рекомендуем H100, H200 или A100 80 ГБ; на RTX 4090 возможны квантованные веса. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model Qwen/QwQ-32B \
--dtype auto \
--max-model-len 65536
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/QwQ-32B",
"messages": [{"role": "user", "content": "Верно ли, что если n нечётно, то n² − 1 делится на 8? Докажи или опровергни."}]
}'
Альтернативно, используйте Ollama для быстрого старта:
ollama run qwq
Оптимизация
- Reasoning-модели раздувают ответ: ограничивайте
max_tokensи следите за стоимостью на токен. - Длинный контекст (до 131k) включайте постепенно — KV-cache растёт линейно.
- Для матзадач иногда выгоднее temperature 0.6–0.8, для кода — ниже; подбирайте под метрику.