Qwen3 32B
32B параметров · Transformer · Контекст 128k · Alibaba · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 64 ГБ | Максимальное | Для продакшена |
| FP8 | 32 ГБ | Отличное | Оптимально |
| INT8 | 32 ГБ | Хорошее | |
| INT4/Q4 | 16 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA A100
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 32 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Qwen3-32B \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Alibaba
- Год выпуска
- 2025
- Параметры
- 32B
- Архитектура
- Transformer
- Контекстное окно
- 128,000 токенов
- Лицензия
- Apache-2.0
Применение
Qwen3 32B — крупнейшая dense-модель в линейке Qwen3: упор на сложный reasoning, инженерный код и аккуратное следование инструкциям. По ряду бенчмарков держится на уровне заметно более тяжёлых открытых моделей, оставаясь управляемой для self-hosted inference при квантизации.
В fp16 ориентируйтесь на A100/H100 класса (≈64 ГБ и выше по памяти под веса и запас под контекст); на одной RTX 4090 реалистичен запуск с агрессивной квантизацией (INT4/AWQ и т.п.) и умеренным max-model-len.
Для исследовательских задач и внутренних coding-агентов это часто оптимальный компромисс между качеством Qwen3 и стоимостью GPU-часов.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Под fp16 удобнее A100 или H100. Если доступна только RTX 4090, закладывайте квантизацию и запас по VRAM под KV-cache; смотрите шаг 2.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model Qwen/Qwen3-32B \
--dtype auto \
--max-model-len 16384
На одной RTX 4090 при нехватке памяти добавьте, например, --quantization awq (при наличии совместимых весов) или используйте fp8 через --quantization fp8 — см. раздел оптимизации.
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-32B",
"messages": [{"role": "user", "content": "Спроектируй схему БД для маркетплейса: пользователи, заказы, платежи, возвраты. Укажи ключи и индексы."}]
}'
Оптимизация
- Начните с умеренного
--max-model-len; 128k «в полный рост» на одном GPU редко бывает бесплатным по памяти --quantization fp8или AWQ/GPTQ снижают требования к VRAM на RTX 4090 сильнее, чем надежда наdtype auto- Для стабильного throughput ограничьте concurrent requests в vLLM или вынесите rate limiting на gateway