LLM Apache-2.0

Qwen3 32B

32B параметров · Transformer · Контекст 128k · Alibaba · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 64 ГБ Максимальное Для продакшена
FP8 32 ГБ Отличное Оптимально
INT8 32 ГБ Хорошее
INT4/Q4 16 ГБ Приемлемое Для экспериментов

Совместимые GPU

Квантизация: На одной RTX 4090 (24 ГБ) запуск возможен только с агрессивной квантизацией (INT4/AWQ и т.п.) и умеренным max-model-len; строки FP16/FP8/INT8 в таблице VRAM ориентируйте на рекомендуемые GPU (от ~32 ГБ).
GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT8, INT4 Арендовать
80 ГБ FP16, FP8, INT8, INT4 Арендовать
32 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen3-32B \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Alibaba
Год выпуска
2025
Параметры
32B
Архитектура
Transformer
Контекстное окно
128,000 токенов
Лицензия
Apache-2.0

Применение

Complex reasoning Code generation Research Instruction following

Qwen3 32B — крупнейшая dense-модель в линейке Qwen3: упор на сложный reasoning, инженерный код и аккуратное следование инструкциям. По ряду бенчмарков держится на уровне заметно более тяжёлых открытых моделей, оставаясь управляемой для self-hosted inference при квантизации.

В fp16 ориентируйтесь на A100/H100 класса (≈64 ГБ и выше по памяти под веса и запас под контекст); на одной RTX 4090 реалистичен запуск с агрессивной квантизацией (INT4/AWQ и т.п.) и умеренным max-model-len.

Для исследовательских задач и внутренних coding-агентов это часто оптимальный компромисс между качеством Qwen3 и стоимостью GPU-часов.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Под fp16 удобнее A100 или H100. Если доступна только RTX 4090, закладывайте квантизацию и запас по VRAM под KV-cache; смотрите шаг 2.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen/Qwen3-32B \
  --dtype auto \
  --max-model-len 16384

На одной RTX 4090 при нехватке памяти добавьте, например, --quantization awq (при наличии совместимых весов) или используйте fp8 через --quantization fp8 — см. раздел оптимизации.

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-32B",
    "messages": [{"role": "user", "content": "Спроектируй схему БД для маркетплейса: пользователи, заказы, платежи, возвраты. Укажи ключи и индексы."}]
  }'

Оптимизация

  • Начните с умеренного --max-model-len; 128k «в полный рост» на одном GPU редко бывает бесплатным по памяти
  • --quantization fp8 или AWQ/GPTQ снижают требования к VRAM на RTX 4090 сильнее, чем надежда на dtype auto
  • Для стабильного throughput ограничьте concurrent requests в vLLM или вынесите rate limiting на gateway