VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	64 ГБ	Максимальное	Для продакшена
FP8	32 ГБ	Отличное	Оптимально
INT8	32 ГБ	Хорошее
INT4/Q4	16 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

Квантизация: На одной RTX 4090 (24 ГБ) запуск возможен только с агрессивной квантизацией (INT4/AWQ и т.п.) и умеренным max-model-len; строки FP16/FP8/INT8 в таблице VRAM ориентируйте на рекомендуемые GPU (от ~32 ГБ).

GPU

VRAM

Поддерживает

Рек. NVIDIA A100

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA H100 SXM

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA RTX 5090

32 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Alibaba
Год выпуска: 2025
Параметры: 32B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: Apache-2.0

Применение

Complex reasoning Code generation Research Instruction following

Qwen3 32B — крупнейшая dense-модель в линейке Qwen3: упор на сложный reasoning, инженерный код и аккуратное следование инструкциям. По ряду бенчмарков держится на уровне заметно более тяжёлых открытых моделей, оставаясь управляемой для self-hosted inference при квантизации.

В fp16 ориентируйтесь на A100/H100 класса (≈64 ГБ и выше по памяти под веса и запас под контекст); на одной RTX 4090 реалистичен запуск с агрессивной квантизацией (INT4/AWQ и т.п.) и умеренным max-model-len.

Для исследовательских задач и внутренних coding-агентов это часто оптимальный компромисс между качеством Qwen3 и стоимостью GPU-часов.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Под fp16 удобнее A100 или H100. Если доступна только RTX 4090, закладывайте квантизацию и запас по VRAM под KV-cache; смотрите шаг 2.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen/Qwen3-32B \
  --dtype auto \
  --max-model-len 16384

На одной RTX 4090 при нехватке памяти добавьте, например, --quantization awq (при наличии совместимых весов) или используйте fp8 через --quantization fp8 — см. раздел оптимизации.

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-32B",
    "messages": [{"role": "user", "content": "Спроектируй схему БД для маркетплейса: пользователи, заказы, платежи, возвраты. Укажи ключи и индексы."}]
  }'

Оптимизация

Начните с умеренного --max-model-len; 128k «в полный рост» на одном GPU редко бывает бесплатным по памяти
--quantization fp8 или AWQ/GPTQ снижают требования к VRAM на RTX 4090 сильнее, чем надежда на dtype auto
Для стабильного throughput ограничьте concurrent requests в vLLM или вынесите rate limiting на gateway

Qwen3 32B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация