Qwen3 235B-A22B — флагманское MoE семейства Qwen3: 235 млрд параметров всего и ~22 млрд активных на токен (128 экспертов, 8 активных). Предобучение на ~36T токенах и 119 языках; по ряду задач модель близка к классу GPT-4o среди открытых весов.

Локальный деплой без компромиссов по формату требует нескольких GPU уровня H100/H200 и аккуратной настройки tensor parallelism в vLLM — одной карты для полноразмерного fp8 чекпойнта недостаточно.

Для исследований, сложного reasoning и многоязычных ассистентов это один из сильнейших открытых вариантов, если вы готовы платить за multi-GPU кластер. На Hugging Face доступны FP8-веса; в команде ниже не добавляйте произвольный --quantization, если не уверены в совместимости с конкретным чекпойнтом.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Зарезервируйте несколько H100 или H200 в одном инстансе (или узле с высокоскоростным меж-GPU линком). Один GPU для этой модели в production-качестве обычно не подходит.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
  --model Qwen/Qwen3-235B-A22B \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 32768

Подставьте --tensor-parallel-size N равным числу GPU в узле (часто 4 или 8 на H100 80GB; при другой памяти пересчитайте запас под веса и KV-cache).

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-235B-A22B",
    "messages": [{"role": "user", "content": "Докажи, что sqrt(2) иррационально, и укажи типичные ловушки в нестрогих доказательствах"}]
  }'

Оптимизация

Начните с умеренного --max-model-len; полный 128k на нескольких GPU всё равно дорог по памяти и latency
Увеличьте --shm-size при больших batch и длинных последовательностях — иначе возможны сбои в контейнере
Настройте лимиты concurrent requests и prefix caching (если включено в вашей версии vLLM) под реальный RAG/чат-паттерн

Точность	VRAM	Качество	Рекомендация
FP16	470 ГБ	Максимальное	Для продакшена
FP8	235 ГБ	Отличное	Оптимально
INT4/Q4	60 ГБ	Приемлемое	Для экспериментов

GPU	VRAM	Поддерживает
Рек. NVIDIA H100 SXM	80 ГБ	FP16, FP8, INT4	Арендовать
NVIDIA H200 SXM	141 ГБ	FP16, FP8, INT4	Арендовать

Qwen3 235B-A22B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация