LLM Apache-2.0

Qwen3 235B-A22B

235B параметров · MoE · Контекст 128k · Alibaba · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 470 ГБ Максимальное Для продакшена
FP8 235 ГБ Отличное Оптимально
INT4/Q4 60 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT4 Арендовать
141 ГБ FP16, FP8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen3-235B-A22B \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Alibaba
Год выпуска
2025
Параметры
235B
Архитектура
MoE
Контекстное окно
128,000 токенов
Лицензия
Apache-2.0

Применение

Complex reasoning Research Code generation Multilingual

Qwen3 235B-A22B — флагманское MoE семейства Qwen3: 235 млрд параметров всего и ~22 млрд активных на токен (128 экспертов, 8 активных). Предобучение на ~36T токенах и 119 языках; по ряду задач модель близка к классу GPT-4o среди открытых весов.

Локальный деплой без компромиссов по формату требует нескольких GPU уровня H100/H200 и аккуратной настройки tensor parallelism в vLLM — одной карты для полноразмерного fp8 чекпойнта недостаточно.

Для исследований, сложного reasoning и многоязычных ассистентов это один из сильнейших открытых вариантов, если вы готовы платить за multi-GPU кластер. На Hugging Face доступны FP8-веса; в команде ниже не добавляйте произвольный --quantization, если не уверены в совместимости с конкретным чекпойнтом.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Зарезервируйте несколько H100 или H200 в одном инстансе (или узле с высокоскоростным меж-GPU линком). Один GPU для этой модели в production-качестве обычно не подходит.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
  --model Qwen/Qwen3-235B-A22B \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 32768

Подставьте --tensor-parallel-size N равным числу GPU в узле (часто 4 или 8 на H100 80GB; при другой памяти пересчитайте запас под веса и KV-cache).

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-235B-A22B",
    "messages": [{"role": "user", "content": "Докажи, что sqrt(2) иррационально, и укажи типичные ловушки в нестрогих доказательствах"}]
  }'

Оптимизация

  • Начните с умеренного --max-model-len; полный 128k на нескольких GPU всё равно дорог по памяти и latency
  • Увеличьте --shm-size при больших batch и длинных последовательностях — иначе возможны сбои в контейнере
  • Настройте лимиты concurrent requests и prefix caching (если включено в вашей версии vLLM) под реальный RAG/чат-паттерн