Qwen3 235B-A22B
235B параметров · MoE · Контекст 128k · Alibaba · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 470 ГБ | Максимальное | Для продакшена |
| FP8 | 235 ГБ | Отличное | Оптимально |
| INT4/Q4 | 60 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT4 | Арендовать |
| 141 ГБ | FP16, FP8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Qwen3-235B-A22B \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Alibaba
- Год выпуска
- 2025
- Параметры
- 235B
- Архитектура
- MoE
- Контекстное окно
- 128,000 токенов
- Лицензия
- Apache-2.0
Применение
Qwen3 235B-A22B — флагманское MoE семейства Qwen3: 235 млрд параметров всего и ~22 млрд активных на токен (128 экспертов, 8 активных). Предобучение на ~36T токенах и 119 языках; по ряду задач модель близка к классу GPT-4o среди открытых весов.
Локальный деплой без компромиссов по формату требует нескольких GPU уровня H100/H200 и аккуратной настройки tensor parallelism в vLLM — одной карты для полноразмерного fp8 чекпойнта недостаточно.
Для исследований, сложного reasoning и многоязычных ассистентов это один из сильнейших открытых вариантов, если вы готовы платить за multi-GPU кластер. На Hugging Face доступны FP8-веса; в команде ниже не добавляйте произвольный --quantization, если не уверены в совместимости с конкретным чекпойнтом.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Зарезервируйте несколько H100 или H200 в одном инстансе (или узле с высокоскоростным меж-GPU линком). Один GPU для этой модели в production-качестве обычно не подходит.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
--model Qwen/Qwen3-235B-A22B \
--dtype auto \
--tensor-parallel-size 8 \
--max-model-len 32768
Подставьте --tensor-parallel-size N равным числу GPU в узле (часто 4 или 8 на H100 80GB; при другой памяти пересчитайте запас под веса и KV-cache).
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-235B-A22B",
"messages": [{"role": "user", "content": "Докажи, что sqrt(2) иррационально, и укажи типичные ловушки в нестрогих доказательствах"}]
}'
Оптимизация
- Начните с умеренного
--max-model-len; полный 128k на нескольких GPU всё равно дорог по памяти и latency - Увеличьте
--shm-sizeпри больших batch и длинных последовательностях — иначе возможны сбои в контейнере - Настройте лимиты concurrent requests и prefix caching (если включено в вашей версии vLLM) под реальный RAG/чат-паттерн