Qwen3 30B-A3B
30B параметров · MoE · Контекст 128k · Alibaba · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 60 ГБ | Максимальное | Для продакшена |
| FP8 | 30 ГБ | Отличное | Оптимально |
| INT8 | 30 ГБ | Хорошее | |
| INT4/Q4 | 15 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 5090
|
32 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Qwen3-30B-A3B \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Alibaba
- Год выпуска
- 2025
- Параметры
- 30B
- Архитектура
- MoE
- Контекстное окно
- 128,000 токенов
- Лицензия
- Apache-2.0
Применение
Qwen3 30B-A3B — MoE-архитектура: 30 млрд параметров всего, но на каждый токен активны лишь ~3 млрд (128 экспертов, 8 активных). За счёт этого модель даёт «ёмкость знаний» уровня 30B при стоимости инференса ближе к лёгким dense-весам.
Идеально для cost-sensitive деплоя при INT4/Q4 (~15 ГБ VRAM под веса в карточке): на одной RTX 4090 (24 ГБ) это реалистичный формат; строки FP8/INT8 (~30 ГБ) в таблице соответствуют полным весам и требуют ≥ ~30 ГБ видеопамяти — ориентируйтесь на RTX 5090 (32 ГБ), A100 или H100, а не на 4090.
Подходит для code generation, рассуждений и чатов; на Hugging Face обычно доступны FP8-веса — не дублируйте квантизацию флагами в Docker без необходимости.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для FP8/INT8 по метаданным карточки (~30 ГБ) — RTX 5090, A100 или H100. Для INT4 на одной RTX 4090 — планируйте запас под KV и контекст. Убедитесь, что драйвер и NVIDIA Container Toolkit актуальны.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model Qwen/Qwen3-30B-A3B \
--dtype auto \
--max-model-len 32768
Не добавляйте --quantization «на всякий случай»: MoE-чекпойнты часто уже поставляются в FP8; лишний флаг может конфликтовать с форматом весов.
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-30B-A3B",
"messages": [{"role": "user", "content": "Оптимизируй этот SQL-запрос и объясни, почему план выполнения станет дешевле"}]
}'
Оптимизация
- Снизьте
--max-model-len, если не нужен полный контекст 128k — для MoE это критично из-за KV-cache на активных слоях - Следите за batch size и concurrent requests: MoE чувствителен к паттернам нагрузки на роутер экспертов
- При нехватке VRAM сначала уменьшайте длину контекста и параллелизм; только потом подбирайте альтернативные веса/форматы