VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	60 ГБ	Максимальное	Для продакшена
FP8	30 ГБ	Отличное	Оптимально
INT8	30 ГБ	Хорошее
INT4/Q4	15 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 5090

32 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA H100 SXM

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Alibaba
Год выпуска: 2025
Параметры: 30B
Архитектура: MoE
Контекстное окно: 128,000 токенов
Лицензия: Apache-2.0

Применение

Efficient inference Code generation Reasoning Edge deployment

Qwen3 30B-A3B — MoE-архитектура: 30 млрд параметров всего, но на каждый токен активны лишь ~3 млрд (128 экспертов, 8 активных). За счёт этого модель даёт «ёмкость знаний» уровня 30B при стоимости инференса ближе к лёгким dense-весам.

Идеально для cost-sensitive деплоя при INT4/Q4 (~15 ГБ VRAM под веса в карточке): на одной RTX 4090 (24 ГБ) это реалистичный формат; строки FP8/INT8 (~30 ГБ) в таблице соответствуют полным весам и требуют ≥ ~30 ГБ видеопамяти — ориентируйтесь на RTX 5090 (32 ГБ), A100 или H100, а не на 4090.

Подходит для code generation, рассуждений и чатов; на Hugging Face обычно доступны FP8-веса — не дублируйте квантизацию флагами в Docker без необходимости.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для FP8/INT8 по метаданным карточки (~30 ГБ) — RTX 5090, A100 или H100. Для INT4 на одной RTX 4090 — планируйте запас под KV и контекст. Убедитесь, что драйвер и NVIDIA Container Toolkit актуальны.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen/Qwen3-30B-A3B \
  --dtype auto \
  --max-model-len 32768

Не добавляйте --quantization «на всякий случай»: MoE-чекпойнты часто уже поставляются в FP8; лишний флаг может конфликтовать с форматом весов.

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-30B-A3B",
    "messages": [{"role": "user", "content": "Оптимизируй этот SQL-запрос и объясни, почему план выполнения станет дешевле"}]
  }'

Оптимизация

Снизьте --max-model-len, если не нужен полный контекст 128k — для MoE это критично из-за KV-cache на активных слоях
Следите за batch size и concurrent requests: MoE чувствителен к паттернам нагрузки на роутер экспертов
При нехватке VRAM сначала уменьшайте длину контекста и параллелизм; только потом подбирайте альтернативные веса/форматы

Qwen3 30B-A3B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация