LLM Apache-2.0

Qwen3 30B-A3B

30B параметров · MoE · Контекст 128k · Alibaba · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 60 ГБ Максимальное Для продакшена
FP8 30 ГБ Отличное Оптимально
INT8 30 ГБ Хорошее
INT4/Q4 15 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
32 ГБ FP16, FP8, INT8, INT4 Арендовать
80 ГБ FP16, FP8, INT8, INT4 Арендовать
80 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen3-30B-A3B \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Alibaba
Год выпуска
2025
Параметры
30B
Архитектура
MoE
Контекстное окно
128,000 токенов
Лицензия
Apache-2.0

Применение

Efficient inference Code generation Reasoning Edge deployment

Qwen3 30B-A3B — MoE-архитектура: 30 млрд параметров всего, но на каждый токен активны лишь ~3 млрд (128 экспертов, 8 активных). За счёт этого модель даёт «ёмкость знаний» уровня 30B при стоимости инференса ближе к лёгким dense-весам.

Идеально для cost-sensitive деплоя при INT4/Q4 (~15 ГБ VRAM под веса в карточке): на одной RTX 4090 (24 ГБ) это реалистичный формат; строки FP8/INT8 (~30 ГБ) в таблице соответствуют полным весам и требуют ≥ ~30 ГБ видеопамяти — ориентируйтесь на RTX 5090 (32 ГБ), A100 или H100, а не на 4090.

Подходит для code generation, рассуждений и чатов; на Hugging Face обычно доступны FP8-веса — не дублируйте квантизацию флагами в Docker без необходимости.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для FP8/INT8 по метаданным карточки (~30 ГБ) — RTX 5090, A100 или H100. Для INT4 на одной RTX 4090 — планируйте запас под KV и контекст. Убедитесь, что драйвер и NVIDIA Container Toolkit актуальны.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen/Qwen3-30B-A3B \
  --dtype auto \
  --max-model-len 32768

Не добавляйте --quantization «на всякий случай»: MoE-чекпойнты часто уже поставляются в FP8; лишний флаг может конфликтовать с форматом весов.

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-30B-A3B",
    "messages": [{"role": "user", "content": "Оптимизируй этот SQL-запрос и объясни, почему план выполнения станет дешевле"}]
  }'

Оптимизация

  • Снизьте --max-model-len, если не нужен полный контекст 128k — для MoE это критично из-за KV-cache на активных слоях
  • Следите за batch size и concurrent requests: MoE чувствителен к паттернам нагрузки на роутер экспертов
  • При нехватке VRAM сначала уменьшайте длину контекста и параллелизм; только потом подбирайте альтернативные веса/форматы