LLM Apache-2.0

Qwen3 8B

8B параметров · Transformer · Контекст 128k · Alibaba · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 16 ГБ Максимальное Для продакшена
FP8 8 ГБ Отличное Оптимально
INT8 8 ГБ Хорошее
INT4/Q4 4 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, FP8, INT8, INT4 Арендовать
80 ГБ FP16, FP8, INT8, INT4 Арендовать
80 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen3-8B \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Alibaba
Год выпуска
2025
Параметры
8B
Архитектура
Transformer
Контекстное окно
128,000 токенов
Лицензия
Apache-2.0

Применение

Reasoning Code generation Instruction following Chatbots

Qwen3 8B — компактная dense-модель из линейки Qwen3 (апрель 2025): 8 млрд параметров, предобучение на ~36T токенах, покрытие 119 языков. В семействе доступен гибридный режим «thinking»: можно включать или отключать явную chain-of-thought в зависимости от latency и задачи.

На reasoning-бенчмарках модель часто держится рядом с весами в 5–10 раз больше своего размера, при этом остаётся практичной для домашнего и edge-деплоя: в fp8 укладывается в одну потребительскую карту, а контекстное окно — до 128k токенов.

Хорошо подходит для чат-ботов, следования инструкциям и генерации кода там, где важен баланс качества, стоимости инференса и простоты эксплуатации.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Qwen3 8B в fp8 достаточно одной RTX 4090 (24 ГБ) или RTX 3090 с квантизацией. Перейдите в каталог GPU и арендуйте инстанс с Docker.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen/Qwen3-8B \
  --dtype auto \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-8B",
    "messages": [{"role": "user", "content": "Напиши функцию на Python, которая валидирует email по RFC-подобным правилам"}]
  }'

Оптимизация

  • Для экономии VRAM используйте --quantization fp8 при необходимости уложиться в ~8 ГБ с минимальной потерей качества относительно fp16
  • Уменьшите --max-model-len, если полный контекст 128k не нужен — KV-cache съедает память линейно от длины
  • Альтернатива: ollama pull qwen3:8b (или актуальный тег в реестре Ollama) для быстрого локального запуска без ручной сборки образа