VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	16 ГБ	Максимальное	Для продакшена
FP8	8 ГБ	Отличное	Оптимально
INT8	8 ГБ	Хорошее
INT4/Q4	4 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA H100 SXM

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Alibaba
Год выпуска: 2025
Параметры: 8B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: Apache-2.0

Применение

Reasoning Code generation Instruction following Chatbots

Qwen3 8B — компактная dense-модель из линейки Qwen3 (апрель 2025): 8 млрд параметров, предобучение на ~36T токенах, покрытие 119 языков. В семействе доступен гибридный режим «thinking»: можно включать или отключать явную chain-of-thought в зависимости от latency и задачи.

На reasoning-бенчмарках модель часто держится рядом с весами в 5–10 раз больше своего размера, при этом остаётся практичной для домашнего и edge-деплоя: в fp8 укладывается в одну потребительскую карту, а контекстное окно — до 128k токенов.

Хорошо подходит для чат-ботов, следования инструкциям и генерации кода там, где важен баланс качества, стоимости инференса и простоты эксплуатации.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Qwen3 8B в fp8 достаточно одной RTX 4090 (24 ГБ) или RTX 3090 с квантизацией. Перейдите в каталог GPU и арендуйте инстанс с Docker.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen/Qwen3-8B \
  --dtype auto \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-8B",
    "messages": [{"role": "user", "content": "Напиши функцию на Python, которая валидирует email по RFC-подобным правилам"}]
  }'

Оптимизация

Для экономии VRAM используйте --quantization fp8 при необходимости уложиться в ~8 ГБ с минимальной потерей качества относительно fp16
Уменьшите --max-model-len, если полный контекст 128k не нужен — KV-cache съедает память линейно от длины
Альтернатива: ollama pull qwen3:8b (или актуальный тег в реестре Ollama) для быстрого локального запуска без ручной сборки образа

Qwen3 8B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация