VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	28 ГБ	Максимальное	Для продакшена
FP8	14 ГБ	Отличное	Оптимально
INT8	14 ГБ	Хорошее
INT4/Q4	7 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA RTX 4090

24 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA A100

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

NVIDIA H100 SXM

80 ГБ

FP16, FP8, INT8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: Alibaba
Год выпуска: 2025
Параметры: 14B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: Apache-2.0

Применение

Reasoning Code generation Multilingual Complex tasks

Qwen3 14B — dense-модель из того же поколения Qwen3: золотая середина между скоростью инференса и качеством на code/reasoning задачах. Поддерживаются режимы с явным рассуждением и без него — удобно переключать поведение под production SLA.

Контекст до 128k токенов и сильная многоязычность делают её универсальным выбором для внутренних ассистентов, RAG-пайплайнов и сложных диалогов без перехода на 32B-класс.

В fp8 модель уверенно помещается на одну RTX 4090, что упрощает аренду одного инстанса на cloudcompute.ru без tensor parallelism.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Оптимальный вариант — одна RTX 4090 под fp8. Откройте каталог RTX 4090 и выберите инстанс с поддержкой Docker и NVIDIA Container Toolkit.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen/Qwen3-14B \
  --dtype auto \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-14B",
    "messages": [{"role": "user", "content": "Объясни по шагам, как доказать неравенство Коши–Шварца для векторов в R^n"}]
  }'

Оптимизация

Явный --quantization fp8 помогает стабильно уложиться в 14 ГБ VRAM, если --dtype auto выбирает более тяжёлый путь
Сократите --max-model-len для длинных сессий с большим числом одновременных запросов — иначе упираетесь в KV-cache
Для edge-сценариев рассмотрите llama.cpp / Ollama с квантованными весами, если vLLM избыточен по зависимостям

Qwen3 14B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация