LLM Apache-2.0

Qwen3 14B

14B параметров · Transformer · Контекст 128k · Alibaba · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 28 ГБ Максимальное Для продакшена
FP8 14 ГБ Отличное Оптимально
INT8 14 ГБ Хорошее
INT4/Q4 7 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, FP8, INT8, INT4 Арендовать
80 ГБ FP16, FP8, INT8, INT4 Арендовать
80 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen3-14B \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
Alibaba
Год выпуска
2025
Параметры
14B
Архитектура
Transformer
Контекстное окно
128,000 токенов
Лицензия
Apache-2.0

Применение

Reasoning Code generation Multilingual Complex tasks

Qwen3 14B — dense-модель из того же поколения Qwen3: золотая середина между скоростью инференса и качеством на code/reasoning задачах. Поддерживаются режимы с явным рассуждением и без него — удобно переключать поведение под production SLA.

Контекст до 128k токенов и сильная многоязычность делают её универсальным выбором для внутренних ассистентов, RAG-пайплайнов и сложных диалогов без перехода на 32B-класс.

В fp8 модель уверенно помещается на одну RTX 4090, что упрощает аренду одного инстанса на cloudcompute.ru без tensor parallelism.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Оптимальный вариант — одна RTX 4090 под fp8. Откройте каталог RTX 4090 и выберите инстанс с поддержкой Docker и NVIDIA Container Toolkit.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Qwen/Qwen3-14B \
  --dtype auto \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-14B",
    "messages": [{"role": "user", "content": "Объясни по шагам, как доказать неравенство Коши–Шварца для векторов в R^n"}]
  }'

Оптимизация

  • Явный --quantization fp8 помогает стабильно уложиться в 14 ГБ VRAM, если --dtype auto выбирает более тяжёлый путь
  • Сократите --max-model-len для длинных сессий с большим числом одновременных запросов — иначе упираетесь в KV-cache
  • Для edge-сценариев рассмотрите llama.cpp / Ollama с квантованными весами, если vLLM избыточен по зависимостям