VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	14 ГБ	Максимальное	Для продакшена
FP8	7 ГБ	Отличное	Оптимально
INT8	7 ГБ	Хорошее
INT4/Q4	4 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA RTX 4090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA RTX 3090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать

Характеристики модели

Технические параметры

Разработчик: DeepSeek
Год выпуска: 2025
Параметры: 7B
Архитектура: Transformer
Контекстное окно: 128,000 токенов
Лицензия: MIT

Применение

Reasoning Math Code generation Chain-of-thought

DeepSeek R1 7B — компактная дистилляция флагманского R1-671B на базе Qwen 7B: модель явно «думает» в видимых цепочках рассуждений и сильна в логике, математике и задачах, где важен пошаговый вывод. Её удобно ставить в продакшн там, где нужен reasoning без аренды тяжёлых GPU.

Архитектура — плотный Transformer, контекст до 128k токенов; лицензия MIT.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для DeepSeek R1 7B в fp8 или int8 рекомендуем RTX 4090 (около 7 ГБ под веса) или RTX 3090. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
  --dtype auto \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
    "messages": [{"role": "user", "content": "Докажи, что √2 иррационально. Рассуждай по шагам."}]
  }'

Альтернативно, используйте Ollama для быстрого старта:

ollama run deepseek-r1:7b

Оптимизация

Для длинного контекста увеличивайте --max-model-len постепенно: на 24 ГБ VRAM разумный потолок ниже, чем на картах с 80 ГБ.
Если не хватает памяти, используйте квантизацию (AWQ/GPTQ) или снижайте max-model-len и batch size.
Reasoning-модели дают длинные ответы: ограничивайте max_tokens, чтобы не раздувать latency и стоимость.

DeepSeek R1 7B