LLM MIT

DeepSeek R1 7B

7B параметров · Transformer · Контекст 128k · DeepSeek · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 14 ГБ Максимальное Для продакшена
FP8 7 ГБ Отличное Оптимально
INT8 7 ГБ Хорошее
INT4/Q4 4 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, FP8, INT8, INT4 Арендовать
24 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model DeepSeek-R1-Distill-Qwen-7B \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
DeepSeek
Год выпуска
2025
Параметры
7B
Архитектура
Transformer
Контекстное окно
128,000 токенов
Лицензия
MIT

Применение

Reasoning Math Code generation Chain-of-thought

DeepSeek R1 7B — компактная дистилляция флагманского R1-671B на базе Qwen 7B: модель явно «думает» в видимых цепочках рассуждений и сильна в логике, математике и задачах, где важен пошаговый вывод. Её удобно ставить в продакшн там, где нужен reasoning без аренды тяжёлых GPU.

Архитектура — плотный Transformer, контекст до 128k токенов; лицензия MIT.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для DeepSeek R1 7B в fp8 или int8 рекомендуем RTX 4090 (около 7 ГБ под веса) или RTX 3090. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
  --dtype auto \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
    "messages": [{"role": "user", "content": "Докажи, что √2 иррационально. Рассуждай по шагам."}]
  }'

Альтернативно, используйте Ollama для быстрого старта:

ollama run deepseek-r1:7b

Оптимизация

  • Для длинного контекста увеличивайте --max-model-len постепенно: на 24 ГБ VRAM разумный потолок ниже, чем на картах с 80 ГБ.
  • Если не хватает памяти, используйте квантизацию (AWQ/GPTQ) или снижайте max-model-len и batch size.
  • Reasoning-модели дают длинные ответы: ограничивайте max_tokens, чтобы не раздувать latency и стоимость.