VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	690 ГБ	Максимальное	Для продакшена
FP8	345 ГБ	Отличное	Оптимально
INT8	345 ГБ	Хорошее
INT4/Q4	173 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA H100 SXM	80 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA H200 SXM	141 ГБ	FP16, FP8, INT8, INT4	Арендовать

Характеристики модели

Технические параметры

Разработчик: DeepSeek
Год выпуска: 2025
Параметры: 671B
Архитектура: MoE
Контекстное окно: 128,000 токенов
Лицензия: MIT

Применение

Reasoning Math Code generation Research Complex problem solving

DeepSeek R1 671B — «оригинальный» R1: полноразмерная MoE-модель уровня closed-source o1-class по ряду reasoning-бенчмарков. Подходит для исследований, внутренних copilot’ов с высокими требованиями к качеству и сценариев, где оправдан отдельный GPU-кластер.

Контекст 128k; веса и KV-cache требуют многокарточной конфигурации — планируйте fp8 и tensor parallel на стеке из H100/H200.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для DeepSeek R1 671B в fp8 (порядка 345 ГБ только под веса) рекомендуем кластер из нескольких H100 80 ГБ или H200 с высокоскоростным межGPU-линком. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

Укажите число GPU в --tensor-parallel-size (типично 8 на кластере из восьми H100; подберите под вашу аренду):

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model deepseek-ai/DeepSeek-R1 \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-ai/DeepSeek-R1",
    "messages": [{"role": "user", "content": "Есть ли бесконечно много простых p, для которых p+2 тоже простое? Объясни, что доказано и что нет."}]
  }'

Оптимизация

Начинайте с умеренного --max-model-len и увеличивайте после стабилизации памяти и latency.
MoE-модели чувствительны к batching: настраивайте vLLM под ваш профиль (concurrency, chunked prefill).
Для снижения стоимости рассмотрите специализированные quant-форматы, если ваша сборка vLLM и железо их поддерживают.

DeepSeek R1 671B