DeepSeek R1 671B
671B параметров · MoE · Контекст 128k · DeepSeek · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 690 ГБ | Максимальное | Для продакшена |
| FP8 | 345 ГБ | Отличное | Оптимально |
| INT8 | 345 ГБ | Хорошее | |
| INT4/Q4 | 173 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 141 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model DeepSeek-R1 \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- DeepSeek
- Год выпуска
- 2025
- Параметры
- 671B
- Архитектура
- MoE
- Контекстное окно
- 128,000 токенов
- Лицензия
- MIT
Применение
DeepSeek R1 671B — «оригинальный» R1: полноразмерная MoE-модель уровня closed-source o1-class по ряду reasoning-бенчмарков. Подходит для исследований, внутренних copilot’ов с высокими требованиями к качеству и сценариев, где оправдан отдельный GPU-кластер.
Контекст 128k; веса и KV-cache требуют многокарточной конфигурации — планируйте fp8 и tensor parallel на стеке из H100/H200.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для DeepSeek R1 671B в fp8 (порядка 345 ГБ только под веса) рекомендуем кластер из нескольких H100 80 ГБ или H200 с высокоскоростным межGPU-линком. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.
Шаг 2 — Запустите vLLM
Укажите число GPU в --tensor-parallel-size (типично 8 на кластере из восьми H100; подберите под вашу аренду):
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model deepseek-ai/DeepSeek-R1 \
--dtype auto \
--tensor-parallel-size 8 \
--max-model-len 32768
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-ai/DeepSeek-R1",
"messages": [{"role": "user", "content": "Есть ли бесконечно много простых p, для которых p+2 тоже простое? Объясни, что доказано и что нет."}]
}'
Оптимизация
- Начинайте с умеренного
--max-model-lenи увеличивайте после стабилизации памяти и latency. - MoE-модели чувствительны к batching: настраивайте vLLM под ваш профиль (concurrency, chunked prefill).
- Для снижения стоимости рассмотрите специализированные quant-форматы, если ваша сборка vLLM и железо их поддерживают.