DeepSeek V3.1
671B параметров · MoE · Контекст 128k · DeepSeek · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 700 ГБ | Максимальное | Для продакшена |
| FP8 | 350 ГБ | Отличное | Оптимально |
| INT4/Q4 | 175 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT4 | Арендовать |
| 141 ГБ | FP16, FP8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model DeepSeek-V3.1 \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- DeepSeek
- Год выпуска
- 2025
- Параметры
- 671B
- Архитектура
- MoE
- Контекстное окно
- 128,000 токенов
- Лицензия
- MIT
Применение
DeepSeek V3.1 — эволюция DeepSeek V3: 671 млрд параметров всего, ~37 млрд активных на токен в MoE-стеке. Помимо качества на code/reasoning, релиз делает ставку на tool use и агентные сценарии: по заявлениям DeepSeek, это заметный шаг к «эре агентов» в их open-weight линейке.
Гибридные режимы thinking / non-thinking позволяют переключать глубину рассуждений под задачу — от интерактивного чата до тяжёлых research-пайплайнов.
Локально модель остаётся прерогативой multi-GPU H100/H200; альтернативно для enterprise-стека можно смотреть TGI (Hugging Face Text Generation Inference), если vLLM не подходит по эксплуатационным причинам. На Hugging Face ориентируйтесь на FP8-чекпойнты и не добавляйте --quantization в Docker без явной необходимости.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Возьмите узел из нескольких H100 или H200 с быстрым меж-GPU каналом. Одиночная карта для полноформатного деплоя, как правило, не подходит.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
--model deepseek-ai/DeepSeek-V3.1 \
--dtype auto \
--tensor-parallel-size 8 \
--max-model-len 32768
--tensor-parallel-size N выставьте по числу GPU (часто 8×80GB; уточняйте под ваш VRAM и версию vLLM).
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-ai/DeepSeek-V3.1",
"messages": [{"role": "user", "content": "Спроектируй пошаговый план агента: браузерный tool-use + проверка фактов + финальный ответ с цитатами"}]
}'
Оптимизация
- Агентные сценарии любят длинные контексты — заранее ограничивайте
max-model-lenи число одновременных диалогов - Для продакшена вынесите rate limiting и таймауты на API-gateway; MoE чувствителен к всплескам нагрузки
- Если vLLM не покрывает ваш SLO, рассмотрите TGI на том же кластере — см. документацию образов и совместимость с DeepSeek-V3.1