VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	700 ГБ	Максимальное	Для продакшена
FP8	350 ГБ	Отличное	Оптимально
INT4/Q4	175 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU

VRAM

Поддерживает

Рек. NVIDIA H100 SXM

80 ГБ

FP16, FP8, INT4

Арендовать

NVIDIA H200 SXM

141 ГБ

FP16, FP8, INT4

Арендовать

Характеристики модели

Технические параметры

Разработчик: DeepSeek
Год выпуска: 2025
Параметры: 671B
Архитектура: MoE
Контекстное окно: 128,000 токенов
Лицензия: MIT

Применение

Code generation Reasoning Agents Research

DeepSeek V3.1 — эволюция DeepSeek V3: 671 млрд параметров всего, ~37 млрд активных на токен в MoE-стеке. Помимо качества на code/reasoning, релиз делает ставку на tool use и агентные сценарии: по заявлениям DeepSeek, это заметный шаг к «эре агентов» в их open-weight линейке.

Гибридные режимы thinking / non-thinking позволяют переключать глубину рассуждений под задачу — от интерактивного чата до тяжёлых research-пайплайнов.

Локально модель остаётся прерогативой multi-GPU H100/H200; альтернативно для enterprise-стека можно смотреть TGI (Hugging Face Text Generation Inference), если vLLM не подходит по эксплуатационным причинам. На Hugging Face ориентируйтесь на FP8-чекпойнты и не добавляйте --quantization в Docker без явной необходимости.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Возьмите узел из нескольких H100 или H200 с быстрым меж-GPU каналом. Одиночная карта для полноформатного деплоя, как правило, не подходит.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
  --model deepseek-ai/DeepSeek-V3.1 \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 32768

--tensor-parallel-size N выставьте по числу GPU (часто 8×80GB; уточняйте под ваш VRAM и версию vLLM).

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-ai/DeepSeek-V3.1",
    "messages": [{"role": "user", "content": "Спроектируй пошаговый план агента: браузерный tool-use + проверка фактов + финальный ответ с цитатами"}]
  }'

Оптимизация

Агентные сценарии любят длинные контексты — заранее ограничивайте max-model-len и число одновременных диалогов
Для продакшена вынесите rate limiting и таймауты на API-gateway; MoE чувствителен к всплескам нагрузки
Если vLLM не покрывает ваш SLO, рассмотрите TGI на том же кластере — см. документацию образов и совместимость с DeepSeek-V3.1

DeepSeek V3.1