LLM MIT

DeepSeek V3.1

671B параметров · MoE · Контекст 128k · DeepSeek · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 700 ГБ Максимальное Для продакшена
FP8 350 ГБ Отличное Оптимально
INT4/Q4 175 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT4 Арендовать
141 ГБ FP16, FP8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model DeepSeek-V3.1 \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
DeepSeek
Год выпуска
2025
Параметры
671B
Архитектура
MoE
Контекстное окно
128,000 токенов
Лицензия
MIT

Применение

Code generation Reasoning Agents Research

DeepSeek V3.1 — эволюция DeepSeek V3: 671 млрд параметров всего, ~37 млрд активных на токен в MoE-стеке. Помимо качества на code/reasoning, релиз делает ставку на tool use и агентные сценарии: по заявлениям DeepSeek, это заметный шаг к «эре агентов» в их open-weight линейке.

Гибридные режимы thinking / non-thinking позволяют переключать глубину рассуждений под задачу — от интерактивного чата до тяжёлых research-пайплайнов.

Локально модель остаётся прерогативой multi-GPU H100/H200; альтернативно для enterprise-стека можно смотреть TGI (Hugging Face Text Generation Inference), если vLLM не подходит по эксплуатационным причинам. На Hugging Face ориентируйтесь на FP8-чекпойнты и не добавляйте --quantization в Docker без явной необходимости.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Возьмите узел из нескольких H100 или H200 с быстрым меж-GPU каналом. Одиночная карта для полноформатного деплоя, как правило, не подходит.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
  --model deepseek-ai/DeepSeek-V3.1 \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 32768

--tensor-parallel-size N выставьте по числу GPU (часто 8×80GB; уточняйте под ваш VRAM и версию vLLM).

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-ai/DeepSeek-V3.1",
    "messages": [{"role": "user", "content": "Спроектируй пошаговый план агента: браузерный tool-use + проверка фактов + финальный ответ с цитатами"}]
  }'

Оптимизация

  • Агентные сценарии любят длинные контексты — заранее ограничивайте max-model-len и число одновременных диалогов
  • Для продакшена вынесите rate limiting и таймауты на API-gateway; MoE чувствителен к всплескам нагрузки
  • Если vLLM не покрывает ваш SLO, рассмотрите TGI на том же кластере — см. документацию образов и совместимость с DeepSeek-V3.1