LLM MIT

DeepSeek V3.2

671B параметров · MoE · Контекст 128k · DeepSeek · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 700 ГБ Максимальное Для продакшена
FP8 350 ГБ Отличное Оптимально
INT4/Q4 175 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT4 Арендовать
141 ГБ FP16, FP8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model DeepSeek-V3.2-Speciale \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
DeepSeek
Год выпуска
2025
Параметры
671B
Архитектура
MoE
Контекстное окно
128,000 токенов
Лицензия
MIT

Применение

Reasoning Math Code generation Research

DeepSeek V3.2 (релиз декабрь 2025) — следующий шаг после V3.1 в той же весовой категории: 671 млрд параметров всего, ~37 млрд активных на токен. Ключевая инженерная идея — DeepSeek Sparse Attention (DSA) для более эффективной работы на длинных последовательностях при сохранении качества.

По заявлениям DeepSeek, модель показывает уровень золотых медалей на олимпиадного класса задачах (IMO/IOI 2025 в их коммуникациях) и близка к GPT-5-классу на ряде внутренних и публичных сравнений — трактуйте это как ориентир и проверяйте на своих бенчмарках.

На Hugging Face для «глубокого» reasoning часто используют вариант DeepSeek-V3.2-Speciale; веса обычно в FP8 — не добавляйте --quantization в Docker-команду без проверки совместимости. Деплой — только multi-GPU H100/H200 с tensor parallelism.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Подготовьте кластер из нескольких H100 или H200. Убедитесь в стабильной связности между GPU — иначе tensor parallel даст простои и деградацию throughput.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
  --model deepseek-ai/DeepSeek-V3.2-Speciale \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 32768

Подставьте --tensor-parallel-size N равным числу GPU в узле и пересчитайте под доступный VRAM.

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-ai/DeepSeek-V3.2-Speciale",
    "messages": [{"role": "user", "content": "Реши олимпиадную задачу по комбинаторике: в полном графе из n вершин докажи формулу для числа остовных деревьев"}]
  }'

Оптимизация

  • Для math/reasoning сначала зафиксируйте умеренный --max-model-len; длинные цепочки мыслей быстро раздувают KV-cache
  • Следите за версией vLLM: поддержка DSA и MoE-оптимизаций меняется между релизами — при странных OOM обновите образ
  • Ограничивайте parallel tool-calls на уровне приложения, если строите агента поверх API