DeepSeek V3.2 (релиз декабрь 2025) — следующий шаг после V3.1 в той же весовой категории: 671 млрд параметров всего, ~37 млрд активных на токен. Ключевая инженерная идея — DeepSeek Sparse Attention (DSA) для более эффективной работы на длинных последовательностях при сохранении качества.

По заявлениям DeepSeek, модель показывает уровень золотых медалей на олимпиадного класса задачах (IMO/IOI 2025 в их коммуникациях) и близка к GPT-5-классу на ряде внутренних и публичных сравнений — трактуйте это как ориентир и проверяйте на своих бенчмарках.

На Hugging Face для «глубокого» reasoning часто используют вариант DeepSeek-V3.2-Speciale; веса обычно в FP8 — не добавляйте --quantization в Docker-команду без проверки совместимости. Деплой — только multi-GPU H100/H200 с tensor parallelism.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Подготовьте кластер из нескольких H100 или H200. Убедитесь в стабильной связности между GPU — иначе tensor parallel даст простои и деградацию throughput.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
  --model deepseek-ai/DeepSeek-V3.2-Speciale \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 32768

Подставьте --tensor-parallel-size N равным числу GPU в узле и пересчитайте под доступный VRAM.

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-ai/DeepSeek-V3.2-Speciale",
    "messages": [{"role": "user", "content": "Реши олимпиадную задачу по комбинаторике: в полном графе из n вершин докажи формулу для числа остовных деревьев"}]
  }'

Оптимизация

Для math/reasoning сначала зафиксируйте умеренный --max-model-len; длинные цепочки мыслей быстро раздувают KV-cache
Следите за версией vLLM: поддержка DSA и MoE-оптимизаций меняется между релизами — при странных OOM обновите образ
Ограничивайте parallel tool-calls на уровне приложения, если строите агента поверх API

Точность	VRAM	Качество	Рекомендация
FP16	700 ГБ	Максимальное	Для продакшена
FP8	350 ГБ	Отличное	Оптимально
INT4/Q4	175 ГБ	Приемлемое	Для экспериментов

GPU	VRAM	Поддерживает
Рек. NVIDIA H100 SXM	80 ГБ	FP16, FP8, INT4	Арендовать
NVIDIA H200 SXM	141 ГБ	FP16, FP8, INT4	Арендовать

DeepSeek V3.2

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация