DeepSeek V3.2
671B параметров · MoE · Контекст 128k · DeepSeek · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 700 ГБ | Максимальное | Для продакшена |
| FP8 | 350 ГБ | Отличное | Оптимально |
| INT4/Q4 | 175 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT4 | Арендовать |
| 141 ГБ | FP16, FP8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model DeepSeek-V3.2-Speciale \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- DeepSeek
- Год выпуска
- 2025
- Параметры
- 671B
- Архитектура
- MoE
- Контекстное окно
- 128,000 токенов
- Лицензия
- MIT
Применение
DeepSeek V3.2 (релиз декабрь 2025) — следующий шаг после V3.1 в той же весовой категории: 671 млрд параметров всего, ~37 млрд активных на токен. Ключевая инженерная идея — DeepSeek Sparse Attention (DSA) для более эффективной работы на длинных последовательностях при сохранении качества.
По заявлениям DeepSeek, модель показывает уровень золотых медалей на олимпиадного класса задачах (IMO/IOI 2025 в их коммуникациях) и близка к GPT-5-классу на ряде внутренних и публичных сравнений — трактуйте это как ориентир и проверяйте на своих бенчмарках.
На Hugging Face для «глубокого» reasoning часто используют вариант DeepSeek-V3.2-Speciale; веса обычно в FP8 — не добавляйте --quantization в Docker-команду без проверки совместимости. Деплой — только multi-GPU H100/H200 с tensor parallelism.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Подготовьте кластер из нескольких H100 или H200. Убедитесь в стабильной связности между GPU — иначе tensor parallel даст простои и деградацию throughput.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 --shm-size=16g vllm/vllm-openai:latest \
--model deepseek-ai/DeepSeek-V3.2-Speciale \
--dtype auto \
--tensor-parallel-size 8 \
--max-model-len 32768
Подставьте --tensor-parallel-size N равным числу GPU в узле и пересчитайте под доступный VRAM.
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-ai/DeepSeek-V3.2-Speciale",
"messages": [{"role": "user", "content": "Реши олимпиадную задачу по комбинаторике: в полном графе из n вершин докажи формулу для числа остовных деревьев"}]
}'
Оптимизация
- Для math/reasoning сначала зафиксируйте умеренный
--max-model-len; длинные цепочки мыслей быстро раздувают KV-cache - Следите за версией vLLM: поддержка DSA и MoE-оптимизаций меняется между релизами — при странных OOM обновите образ
- Ограничивайте parallel tool-calls на уровне приложения, если строите агента поверх API