DeepSeek V3
685B параметров · MoE · Контекст 128k · DeepSeek · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 700 ГБ | Максимальное | Для продакшена |
| FP8 | 350 ГБ | Отличное | Оптимально |
| INT8 | 350 ГБ | Хорошее | |
| INT4/Q4 | 175 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 141 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model DeepSeek-V3 \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- DeepSeek
- Год выпуска
- 2024
- Параметры
- 685B
- Архитектура
- MoE
- Контекстное окно
- 128,000 токенов
- Лицензия
- MIT
Применение
DeepSeek V3 — флагманский MoE-LLM DeepSeek: 685B параметров, но на каждом токене активны лишь около 37B, что делает inference сопоставимым по стоимости с классом «сотни B dense» при качестве уровня GPT-4o/Claude Sonnet на ряде coding и general задач.
Контекст 128k, лицензия MIT; локальный деплой по сути всегда multi-GPU с tensor parallel на H100/H200.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для DeepSeek V3 в fp8 (порядка 350 ГБ под веса) нужен кластер из нескольких H100 80 ГБ или H200. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.
Шаг 2 — Запустите vLLM
Подставьте --tensor-parallel-size, равный числу доступных GPU (часто 8× H100):
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model deepseek-ai/DeepSeek-V3 \
--dtype auto \
--tensor-parallel-size 8 \
--max-model-len 32768
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-ai/DeepSeek-V3",
"messages": [{"role": "user", "content": "Привет! Расскажи о себе: чем ты полезен разработчику и какие задачи лучше не поручать локальной 7B-модели?"}]
}'
Оптимизация
- MoE: следите за эксперт-параллелизмом и рекомендациями vLLM для конкретной ревизии модели.
- Начните с умеренного контекста; 128k теоретически доступен, но KV-cache на полном окне быстро съедает память.
- Настраивайте batching под SLA: высокий concurrency на таких весах почти всегда требует горизонтального масштабирования.