VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	700 ГБ	Максимальное	Для продакшена
FP8	350 ГБ	Отличное	Оптимально
INT8	350 ГБ	Хорошее
INT4/Q4	175 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA H100 SXM	80 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA H200 SXM	141 ГБ	FP16, FP8, INT8, INT4	Арендовать

Характеристики модели

Технические параметры

Разработчик: DeepSeek
Год выпуска: 2024
Параметры: 685B
Архитектура: MoE
Контекстное окно: 128,000 токенов
Лицензия: MIT

Применение

Code generation Instruction following Reasoning Research

DeepSeek V3 — флагманский MoE-LLM DeepSeek: 685B параметров, но на каждом токене активны лишь около 37B, что делает inference сопоставимым по стоимости с классом «сотни B dense» при качестве уровня GPT-4o/Claude Sonnet на ряде coding и general задач.

Контекст 128k, лицензия MIT; локальный деплой по сути всегда multi-GPU с tensor parallel на H100/H200.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для DeepSeek V3 в fp8 (порядка 350 ГБ под веса) нужен кластер из нескольких H100 80 ГБ или H200. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

Подставьте --tensor-parallel-size, равный числу доступных GPU (часто 8× H100):

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model deepseek-ai/DeepSeek-V3 \
  --dtype auto \
  --tensor-parallel-size 8 \
  --max-model-len 32768

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-ai/DeepSeek-V3",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе: чем ты полезен разработчику и какие задачи лучше не поручать локальной 7B-модели?"}]
  }'

Оптимизация

MoE: следите за эксперт-параллелизмом и рекомендациями vLLM для конкретной ревизии модели.
Начните с умеренного контекста; 128k теоретически доступен, но KV-cache на полном окне быстро съедает память.
Настраивайте batching под SLA: высокий concurrency на таких весах почти всегда требует горизонтального масштабирования.

DeepSeek V3