VRAM по точности

Точность	VRAM	Качество	Рекомендация
FP16	440 ГБ	Максимальное	Для продакшена
FP8	220 ГБ	Отличное	Оптимально
INT8	220 ГБ	Хорошее
INT4/Q4	110 ГБ	Приемлемое	Для экспериментов

Совместимые GPU

GPU	VRAM	Поддерживает
Рек. NVIDIA H100 SXM	80 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA H200 SXM	141 ГБ	FP16, FP8, INT8, INT4	Арендовать

Характеристики модели

Технические параметры

Разработчик: DeepSeek
Год выпуска: 2024
Параметры: 236B
Архитектура: MoE
Контекстное окно: 128,000 токенов
Лицензия: MIT

Применение

Code generation Code completion Debugging Code review

DeepSeek Coder V2 Instruct — MoE-модель для кода: 236B всего и около 21B активных параметров на токен, поэтому она заметно мощнее типичных dense 34B, оставаясь дешевле в сервисинге, чем «полные» 200B+ dense стеки. Сильна в генерации, рефакторинге, отладке и длинных репозиторных контекстах.

Контекст 128k, лицензия MIT; для fp8 нужен multi-GPU кластер класса нескольких H100/H200.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для DeepSeek Coder V2 в fp8 (порядка 220 ГБ под веса) планируйте несколько H100 80 ГБ или H200 с быстрым линком. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model deepseek-ai/DeepSeek-Coder-V2-Instruct \
  --dtype auto \
  --tensor-parallel-size 4 \
  --max-model-len 65536

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-ai/DeepSeek-Coder-V2-Instruct",
    "messages": [{"role": "user", "content": "Напиши функцию на Python для сортировки списка словарей по ключу \"score\" по убыванию, с тай-брейком по \"name\"."}]
  }'

Оптимизация

Для длинных файлов уменьшайте --max-model-len или разбивайте запросы — KV-cache растёт с размером промпта.
Увеличивайте --tensor-parallel-size, если не хватает памяти при большем batch или контексте.
В production задайте лимиты на вывод и используйте structured output (JSON schema), если интегрируете в CI/IDE.

DeepSeek Coder V2