Qwen 2.5 Coder 32B
32B параметров · Transformer · Контекст 128k · Alibaba · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 64 ГБ | Максимальное | Для продакшена |
| FP8 | 32 ГБ | Отличное | Оптимально |
| INT8 | 32 ГБ | Хорошее | |
| INT4/Q4 | 16 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Qwen2.5-Coder-32B-Instruct \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Alibaba
- Год выпуска
- 2024
- Параметры
- 32B
- Архитектура
- Transformer
- Контекстное окно
- 128,000 токенов
- Лицензия
- Apache-2.0
Применение
Qwen 2.5 Coder 32B Instruct — ориентированная на код ветка Qwen 2.5: сильна в генерации, ревью, рефакторинге и agentic-сценариях, где модель вызывает инструменты и держит большой контекст репозитория. По ряду бенчмарков уровень близок к топовым closed-source моделям при открытой лицензии.
Dense Transformer, контекст 128k, Apache-2.0; в fp8 укладывается в одну H100 80 ГБ, на RTX 4090 — с квантизацией или коротким контекстом.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Qwen 2.5 Coder 32B в fp8 рекомендуем H100 или A100 80 ГБ; для экспериментов на 24 ГБ — квантованные веса. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model Qwen/Qwen2.5-Coder-32B-Instruct \
--dtype auto \
--max-model-len 65536
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen2.5-Coder-32B-Instruct",
"messages": [{"role": "user", "content": "Напиши функцию на Python для сортировки списка слов по длине, при равной длине — лексикографически."}]
}'
Альтернативно, используйте Ollama для быстрого старта:
ollama run qwen2.5-coder:32b