CodeLlama 34B
34B параметров · Transformer · Контекст 100k · Meta · 2023
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 68 ГБ | Максимальное | Для продакшена |
| FP8 | 34 ГБ | Отличное | Оптимально |
| INT8 | 34 ГБ | Хорошее | |
| INT4/Q4 | 17 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model CodeLlama-34b-Instruct-hf \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Meta
- Год выпуска
- 2023
- Параметры
- 34B
- Архитектура
- Transformer
- Контекстное окно
- 100,000 токенов
- Лицензия
- Llama
Применение
CodeLlama 34B Instruct — кодовая специализация Meta на базе Llama 2: хорошо понимает десятки языков программирования, умеет fill-in-the-middle и типичные IDE-сценарии (дополнение, объяснение, отладка). Даже в 2026 году остаётся рабочим выбором, если нужна проверенная модель под легаси-стек или совместимость с существующими пайплайнами.
Контекст до 100k токенов; fp16 ~68 ГБ и fp8 ~34 ГБ — комфортнее на H100/A100 80 ГБ, на RTX 4090 (24 ГБ) реалистичны int4/Q4 веса (~17 ГБ) при компромиссах по качеству.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для CodeLlama 34B в fp8 рекомендуем H100 или A100 80 ГБ; на RTX 4090 планируйте квантованную сборку. Перейдите в каталог GPU и арендуйте инстанс с Docker-образом.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model meta-llama/CodeLlama-34b-Instruct-hf \
--dtype auto \
--max-model-len 32768
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/CodeLlama-34b-Instruct-hf",
"messages": [{"role": "user", "content": "Напиши функцию на Python для сортировки списка"}]
}'
Альтернативно, используйте Ollama для быстрого старта:
ollama run codellama:34b
Оптимизация
- Для FIM/инфилла используйте специализированные шаблоны промпта (prefix/middle/suffix), а не обычный чат.
- На 24 ГБ VRAM снижайте
--max-model-lenи используйте AWQ/GPTQ; следите за регрессией качества. - Если нужен современный coding-SOTA, сравните с Qwen 2.5 Coder / DeepSeek Coder — CodeLlama оставьте там, где важна стабильность интеграции.