Codestral 22B
22B параметров · Transformer · Контекст 33k · Mistral AI · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 44 ГБ | Максимальное | Для продакшена |
| FP8 | 22 ГБ | Отличное | Оптимально |
| INT8 | 22 ГБ | Хорошее | |
| INT4/Q4 | 11 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Codestral-22B-v0.1 \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- Mistral AI
- Год выпуска
- 2024
- Параметры
- 22B
- Архитектура
- Transformer
- Контекстное окно
- 32,768 токенов
- Лицензия
- Restricted
Применение
Codestral 22B — «рабочая станция» Mistral для разработчиков: модель заточена под code completion, генерацию патчей и fill-in-the-middle, покрывает 80+ языков и хорошо чувствует себя в IDE-подобных сценариях с узким контекстом файла. Если вам нужна не «болтливая болтушка», а предсказуемая генерация кода с уважением к локальному стилю репозитория, Codestral часто оказывается сильнее универсальных instruct той же весовой категории. Лицензия Restricted — проверьте условия перед коммерческим применением.
Чекпоинт: mistralai/Codestral-22B-v0.1, контекст 32k.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Codestral 22B в fp16 рекомендуем RTX 4090 (часто впритык) или A100 / H100 с запасом. Перейдите в каталог GPU и арендуйте инстанс.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model mistralai/Codestral-22B-v0.1 \
--dtype auto \
--max-model-len 32768
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "mistralai/Codestral-22B-v0.1",
"messages": [{"role": "user", "content": "Напиши функцию на Python для бинарного поиска"}]
}'
Оптимизация
- Давайте модели минимальный, но достаточный контекст: сигнатуры, типы, соседние функции — без простыни всего репозитория.
- Низкий temperature обычно лучше для completion; для рефакторинга иногда полезен чуть более высокий, но с жёстким пост-линтером.
- Если latency критичен, разнесите «маленькие дополнения» и «большие генерации» по разным лимитам токенов на уровне API-шлюза.