Yi 1.5 34B
34B параметров · Transformer · Контекст 200k · 01.AI · 2024
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 68 ГБ | Максимальное | Для продакшена |
| FP8 | 34 ГБ | Отличное | Оптимально |
| INT8 | 34 ГБ | Хорошее | |
| INT4/Q4 | 17 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 80 ГБ | FP16, FP8, INT8, INT4 | Арендовать | |
| 24 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model Yi-1.5-34B-Chat \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- 01.AI
- Год выпуска
- 2024
- Параметры
- 34B
- Архитектура
- Transformer
- Контекстное окно
- 200,000 токенов
- Лицензия
- Apache-2.0
Применение
Yi 1.5 34B от 01.AI выделяется прежде всего экстремально длинным контекстом (до 200k) и сильной многоязычностью, где особенно заметен тандем китайский/английский. Для корпоративных знаний, юридических/финансовых пачек документов и исследовательских корпусов это ценно: можно работать с «длинной простынёй» текста без немедленного разбиения на десятки вызовов. При этом по памяти это уже серьёзный 34B-класс — планируйте железо и max context как инженерный компромисс, а не как маркетинговое число.
Чат-модель: 01-ai/Yi-1.5-34B-Chat (Apache-2.0).
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
В карточке модели для FP16 указано ~68 ГБ VRAM под веса — это суммарный ориентир. При tensor parallel на 2 GPU на каждую карту приходится порядка ~34 ГБ только под веса (плюс запас под KV и контекст), поэтому двух RTX 4090 по 24 ГБ для честного fp16 недостаточно. Для FP16 ориентируйтесь на одну H100 или A100 (80 ГБ), либо на конфигурацию нескольких GPU, где на реплику/шард хватает ≥ ~34 ГБ (например несколько карт с большим объёмом памяти и корректным sharding в vLLM). Для FP8 (~34 ГБ) и INT4 (~17 ГБ) порог ниже — см. таблицу VRAM на странице модели; RTX 4090 разумен уже в квантованных режимах, а не как целевая карта под строку FP16.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model 01-ai/Yi-1.5-34B-Chat \
--dtype auto \
--max-model-len 131072
Для контекстов ближе к 200k увеличивайте --max-model-len постепенно и мониторьте память; на потребительских 24 ГБ-картах без квантизации и без достаточного суммарного объёма под шардирование длинный контекст в fp16 часто нереалистичен.
Альтернативно, для быстрого старта используйте Ollama:
ollama run yi:1.5-34b-chat
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "01-ai/Yi-1.5-34B-Chat",
"messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
}'
Оптимизация
- Длинный контекст дороже всего обходится KV-cache: снижайте concurrency и избегайте «случайных» повторов одних и тех же длинных system-блоков.
- Для многоязычных задач явно фиксируйте язык ответа — иначе модель может переключаться в неожиданную локаль.
- Если упираетесь в VRAM, начните с 32k–64k effective context и оцените recall на вашем RAG — иногда это оптимальнее, чем гнаться за 200k.