LLM Apache-2.0

Yi 1.5 34B

34B параметров · Transformer · Контекст 200k · 01.AI · 2024

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 68 ГБ Максимальное Для продакшена
FP8 34 ГБ Отличное Оптимально
INT8 34 ГБ Хорошее
INT4/Q4 17 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT8, INT4 Арендовать
80 ГБ FP16, FP8, INT8, INT4 Арендовать
24 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model Yi-1.5-34B-Chat \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
01.AI
Год выпуска
2024
Параметры
34B
Архитектура
Transformer
Контекстное окно
200,000 токенов
Лицензия
Apache-2.0

Применение

Instruction following Reasoning Long context processing Multilingual tasks

Yi 1.5 34B от 01.AI выделяется прежде всего экстремально длинным контекстом (до 200k) и сильной многоязычностью, где особенно заметен тандем китайский/английский. Для корпоративных знаний, юридических/финансовых пачек документов и исследовательских корпусов это ценно: можно работать с «длинной простынёй» текста без немедленного разбиения на десятки вызовов. При этом по памяти это уже серьёзный 34B-класс — планируйте железо и max context как инженерный компромисс, а не как маркетинговое число.

Чат-модель: 01-ai/Yi-1.5-34B-Chat (Apache-2.0).

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

В карточке модели для FP16 указано ~68 ГБ VRAM под веса — это суммарный ориентир. При tensor parallel на 2 GPU на каждую карту приходится порядка ~34 ГБ только под веса (плюс запас под KV и контекст), поэтому двух RTX 4090 по 24 ГБ для честного fp16 недостаточно. Для FP16 ориентируйтесь на одну H100 или A100 (80 ГБ), либо на конфигурацию нескольких GPU, где на реплику/шард хватает ≥ ~34 ГБ (например несколько карт с большим объёмом памяти и корректным sharding в vLLM). Для FP8 (~34 ГБ) и INT4 (~17 ГБ) порог ниже — см. таблицу VRAM на странице модели; RTX 4090 разумен уже в квантованных режимах, а не как целевая карта под строку FP16.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model 01-ai/Yi-1.5-34B-Chat \
  --dtype auto \
  --max-model-len 131072

Для контекстов ближе к 200k увеличивайте --max-model-len постепенно и мониторьте память; на потребительских 24 ГБ-картах без квантизации и без достаточного суммарного объёма под шардирование длинный контекст в fp16 часто нереалистичен.

Альтернативно, для быстрого старта используйте Ollama:

ollama run yi:1.5-34b-chat

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "01-ai/Yi-1.5-34B-Chat",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

  • Длинный контекст дороже всего обходится KV-cache: снижайте concurrency и избегайте «случайных» повторов одних и тех же длинных system-блоков.
  • Для многоязычных задач явно фиксируйте язык ответа — иначе модель может переключаться в неожиданную локаль.
  • Если упираетесь в VRAM, начните с 32k–64k effective context и оцените recall на вашем RAG — иногда это оптимальнее, чем гнаться за 200k.