Yi 1.5 34B от 01.AI выделяется прежде всего экстремально длинным контекстом (до 200k) и сильной многоязычностью, где особенно заметен тандем китайский/английский. Для корпоративных знаний, юридических/финансовых пачек документов и исследовательских корпусов это ценно: можно работать с «длинной простынёй» текста без немедленного разбиения на десятки вызовов. При этом по памяти это уже серьёзный 34B-класс — планируйте железо и max context как инженерный компромисс, а не как маркетинговое число.

Чат-модель: 01-ai/Yi-1.5-34B-Chat (Apache-2.0).

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

В карточке модели для FP16 указано ~68 ГБ VRAM под веса — это суммарный ориентир. При tensor parallel на 2 GPU на каждую карту приходится порядка ~34 ГБ только под веса (плюс запас под KV и контекст), поэтому двух RTX 4090 по 24 ГБ для честного fp16 недостаточно. Для FP16 ориентируйтесь на одну H100 или A100 (80 ГБ), либо на конфигурацию нескольких GPU, где на реплику/шард хватает ≥ ~34 ГБ (например несколько карт с большим объёмом памяти и корректным sharding в vLLM). Для FP8 (~34 ГБ) и INT4 (~17 ГБ) порог ниже — см. таблицу VRAM на странице модели; RTX 4090 разумен уже в квантованных режимах, а не как целевая карта под строку FP16.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model 01-ai/Yi-1.5-34B-Chat \
  --dtype auto \
  --max-model-len 131072

Для контекстов ближе к 200k увеличивайте --max-model-len постепенно и мониторьте память; на потребительских 24 ГБ-картах без квантизации и без достаточного суммарного объёма под шардирование длинный контекст в fp16 часто нереалистичен.

Альтернативно, для быстрого старта используйте Ollama:

ollama run yi:1.5-34b-chat

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "01-ai/Yi-1.5-34B-Chat",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

Длинный контекст дороже всего обходится KV-cache: снижайте concurrency и избегайте «случайных» повторов одних и тех же длинных system-блоков.
Для многоязычных задач явно фиксируйте язык ответа — иначе модель может переключаться в неожиданную локаль.
Если упираетесь в VRAM, начните с 32k–64k effective context и оцените recall на вашем RAG — иногда это оптимальнее, чем гнаться за 200k.

Точность	VRAM	Качество	Рекомендация
FP16	68 ГБ	Максимальное	Для продакшена
FP8	34 ГБ	Отличное	Оптимально
INT8	34 ГБ	Хорошее
INT4/Q4	17 ГБ	Приемлемое	Для экспериментов

GPU	VRAM	Поддерживает
Рек. NVIDIA H100 SXM	80 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA A100	80 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA RTX 4090	24 ГБ	FP16, FP8, INT8, INT4	Арендовать

Yi 1.5 34B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация