Falcon 180B — исторический «тяжеловес» от TII: на момент релиза это был один из самых обсуждаемых открытых dense-LLM, поднимавший планку качества на публичных лидербордах и задавая тон дискуссиям про доступность больших моделей. Сегодня её чаще вспоминают как референс эпохи, но для исследований, сравнения методов и legacy-пайплайнов она всё ещё может быть полезна — при условии, что вы готовы к очень дорогому inference. Лицензия Restricted: перед коммерческим использованием обязательно прочитайте условия на странице модели.

Чат-вариант: tiiuae/falcon-180B-chat; исходное окно контекста 2048 токенов (для длинных документов это принципиальное ограничение архитектуры деплоя).

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Falcon 180B в fp16 нужен кластер H100 / H200 (как правило, много карт с высокоскоростным линком). Перейдите в каталог GPU и арендуйте конфигурацию с суммарным VRAM с большим запасом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model tiiuae/falcon-180B-chat \
  --dtype auto \
  --max-model-len 2048 \
  --tensor-parallel-size 8

Точное число GPU подберите под доступные 80GB/96GB карты; tensor-parallel-size должен совпадать с количеством используемых GPU в этом запуске.

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tiiuae/falcon-180B-chat",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

Из-за короткого контекста RAG лучше строить на агрессивном chunking и ранжировании фрагментов, а не на «впихнуть всё в prompt».
На больших TP-топологиях критичны NCCL/транспорт и стабильность драйвера — любые рестарты дорого стоят.
Если цель — скорее качество, чем историческая точность, часто рациональнее сравнить Falcon с современными 70B+/MoE на ваших задачах и замерить price/quality.

Точность	VRAM	Качество	Рекомендация
FP16	360 ГБ	Максимальное	Для продакшена
FP8	180 ГБ	Отличное	Оптимально
INT8	180 ГБ	Хорошее
INT4/Q4	90 ГБ	Приемлемое	Для экспериментов

GPU	VRAM	Поддерживает
Рек. NVIDIA H100 SXM	80 ГБ	FP16, FP8, INT8, INT4	Арендовать
NVIDIA H200 SXM	141 ГБ	FP16, FP8, INT8, INT4	Арендовать

Falcon 180B

VRAM по точности

Совместимые GPU

Рекомендуемые фреймворки

Быстрый старт

Характеристики модели

Технические параметры

Применение

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Шаг 2 — Запустите vLLM

Шаг 3 — Отправьте запрос

Оптимизация