LLM Restricted

Falcon 180B

180B параметров · Transformer · Контекст 2k · TII · 2023

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 360 ГБ Максимальное Для продакшена
FP8 180 ГБ Отличное Оптимально
INT8 180 ГБ Хорошее
INT4/Q4 90 ГБ Приемлемое Для экспериментов

Совместимые GPU

GPU VRAM Поддерживает
80 ГБ FP16, FP8, INT8, INT4 Арендовать
141 ГБ FP16, FP8, INT8, INT4 Арендовать

Рекомендуемые фреймворки

Быстрый старт

vllm
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model falcon-180B-chat \
  --quantization fp8

Характеристики модели

Технические параметры

Разработчик
TII
Год выпуска
2023
Параметры
180B
Архитектура
Transformer
Контекстное окно
2,048 токенов
Лицензия
Restricted

Применение

Instruction following Text generation Research

Falcon 180B — исторический «тяжеловес» от TII: на момент релиза это был один из самых обсуждаемых открытых dense-LLM, поднимавший планку качества на публичных лидербордах и задавая тон дискуссиям про доступность больших моделей. Сегодня её чаще вспоминают как референс эпохи, но для исследований, сравнения методов и legacy-пайплайнов она всё ещё может быть полезна — при условии, что вы готовы к очень дорогому inference. Лицензия Restricted: перед коммерческим использованием обязательно прочитайте условия на странице модели.

Чат-вариант: tiiuae/falcon-180B-chat; исходное окно контекста 2048 токенов (для длинных документов это принципиальное ограничение архитектуры деплоя).

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Для Falcon 180B в fp16 нужен кластер H100 / H200 (как правило, много карт с высокоскоростным линком). Перейдите в каталог GPU и арендуйте конфигурацию с суммарным VRAM с большим запасом.

Шаг 2 — Запустите vLLM

docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model tiiuae/falcon-180B-chat \
  --dtype auto \
  --max-model-len 2048 \
  --tensor-parallel-size 8

Точное число GPU подберите под доступные 80GB/96GB карты; tensor-parallel-size должен совпадать с количеством используемых GPU в этом запуске.

Шаг 3 — Отправьте запрос

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tiiuae/falcon-180B-chat",
    "messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
  }'

Оптимизация

  • Из-за короткого контекста RAG лучше строить на агрессивном chunking и ранжировании фрагментов, а не на «впихнуть всё в prompt».
  • На больших TP-топологиях критичны NCCL/транспорт и стабильность драйвера — любые рестарты дорого стоят.
  • Если цель — скорее качество, чем историческая точность, часто рациональнее сравнить Falcon с современными 70B+/MoE на ваших задачах и замерить price/quality.