Falcon 180B
180B параметров · Transformer · Контекст 2k · TII · 2023
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 360 ГБ | Максимальное | Для продакшена |
| FP8 | 180 ГБ | Отличное | Оптимально |
| INT8 | 180 ГБ | Хорошее | |
| INT4/Q4 | 90 ГБ | Приемлемое | Для экспериментов |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA H100 SXM
|
80 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
| 141 ГБ | FP16, FP8, INT8, INT4 | Арендовать |
Рекомендуемые фреймворки
Быстрый старт
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \ --model falcon-180B-chat \ --quantization fp8
Характеристики модели
Технические параметры
- Разработчик
- TII
- Год выпуска
- 2023
- Параметры
- 180B
- Архитектура
- Transformer
- Контекстное окно
- 2,048 токенов
- Лицензия
- Restricted
Применение
Falcon 180B — исторический «тяжеловес» от TII: на момент релиза это был один из самых обсуждаемых открытых dense-LLM, поднимавший планку качества на публичных лидербордах и задавая тон дискуссиям про доступность больших моделей. Сегодня её чаще вспоминают как референс эпохи, но для исследований, сравнения методов и legacy-пайплайнов она всё ещё может быть полезна — при условии, что вы готовы к очень дорогому inference. Лицензия Restricted: перед коммерческим использованием обязательно прочитайте условия на странице модели.
Чат-вариант: tiiuae/falcon-180B-chat; исходное окно контекста 2048 токенов (для длинных документов это принципиальное ограничение архитектуры деплоя).
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Для Falcon 180B в fp16 нужен кластер H100 / H200 (как правило, много карт с высокоскоростным линком). Перейдите в каталог GPU и арендуйте конфигурацию с суммарным VRAM с большим запасом.
Шаг 2 — Запустите vLLM
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
--model tiiuae/falcon-180B-chat \
--dtype auto \
--max-model-len 2048 \
--tensor-parallel-size 8
Точное число GPU подберите под доступные 80GB/96GB карты; tensor-parallel-size должен совпадать с количеством используемых GPU в этом запуске.
Шаг 3 — Отправьте запрос
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "tiiuae/falcon-180B-chat",
"messages": [{"role": "user", "content": "Привет! Расскажи о себе."}]
}'
Оптимизация
- Из-за короткого контекста RAG лучше строить на агрессивном chunking и ранжировании фрагментов, а не на «впихнуть всё в prompt».
- На больших TP-топологиях критичны NCCL/транспорт и стабильность драйвера — любые рестарты дорого стоят.
- Если цель — скорее качество, чем историческая точность, часто рациональнее сравнить Falcon с современными 70B+/MoE на ваших задачах и замерить price/quality.