Inference
GGUF
Формат файла для квантизованных моделей, используемый llama.cpp и совместимыми движками.
Что такое GGUF
GGUF (GPT-Generated Unified Format) — бинарный формат хранения весов LLM, разработанный для проекта llama.cpp. Пришёл на смену устаревшему GGML-формату в августе 2023 года.
Один GGUF-файл содержит всё необходимое для запуска модели: веса (с квантизацией или без), метаданные архитектуры, шаблоны промптов, токенизатор и специальные токены. Это делает деплой максимально простым — один файл вместо директории с несколькими бинарниками и конфигами.
Форматы квантизации
| Формат | Бит/вес | Размер 7B | Качество |
|---|---|---|---|
| F16 | 16 | ~14 ГБ | Эталонное |
| Q8_0 | 8 | ~7.7 ГБ | Почти F16 |
| Q5_K_M | ~5.5 | ~4.8 ГБ | Отличное |
| Q4_K_M | ~4.5 | ~4.1 ГБ | Оптимум |
| Q3_K_M | ~3.5 | ~3.3 ГБ | Приемлемое |
| Q2_K | ~2.5 | ~2.7 ГБ | Заметные потери |
Q4_K_M — де-факто стандарт для большинства задач: минимальные потери качества при вдвое меньшей VRAM по сравнению с F16.
Где скачать GGUF-модели
Крупнейший источник — HuggingFace, репозитории bartowski и TheBloke:
# Через huggingface-cli
pip install huggingface_hub
huggingface-cli download \
bartowski/Llama-3.2-3B-Instruct-GGUF \
Llama-3.2-3B-Instruct-Q4_K_M.gguf \
--local-dir models/
Конвертация собственной модели
# Конвертация HF-модели в GGUF F16
python3 convert_hf_to_gguf.py ./my-model --outfile my-model-f16.gguf
# Квантизация в Q4_K_M
./quantize my-model-f16.gguf my-model-q4km.gguf Q4_K_M
Связанные термины
- llama.cpp — основной движок для GGUF
- квантизация — процесс, создающий GGUF-файлы
- Ollama — использует GGUF внутри
Готовы запустить GPU-задачу?
Запустить GPU-сервер