Llama.cpp
Лёгкий инференс LLM на CPU и GPU — запускайте модели в формате GGUF без сложной настройки.
LLM-инференс
Linux
от 8 ГБ VRAM
Для кого
Разработчики и энтузиасты, которым нужен лёгкий и гибкий инференс LLM без тяжёлых фреймворков.
Что внутри
- llama.cpp скомпилирован с CUDA — GPU-ускорение из коробки
- llama-server — встроенный HTTP-сервер с OpenAI-совместимым API
- Поддержка GGUF-моделей с различными уровнями квантизации (Q4, Q5, Q8)
Как начать
- Запустите инстанс с этим шаблоном
- Скачайте GGUF-модель (например, с HuggingFace)
- Запустите
llama-server -m model.gguf --port 8080 -ngl 99
Рекомендации по GPU
- 8–12 ГБ VRAM — модели 7B в Q4/Q5 квантизации
- 24 ГБ VRAM — модели до 34B (квантизованные)
- 40+ ГБ VRAM — 70B модели
Предустановленное ПО
Ubuntu 22.04
CUDA 12.x
llama.cpp
llama-server
Подробное руководство: читать в разделе «Решения» →
Готовы запустить Llama.cpp?
Запустить GPU-сервер