Llama.cpp

Лёгкий инференс LLM на CPU и GPU — запускайте модели в формате GGUF без сложной настройки.

LLM-инференс Linux от 8 ГБ VRAM

Для кого

Разработчики и энтузиасты, которым нужен лёгкий и гибкий инференс LLM без тяжёлых фреймворков.

Что внутри

llama.cpp скомпилирован с CUDA — GPU-ускорение из коробки
llama-server — встроенный HTTP-сервер с OpenAI-совместимым API
Поддержка GGUF-моделей с различными уровнями квантизации (Q4, Q5, Q8)

Как начать

Запустите инстанс с этим шаблоном
Укажите модель через переменную LLAMA_MODEL (по умолчанию — Qwen3.5-35B-A3B GGUF)
API и UI доступны на порту 8000

Рекомендации по GPU

8–12 ГБ VRAM — модели 7B в Q4/Q5 квантизации
24 ГБ VRAM — модели до 34B (квантизованные)
40+ ГБ VRAM — 70B модели

Предустановленное ПО

Ubuntu 22.04 CUDA 12.9 llama.cpp llama-server

Рекомендуемые GPU

RTX 4090 RTX 3090 A100 40GB

Подробное руководство: читать в разделе «Решения» →

Готовы запустить Llama.cpp?

Запустить GPU-сервер