Llama.cpp

Лёгкий инференс LLM на CPU и GPU — запускайте модели в формате GGUF без сложной настройки.

LLM-инференс Linux от 8 ГБ VRAM

Для кого

Разработчики и энтузиасты, которым нужен лёгкий и гибкий инференс LLM без тяжёлых фреймворков.

Что внутри

  • llama.cpp скомпилирован с CUDA — GPU-ускорение из коробки
  • llama-server — встроенный HTTP-сервер с OpenAI-совместимым API
  • Поддержка GGUF-моделей с различными уровнями квантизации (Q4, Q5, Q8)

Как начать

  1. Запустите инстанс с этим шаблоном
  2. Скачайте GGUF-модель (например, с HuggingFace)
  3. Запустите llama-server -m model.gguf --port 8080 -ngl 99

Рекомендации по GPU

  • 8–12 ГБ VRAM — модели 7B в Q4/Q5 квантизации
  • 24 ГБ VRAM — модели до 34B (квантизованные)
  • 40+ ГБ VRAM — 70B модели

Предустановленное ПО

Ubuntu 22.04 CUDA 12.x llama.cpp llama-server

Рекомендуемые GPU

Подробное руководство: читать в разделе «Решения» →

Готовы запустить Llama.cpp?

Запустить GPU-сервер