Inference

Ollama

Инструмент для локального запуска LLM через единый CLI и REST API.

См. также — материалы

Ollama на GPU-сервере: запуск LLM в облаке

Что такое Ollama

Ollama — инструмент для запуска LLM одной командой. В отличие от vLLM или TGI, Ollama ориентирован на простоту: минимальные зависимости, встроенный менеджер моделей с хранилищем (ollama pull <model>), REST API на порту 11434, который поднимается автоматически.

Ollama использует llama.cpp внутри, поэтому поддерживает GGUF-форматы с квантизацией. На GPU работает через CUDA (NVIDIA) или Metal (Apple Silicon), автоматически управляя выгрузкой неиспользуемых моделей.

Ключевые возможности

Встроенная библиотека моделей — Llama 3.1/3.2, Mistral, Qwen 2.5, Gemma 2, DeepSeek-R1, Phi-3; ollama pull model скачивает и регистрирует
OpenAI-совместимый эндпоинт — /v1/chat/completions без изменений клиентского кода
Автоматическое управление VRAM — модели выгружаются при простое
Modelfile — кастомизация системного промпта, параметров, вложения адаптеров

Быстрый старт

# Установка (Linux, CUDA уже установлен)
curl -fsSL https://ollama.com/install.sh | sh

# Или Docker
docker run -d \
  --gpus all \
  -p 11434:11434 \
  -v ollama:/root/.ollama \
  ollama/ollama

# Скачать и запустить модель
ollama pull llama3.1:8b
ollama run llama3.1:8b "Объясни, что такое GPU."

# Привязать к внешнему адресу
OLLAMA_HOST=0.0.0.0 ollama serve

Запрос через OpenAI SDK:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="llama3.1:8b",
    messages=[{"role": "user", "content": "Привет!"}]
)

Ollama vs vLLM

	Ollama	vLLM
Простота старта	★★★★★	★★★
Производительность	★★★	★★★★★
Параллельные запросы	ограниченно	отлично
Лучший сценарий	Разработка, прототипы	Production API

Для production-нагрузки с высоким параллелизмом переходите на vLLM.

Связанные термины

llama.cpp — движок, лежащий в основе Ollama
GGUF — формат весов, используемый Ollama
serving — эксплуатация модели как сервиса
Подробный гайд по Ollama

Готовы запустить GPU-задачу?

Запустить GPU-сервер