Inference

Ollama

Инструмент для локального запуска LLM через единый CLI и REST API.

Что такое Ollama

Ollama — инструмент для запуска LLM одной командой. В отличие от vLLM или TGI, Ollama ориентирован на простоту: минимальные зависимости, встроенный менеджер моделей с хранилищем (ollama pull <model>), REST API на порту 11434, который поднимается автоматически.

Ollama использует llama.cpp внутри, поэтому поддерживает GGUF-форматы с квантизацией. На GPU работает через CUDA (NVIDIA) или Metal (Apple Silicon), автоматически управляя выгрузкой неиспользуемых моделей.

Ключевые возможности

  • Встроенная библиотека моделей — Llama 3.1/3.2, Mistral, Qwen 2.5, Gemma 2, DeepSeek-R1, Phi-3; ollama pull model скачивает и регистрирует
  • OpenAI-совместимый эндпоинт/v1/chat/completions без изменений клиентского кода
  • Автоматическое управление VRAM — модели выгружаются при простое
  • Modelfile — кастомизация системного промпта, параметров, вложения адаптеров

Быстрый старт

# Установка (Linux, CUDA уже установлен)
curl -fsSL https://ollama.com/install.sh | sh

# Или Docker
docker run -d \
  --gpus all \
  -p 11434:11434 \
  -v ollama:/root/.ollama \
  ollama/ollama

# Скачать и запустить модель
ollama pull llama3.1:8b
ollama run llama3.1:8b "Объясни, что такое GPU."

# Привязать к внешнему адресу
OLLAMA_HOST=0.0.0.0 ollama serve

Запрос через OpenAI SDK:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="llama3.1:8b",
    messages=[{"role": "user", "content": "Привет!"}]
)

Ollama vs vLLM

Ollama vLLM
Простота старта ★★★★★ ★★★
Производительность ★★★ ★★★★★
Параллельные запросы ограниченно отлично
Лучший сценарий Разработка, прототипы Production API

Для production-нагрузки с высоким параллелизмом переходите на vLLM.

Связанные термины

Готовы запустить GPU-задачу?

Запустить GPU-сервер