Inference
Ollama
Инструмент для локального запуска LLM через единый CLI и REST API.
См. также — материалы
Что такое Ollama
Ollama — инструмент для запуска LLM одной командой. В отличие от vLLM или TGI, Ollama ориентирован на простоту: минимальные зависимости, встроенный менеджер моделей с хранилищем (ollama pull <model>), REST API на порту 11434, который поднимается автоматически.
Ollama использует llama.cpp внутри, поэтому поддерживает GGUF-форматы с квантизацией. На GPU работает через CUDA (NVIDIA) или Metal (Apple Silicon), автоматически управляя выгрузкой неиспользуемых моделей.
Ключевые возможности
- Встроенная библиотека моделей — Llama 3.1/3.2, Mistral, Qwen 2.5, Gemma 2, DeepSeek-R1, Phi-3;
ollama pull modelскачивает и регистрирует - OpenAI-совместимый эндпоинт —
/v1/chat/completionsбез изменений клиентского кода - Автоматическое управление VRAM — модели выгружаются при простое
- Modelfile — кастомизация системного промпта, параметров, вложения адаптеров
Быстрый старт
# Установка (Linux, CUDA уже установлен)
curl -fsSL https://ollama.com/install.sh | sh
# Или Docker
docker run -d \
--gpus all \
-p 11434:11434 \
-v ollama:/root/.ollama \
ollama/ollama
# Скачать и запустить модель
ollama pull llama3.1:8b
ollama run llama3.1:8b "Объясни, что такое GPU."
# Привязать к внешнему адресу
OLLAMA_HOST=0.0.0.0 ollama serve
Запрос через OpenAI SDK:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
model="llama3.1:8b",
messages=[{"role": "user", "content": "Привет!"}]
)
Ollama vs vLLM
| Ollama | vLLM | |
|---|---|---|
| Простота старта | ★★★★★ | ★★★ |
| Производительность | ★★★ | ★★★★★ |
| Параллельные запросы | ограниченно | отлично |
| Лучший сценарий | Разработка, прототипы | Production API |
Для production-нагрузки с высоким параллелизмом переходите на vLLM.
Связанные термины
- llama.cpp — движок, лежащий в основе Ollama
- GGUF — формат весов, используемый Ollama
- serving — эксплуатация модели как сервиса
- Подробный гайд по Ollama
Готовы запустить GPU-задачу?
Запустить GPU-сервер