Ollama

Запуск LLM одной командой — скачивайте и запускайте модели из библиотеки Ollama.

LLM-инференс Linux от 16 ГБ VRAM

Для кого

Разработчики и энтузиасты, которым нужен максимально простой запуск LLM — одна команда для скачивания и запуска.

Что внутри

Ollama — менеджер моделей с GPU-ускорением
Web UI для интерактивного общения с моделью
Ollama API на порту 11434
Библиотека моделей: Llama 3, Qwen, Mistral, Phi, Gemma и др.

Как начать

Запустите инстанс с этим шаблоном
Модель скачается автоматически (по умолчанию — Qwen3.5:35b)
Откройте UI в браузере или используйте API

Рекомендации по GPU

16 ГБ VRAM — модели 7B–8B в полном качестве
24 ГБ VRAM — модели до 34B (квантизованные)
40+ ГБ VRAM — 70B модели

Предустановленное ПО

Ubuntu 22.04 CUDA 12.x Ollama 0.20 Python 3.11

Рекомендуемые GPU

RTX 4090 RTX 3090 A100 40GB

Подробное руководство: читать в разделе «Решения» →

Готовы запустить Ollama?

Запустить GPU-сервер