Ollama
Запуск LLM одной командой — скачивайте и запускайте модели из библиотеки Ollama.
LLM-инференс
Linux
от 16 ГБ VRAM
Для кого
Разработчики и энтузиасты, которым нужен максимально простой запуск LLM — одна команда для скачивания и запуска.
Что внутри
- Ollama — менеджер моделей с GPU-ускорением
- Web UI для интерактивного общения с моделью
- Ollama API на порту 11434
- Библиотека моделей: Llama 3, Qwen, Mistral, Phi, Gemma и др.
Как начать
- Запустите инстанс с этим шаблоном
- Модель скачается автоматически (по умолчанию — Qwen3.5:35b)
- Откройте UI в браузере или используйте API
Рекомендации по GPU
- 16 ГБ VRAM — модели 7B–8B в полном качестве
- 24 ГБ VRAM — модели до 34B (квантизованные)
- 40+ ГБ VRAM — 70B модели
Предустановленное ПО
Ubuntu 22.04
CUDA 12.x
Ollama 0.20
Python 3.11
Подробное руководство: читать в разделе «Решения» →
Готовы запустить Ollama?
Запустить GPU-сервер