Ollama

Запуск LLM одной командой — скачивайте и запускайте модели из библиотеки Ollama.

LLM-инференс Linux от 16 ГБ VRAM

Для кого

Разработчики и энтузиасты, которым нужен максимально простой запуск LLM — одна команда для скачивания и запуска.

Что внутри

  • Ollama — менеджер моделей с GPU-ускорением
  • Web UI для интерактивного общения с моделью
  • Ollama API на порту 11434
  • Библиотека моделей: Llama 3, Qwen, Mistral, Phi, Gemma и др.

Как начать

  1. Запустите инстанс с этим шаблоном
  2. Модель скачается автоматически (по умолчанию — Qwen3.5:35b)
  3. Откройте UI в браузере или используйте API

Рекомендации по GPU

  • 16 ГБ VRAM — модели 7B–8B в полном качестве
  • 24 ГБ VRAM — модели до 34B (квантизованные)
  • 40+ ГБ VRAM — 70B модели

Предустановленное ПО

Ubuntu 22.04 CUDA 12.x Ollama 0.20 Python 3.11

Рекомендуемые GPU

Подробное руководство: читать в разделе «Решения» →

Готовы запустить Ollama?

Запустить GPU-сервер