Kandinsky 5.0 на облачном GPU: запуск, настройка, стоимость

См. также — глоссарий

Задача страницы. Показать, как запустить Kandinsky 5.0 на облачном GPU: от выбора карты и первого запуска до production-деплоя с API и мониторингом. Три модели семейства — Image Lite, Video Lite, Video Pro — покрывают генерацию изображений и видео под MIT-лицензией.

TL;DR

  • Kandinsky 5.0 — open-source (MIT) модели генерации изображений и видео от Sber AI с нативной поддержкой русского языка и кириллицы.
  • Image Lite (6B) работает на RTX 4090 (24 ГБ VRAM), Video Lite (2B) — от 12 ГБ с offloading, Video Pro (19B) — от A100 80GB.
  • Запуск через diffusers, ComfyUI или готовый шаблон CloudCompute — от первого запуска до рабочего сервера за минуты.
  • Полная свобода: нет rate-limits, нет очередей, коммерческая лицензия, свои LoRA и API.

Зачем запускать Kandinsky на своём GPU

Бесплатный интерфейс Sber (fusionbrain.ai) удобен для экспериментов, но не подходит для серьёзной работы:

  • Нет rate-limits — генерируйте сотни изображений и десятки видео без ожидания очереди
  • Приватность — ваши промпты и результаты не уходят на сторонний сервер
  • Коммерческая лицензия MIT — встраивайте в продукты, продавайте генерации, создавайте API-сервис
  • LoRA — обучайте модель на своих данных: фирменный стиль, персонажи, продуктовые фото
  • API — запускайте Kandinsky как backend-сервис для вашего приложения
  • Контроль параметров — точная настройка CFG, шагов, seed, ControlNet, расписаний

Требования по VRAM

Модель Параметры VRAM (мин.) VRAM (комфортно) Задачи
Image Lite 6B 12 ГБ (offload) 24 ГБ Изображения, editing, кириллица
Video Lite 2B 12 ГБ (offload) 24 ГБ Видео 5–10 с, T2V + I2V
Video Pro 19B 48 ГБ 80 ГБ HD-видео, лучшее качество

Какую GPU выбрать

GPU VRAM Подходит для Цена
RTX 4090 24 ГБ Image Lite, Video Lite от ₽/час
RTX 5090 32 ГБ Image Lite, Video Lite (с запасом) от ₽/час
A100 80GB 80 ГБ Все модели, включая Video Pro от ₽/час
H100 80 ГБ Video Pro, батч-генерация, production от ₽/час

Для большинства задач с Image Lite и Video Lite достаточно RTX 4090 — лучшее соотношение цена/производительность. Video Pro требует минимум A100.

Запуск через готовый шаблон CloudCompute

Самый быстрый способ — выбрать шаблон Kandinsky при создании инстанса:

  1. Откройте каталог GPU и выберите конфигурацию
  2. В разделе «Шаблон» выберите Kandinsky 5.0
  3. Нажмите «Создать» — инстанс запустится за 30 секунд
  4. Подключитесь по SSH или откройте Jupyter

Шаблон включает: предустановленные веса, diffusers, ComfyUI, CUDA-драйверы.

Запуск через Python (diffusers)

Image Lite — генерация изображений

import torch
from diffusers import Kandinsky5T2IPipeline

pipe = Kandinsky5T2IPipeline.from_pretrained(
    "kandinskylab/Kandinsky-5.0-T2I-Lite-sft-Diffusers",
    torch_dtype=torch.bfloat16,
)
pipe = pipe.to("cuda")

image = pipe(
    "Фотореалистичная вывеска «Булочная» на кирпичном здании, "
    "мягкий вечерний свет, боке"
).images[0]
image.save("output.png")

При нехватке VRAM используйте offloading:

pipe.enable_model_cpu_offload()

Video Lite — генерация видео

from diffusers import Kandinsky5T2VPipeline

video_pipe = Kandinsky5T2VPipeline.from_pretrained(
    "kandinskylab/Kandinsky-5.0-T2V-Lite-sft-5s-Diffusers",
    torch_dtype=torch.bfloat16,
)
video_pipe = video_pipe.to("cuda")

video = video_pipe(
    "Камера плавно поднимается над утренним Петербургом, "
    "Нева блестит на солнце, разводные мосты"
).frames

Video Pro — максимальное качество

from diffusers import Kandinsky5T2VPipeline

pro_pipe = Kandinsky5T2VPipeline.from_pretrained(
    "kandinskylab/Kandinsky-5.0-T2V-Pro-sft-5s-Diffusers",
    torch_dtype=torch.bfloat16,
)
pro_pipe.enable_model_cpu_offload()

video = pro_pipe(
    "Кинематографический пролёт над заснеженными горами, "
    "рассвет, облака внизу, эпический масштаб"
).frames

Запуск через ComfyUI

Kandinsky 5.0 имеет официальную поддержку ComfyUI. Подробнее про настройку ComfyUI на облачном GPU — в руководстве по ComfyUI.

docker run --gpus all -p 8188:8188 \
  -v comfyui-data:/root \
  ghcr.io/ai-dock/comfyui:latest

После запуска установите ноды Kandinsky через ComfyUI Manager или вручную из репозитория ai-forever. Загрузите веса Image Lite или Video Lite в каталог models/checkpoints/.

Преимущества ComfyUI для Kandinsky:

  • Графовые пайплайны: prompt → samplerVAE → постобработка
  • Кэширование весов между генерациями
  • ControlNet-ветки для управления композицией
  • Батч-генерация через очередь API

LoRA fine-tuning

Обучение собственных LoRA-адаптеров на Kandinsky 5.0 — один из главных аргументов за self-hosted инстанс. Подробное руководство: LoRA fine-tuning Kandinsky.

Кратко:

  • Подготовьте датасет: 20–100 изображений вашего стиля/объекта с подписями
  • Запустите обучение через kandinsky-5-lora-train
  • VRAM: от 24 ГБ, время: 2–8 часов на RTX 4090 (зависит от размера датасета)
  • Результат: LoRA-адаптер ~50–200 МБ, подключается при инференсе

Sber также выпустил готовые Camera Control LoRAs для управления движением камеры в Video Lite и Video Pro.

API: Kandinsky как backend-сервис

Минимальный API на FastAPI для production-деплоя:

from fastapi import FastAPI
from pydantic import BaseModel
import torch
from diffusers import Kandinsky5T2IPipeline

app = FastAPI()
pipe = Kandinsky5T2IPipeline.from_pretrained(
    "kandinskylab/Kandinsky-5.0-T2I-Lite-sft-Diffusers",
    torch_dtype=torch.bfloat16,
).to("cuda")

class GenerateRequest(BaseModel):
    prompt: str
    width: int = 1024
    height: int = 1024
    num_inference_steps: int = 30

@app.post("/v1/generate")
async def generate(req: GenerateRequest):
    image = pipe(
        req.prompt,
        width=req.width,
        height=req.height,
        num_inference_steps=req.num_inference_steps,
    ).images[0]
    image.save("/tmp/output.png")
    return {"status": "ok", "path": "/tmp/output.png"}

Запуск: uvicorn app:app --host 0.0.0.0 --port 8000. Для production добавьте очередь задач, аутентификацию, лимиты параметров и мониторинг — см. observability и security.

Стоимость генерации

Ориентировочные расчёты (зависят от параметров и конфигурации):

Задача GPU Время Стоимость
1 изображение (Image Lite, 30 шагов) RTX 4090 ~5–10 с ~₽0.5–1
100 изображений (батч) RTX 4090 ~10–15 мин ~₽50–70
1 видео 5 с (Video Lite) RTX 4090 ~1–3 мин ~₽5–15
1 видео 10 с (Video Pro) H100 ~3–8 мин ~₽30–80

Для точного планирования бюджета используйте калькулятор стоимости.

FAQ

Нужен ли интернет для работы с Kandinsky на арендованном GPU? Интернет нужен только для первоначальной загрузки весов с HuggingFace (~12–40 ГБ в зависимости от модели). После загрузки генерация работает полностью локально на GPU.

Где скачать веса Kandinsky 5.0? Все веса опубликованы на HuggingFace. При использовании diffusers веса скачиваются автоматически при первом запуске.

Можно ли использовать Kandinsky в коммерческих проектах? Да. Все модели Kandinsky 5.0 выпущены под лицензией MIT — полностью свободной для коммерческого использования без ограничений.

Почему не использовать fusionbrain.ai? Бесплатный интерфейс Sber имеет rate-limits, очереди, ограниченные параметры и отправляет данные на внешний сервер. Для коммерческого использования, приватности, обучения LoRA и API-интеграции нужен свой инстанс.

Какая GPU лучше всего для Kandinsky? Для Image Lite и Video Lite — RTX 4090 (24 ГБ VRAM, лучшее соотношение цена/производительность). Для Video Pro — A100 80GB или H100.

Поддерживает ли Kandinsky промпты на русском? Да, нативно. Текстовый энкодер Qwen2.5-VL обучен на русскоязычных данных — не нужен перевод на английский.

Работает ли Kandinsky в ComfyUI? Да, официально поддерживается. Ноды доступны в репозитории ai-forever.

Навигация по разделу «Генерация изображений и видео»

ОбзорComfyUIAUTOMATIC1111SDXLSD3Kandinsky VideoKandinsky LoRAControlNetВидеоАпскейл • Инфраструктура: Performance, Storage, Мониторинг, Калькулятор

Готовы запустить?

Запустить GPU-сервер