Kandinsky Video на облачном GPU: генерация видео через Video Lite и Video Pro

См. также — глоссарий

Задача страницы. Показать, как генерировать видео через Kandinsky 5.0 Video Lite и Video Pro на облачном GPU: text-to-video, image-to-video, управление камерой, стоимость и ограничения.

TL;DR

  • Video Lite (2B) — 5–10 с видео на consumer GPU (от 12 ГБ VRAM, комфортно 24 ГБ). Хорош для прототипов и массовой генерации.
  • Video Pro (19B) — HD-видео максимального качества, #1 open-source T2V на LMArena. Требует A100/H100 (48+ ГБ VRAM).
  • Оба поддерживают text-to-video и image-to-video. Лицензия MIT — коммерческое использование без ограничений.
  • Camera Control LoRAs от Sber — управление панорамированием, зумом и вращением камеры.

Что умеет Kandinsky Video

Kandinsky 5.0 Video — два open-source варианта для генерации видео:

  • Text-to-video (T2V) — создание видео по текстовому описанию
  • Image-to-video (I2V) — анимация статичного изображения по промпту
  • HD-разрешение при 24fps
  • Длительность: 5 или 10 секунд (зависит от чекпоинта)
  • Русские промпты — нативная поддержка без перевода

Video Lite vs Video Pro

Параметр Video Lite Video Pro
Параметры 2B 19B
VRAM (мин.) 12 ГБ (offload) 48 ГБ
VRAM (комфортно) 24 ГБ 80 ГБ
Оптимальная GPU RTX 4090 A100 80GB / H100
Качество Хорошее Лучшее в классе
Скорость (10 с видео) ~1–3 мин (RTX 4090) ~3–8 мин (H100)
LMArena #1 open-source T2V
Когда выбирать Прототипы, массовая генерация, бюджет Финальный контент, маркетинг, production

Бенчмарки Video Pro

Video Pro в декабре 2025 занял #1 среди open-source text-to-video моделей на LMArena:

Модель Позиция Категория
Kandinsky 5.0 Video Pro #1 Open-source
Wan-2.2 #2 Open-source
HunyuanVideo #3 Open-source
LTX Video 2 #4 Open-source

По экспертным оценкам, качество Video Pro сравнимо с Google Veo 3 — при полной открытости весов и MIT-лицензии.

Требования по GPU

Video Lite

GPU VRAM Режим Время (10 с видео)
RTX 3090 24 ГБ Комфортно ~3–5 мин
RTX 4090 24 ГБ Оптимально ~1–3 мин
RTX 5090 32 ГБ С запасом ~1–2 мин

С enable_model_cpu_offload() Video Lite работает на 12 ГБ VRAM, но медленнее.

Video Pro

GPU VRAM Режим Время (10 с видео)
A100 80GB 80 ГБ Минимум ~5–8 мин
H100 80 ГБ Оптимально ~3–5 мин
H200 141 ГБ С запасом ~2–4 мин

Запуск: Text-to-Video

Video Lite

import torch
from diffusers import Kandinsky5T2VPipeline

pipe = Kandinsky5T2VPipeline.from_pretrained(
    "kandinskylab/Kandinsky-5.0-T2V-Lite-sft-5s-Diffusers",
    torch_dtype=torch.bfloat16,
)
pipe = pipe.to("cuda")

video = pipe(
    "Таймлапс: облака проносятся над крышами Москвы, "
    "день переходит в ночь, загораются огни города"
).frames

Video Pro

from diffusers import Kandinsky5T2VPipeline

pro_pipe = Kandinsky5T2VPipeline.from_pretrained(
    "kandinskylab/Kandinsky-5.0-T2V-Pro-sft-5s-Diffusers",
    torch_dtype=torch.bfloat16,
)
pro_pipe.enable_model_cpu_offload()

video = pro_pipe(
    "Документальная съёмка: северное сияние над Кольским полуостровом, "
    "отражение в озере, звёздное небо, кинематографический масштаб"
).frames

Image-to-Video

Анимация статичного изображения — мощный инструмент для маркетинга, e-commerce и социальных сетей:

from PIL import Image

photo = Image.open("product.jpg")
video = pipe(
    "Камера медленно облетает объект, мягкое студийное освещение, "
    "лёгкий блик на поверхности",
    image=photo,
).frames

Типовые сценарии I2V:

  • Продуктовые ролики — анимация фото товара с движением камеры
  • Архитектурная визуализация — «облёт» рендера здания
  • Контент для соцсетей — оживление статичных баннеров и постов
  • Сторибординг — быстрые превью по ключевым кадрам

Camera Control LoRAs

Sber AI выпустил специализированные LoRA-адаптеры для управления движением камеры:

  • Pan — горизонтальное панорамирование (влево/вправо)
  • Tilt — вертикальное панорамирование (вверх/вниз)
  • Zoom — приближение и удаление
  • Roll — вращение камеры вокруг оси
  • Orbit — круговой облёт объекта

LoRA-адаптеры выпущены отдельно для Video Lite и Video Pro. Подробнее об обучении собственных LoRA — в руководстве по LoRA fine-tuning.

Запуск через ComfyUI

Kandinsky Video поддерживается в ComfyUI через официальные ноды. Графовый интерфейс удобен для:

  • Конструирования пайплайнов T2V → постобработка → кодирование
  • Батч-генерации с очередью
  • Подключения ControlNet и LoRA как отдельных веток графа

Подробнее про ComfyUI на облачном GPU — руководство по ComfyUI.

Кодирование видео

Kandinsky генерирует последовательность кадров. Для конвертации в MP4 используйте ffmpeg с NVENC:

ffmpeg -y -framerate 24 -i frames/%06d.png \
  -c:v h264_nvenc -preset p5 -rc vbr -b:v 6M -maxrate 10M \
  -pix_fmt yuv420p -movflags +faststart output.mp4

Подробнее про транскодирование — Video Transcode.

Стоимость генерации видео

Задача GPU Время Стоимость
1 видео 5 с (Video Lite) RTX 4090 ~30–90 с ~₽2–5
1 видео 10 с (Video Lite) RTX 4090 ~1–3 мин ~₽5–15
1 видео 10 с (Video Pro) H100 ~3–8 мин ~₽30–80
10 видео по 5 с (Video Lite, батч) RTX 4090 ~10–15 мин ~₽40–70

Для точного планирования — калькулятор стоимости.

Ограничения

  • Максимальная длительность — 10 секунд на один вызов. Для более длинных роликов нужна конкатенация или пост-продакшн.
  • Повторение движений — при генерации >5 с возможны циклические паттерны в движениях объектов.
  • Нет аудио — Kandinsky генерирует только визуальный ряд. Звук нужно добавлять отдельно.
  • VRAM для Video Pro — минимум 48 ГБ, реально нужно A100 80GB или H100.
  • Скорость — генерация видео значительно медленнее, чем изображений. Video Pro на H100 генерирует 10 с видео за 3–8 минут.

FAQ

Можно ли генерировать видео дольше 10 секунд? Одним вызовом — нет. Для более длинных роликов генерируйте сегменты и склеивайте через ffmpeg или используйте последний кадр как init_image для следующего сегмента.

Чем Video Pro лучше Video Lite? Video Pro (19B) даёт значительно более детализированные и когерентные видео. На LMArena занял #1 среди open-source моделей. Но требует в 2–4 раза больше VRAM и стоит дороже в эксплуатации.

Сколько VRAM нужно для Video Pro? Минимум 48 ГБ. Практически это A100 80GB, H100 или H200. На consumer GPU (RTX 4090, 24 ГБ) Video Pro не запустится.

Работает ли I2V с любым изображением? Да, но качество зависит от входного изображения. Лучше всего работает с чёткими фотографиями и рендерами. Сильно сжатые или низкокачественные изображения дадут артефакты.

Навигация по разделу «Генерация изображений и видео»

ОбзорKandinsky (главная)Kandinsky LoRAComfyUIAUTOMATIC1111SDXLВидео • Инфраструктура: Performance, Storage, Мониторинг, Калькулятор

Готовы запустить?

Запустить GPU-сервер