video MIT

Kandinsky 5.0 Video Lite

2B параметров · Flow Matching · Sber AI · 2025

VRAM по точности

Точность VRAM Качество Рекомендация
FP16 24 ГБ Максимальное Для продакшена
INT8 12 ГБ Хорошее

Совместимые GPU

GPU VRAM Поддерживает
24 ГБ FP16, INT8 Арендовать
32 ГБ FP16, INT8 Арендовать
80 ГБ FP16, INT8 Арендовать

Рекомендуемые фреймворки

Характеристики модели

Технические параметры

Разработчик
Sber AI
Год выпуска
2025
Параметры
2B
Архитектура
Flow Matching
Лицензия
MIT
Разрешение
720p
Формат вывода
MP4

Применение

Text-to-video Image-to-video Short video generation Russian-language prompts Commercial use (MIT license)

Kandinsky 5.0 Video Lite — компактная модель видеогенерации от Sber AI, выпущенная 29 сентября 2025 года. 2B параметров, генерирует HD-видео длительностью 5 и 10 секунд при 24fps. Главное преимущество — работает на consumer-уровня GPU: 12 ГБ VRAM с offloading, 24 ГБ для комфортной работы.

Поддерживает text-to-video и image-to-video (анимация статичного изображения). Лицензия MIT — свободное коммерческое использование.

Запуск на cloudcompute.ru

Шаг 1 — Арендуйте GPU

Video Lite работает от 12 ГБ VRAM с CPU offloading, комфортно — от 24 ГБ. RTX 4090 — оптимальный выбор по цене/производительности.

Шаг 2 — Генерация видео через diffusers

import torch
from diffusers import Kandinsky5T2VPipeline

pipe = Kandinsky5T2VPipeline.from_pretrained(
    "kandinskylab/Kandinsky-5.0-T2V-Lite-sft-5s-Diffusers",
    torch_dtype=torch.bfloat16,
)
pipe = pipe.to("cuda")

video = pipe("Камера плавно пролетает над осенним лесом, золотые деревья, утренний туман").frames
# Сохранение видео через export_to_video или ffmpeg

Шаг 3 — Image-to-video

from PIL import Image

init_image = Image.open("photo.jpg")
video = pipe(
    "Камера медленно приближается, лёгкое движение листьев",
    image=init_image,
).frames

Варианты чекпоинтов

На HuggingFace доступно несколько вариантов:

Чекпоинт Длительность Особенности
kandinsky-5-video-lite-5s 5 секунд Базовая версия
kandinsky-5-video-lite-10s 10 секунд Удвоенная длительность
Distilled (16 steps) 5/10 с Ускоренная генерация с меньшим числом шагов
No-CFG 5/10 с Без classifier-free guidance, быстрее
SFT 5/10 с Дообученная на кураторских данных

Camera Control LoRAs

Sber AI выпустил специализированные LoRA-адаптеры для управления камерой в Video Lite: панорамирование, приближение, вращение и другие движения. Подробнее — в руководстве по LoRA.

Ограничения

  • Максимальная длительность — 10 секунд
  • При генерации >5 с возможно повторение движений
  • Качество ниже, чем у Video Pro (2B vs 19B параметров)
  • Нет audio-генерации — только визуальный ряд

Связанные модели