Kandinsky 5.0 Video Lite
2B параметров · Flow Matching · Sber AI · 2025
VRAM по точности
| Точность | VRAM | Качество | Рекомендация |
|---|---|---|---|
| FP16 | 24 ГБ | Максимальное | Для продакшена |
| INT8 | 12 ГБ | Хорошее |
Совместимые GPU
| GPU | VRAM | Поддерживает | |
|---|---|---|---|
|
Рек.
NVIDIA RTX 4090
|
24 ГБ | FP16, INT8 | Арендовать |
| 32 ГБ | FP16, INT8 | Арендовать | |
| 80 ГБ | FP16, INT8 | Арендовать |
Рекомендуемые фреймворки
Характеристики модели
Технические параметры
- Разработчик
- Sber AI
- Год выпуска
- 2025
- Параметры
- 2B
- Архитектура
- Flow Matching
- Лицензия
- MIT
- Разрешение
- 720p
- Формат вывода
- MP4
Применение
Kandinsky 5.0 Video Lite — компактная модель видеогенерации от Sber AI, выпущенная 29 сентября 2025 года. 2B параметров, генерирует HD-видео длительностью 5 и 10 секунд при 24fps. Главное преимущество — работает на consumer-уровня GPU: 12 ГБ VRAM с offloading, 24 ГБ для комфортной работы.
Поддерживает text-to-video и image-to-video (анимация статичного изображения). Лицензия MIT — свободное коммерческое использование.
Запуск на cloudcompute.ru
Шаг 1 — Арендуйте GPU
Video Lite работает от 12 ГБ VRAM с CPU offloading, комфортно — от 24 ГБ. RTX 4090 — оптимальный выбор по цене/производительности.
Шаг 2 — Генерация видео через diffusers
import torch
from diffusers import Kandinsky5T2VPipeline
pipe = Kandinsky5T2VPipeline.from_pretrained(
"kandinskylab/Kandinsky-5.0-T2V-Lite-sft-5s-Diffusers",
torch_dtype=torch.bfloat16,
)
pipe = pipe.to("cuda")
video = pipe("Камера плавно пролетает над осенним лесом, золотые деревья, утренний туман").frames
# Сохранение видео через export_to_video или ffmpeg
Шаг 3 — Image-to-video
from PIL import Image
init_image = Image.open("photo.jpg")
video = pipe(
"Камера медленно приближается, лёгкое движение листьев",
image=init_image,
).frames
Варианты чекпоинтов
На HuggingFace доступно несколько вариантов:
| Чекпоинт | Длительность | Особенности |
|---|---|---|
kandinsky-5-video-lite-5s |
5 секунд | Базовая версия |
kandinsky-5-video-lite-10s |
10 секунд | Удвоенная длительность |
| Distilled (16 steps) | 5/10 с | Ускоренная генерация с меньшим числом шагов |
| No-CFG | 5/10 с | Без classifier-free guidance, быстрее |
| SFT | 5/10 с | Дообученная на кураторских данных |
Camera Control LoRAs
Sber AI выпустил специализированные LoRA-адаптеры для управления камерой в Video Lite: панорамирование, приближение, вращение и другие движения. Подробнее — в руководстве по LoRA.
Ограничения
- Максимальная длительность — 10 секунд
- При генерации >5 с возможно повторение движений
- Качество ниже, чем у Video Pro (2B vs 19B параметров)
- Нет audio-генерации — только визуальный ряд
Связанные модели
- Kandinsky 5.0 Video Pro — версия максимального качества (19B)
- Kandinsky 5.0 Image Lite — генерация изображений
- Kandinsky 3.1 — предыдущее поколение (только изображения)