Kandinsky Video на облачном GPU: генерация видео через Video Lite и Video Pro
Задача страницы. Показать, как генерировать видео через Kandinsky 5.0 Video Lite и Video Pro на облачном GPU: text-to-video, image-to-video, управление камерой, стоимость и ограничения.
TL;DR
- Video Lite (2B) — 5–10 с видео на consumer GPU (от 12 ГБ VRAM, комфортно 24 ГБ). Хорош для прототипов и массовой генерации.
- Video Pro (19B) — HD-видео максимального качества, #1 open-source T2V на LMArena. Требует A100/H100 (48+ ГБ VRAM).
- Оба поддерживают text-to-video и image-to-video. Лицензия MIT — коммерческое использование без ограничений.
- Camera Control LoRAs от Sber — управление панорамированием, зумом и вращением камеры.
Что умеет Kandinsky Video
Kandinsky 5.0 Video — два open-source варианта для генерации видео:
- Text-to-video (T2V) — создание видео по текстовому описанию
- Image-to-video (I2V) — анимация статичного изображения по промпту
- HD-разрешение при 24fps
- Длительность: 5 или 10 секунд (зависит от чекпоинта)
- Русские промпты — нативная поддержка без перевода
Video Lite vs Video Pro
| Параметр | Video Lite | Video Pro |
|---|---|---|
| Параметры | 2B | 19B |
| VRAM (мин.) | 12 ГБ (offload) | 48 ГБ |
| VRAM (комфортно) | 24 ГБ | 80 ГБ |
| Оптимальная GPU | RTX 4090 | A100 80GB / H100 |
| Качество | Хорошее | Лучшее в классе |
| Скорость (10 с видео) | ~1–3 мин (RTX 4090) | ~3–8 мин (H100) |
| LMArena | — | #1 open-source T2V |
| Когда выбирать | Прототипы, массовая генерация, бюджет | Финальный контент, маркетинг, production |
Бенчмарки Video Pro
Video Pro в декабре 2025 занял #1 среди open-source text-to-video моделей на LMArena:
| Модель | Позиция | Категория |
|---|---|---|
| Kandinsky 5.0 Video Pro | #1 | Open-source |
| Wan-2.2 | #2 | Open-source |
| HunyuanVideo | #3 | Open-source |
| LTX Video 2 | #4 | Open-source |
По экспертным оценкам, качество Video Pro сравнимо с Google Veo 3 — при полной открытости весов и MIT-лицензии.
Требования по GPU
Video Lite
| GPU | VRAM | Режим | Время (10 с видео) |
|---|---|---|---|
| RTX 3090 | 24 ГБ | Комфортно | ~3–5 мин |
| RTX 4090 | 24 ГБ | Оптимально | ~1–3 мин |
| RTX 5090 | 32 ГБ | С запасом | ~1–2 мин |
С enable_model_cpu_offload() Video Lite работает на 12 ГБ VRAM, но медленнее.
Video Pro
| GPU | VRAM | Режим | Время (10 с видео) |
|---|---|---|---|
| A100 80GB | 80 ГБ | Минимум | ~5–8 мин |
| H100 | 80 ГБ | Оптимально | ~3–5 мин |
| H200 | 141 ГБ | С запасом | ~2–4 мин |
Запуск: Text-to-Video
Video Lite
import torch
from diffusers import Kandinsky5T2VPipeline
pipe = Kandinsky5T2VPipeline.from_pretrained(
"kandinskylab/Kandinsky-5.0-T2V-Lite-sft-5s-Diffusers",
torch_dtype=torch.bfloat16,
)
pipe = pipe.to("cuda")
video = pipe(
"Таймлапс: облака проносятся над крышами Москвы, "
"день переходит в ночь, загораются огни города"
).frames
Video Pro
from diffusers import Kandinsky5T2VPipeline
pro_pipe = Kandinsky5T2VPipeline.from_pretrained(
"kandinskylab/Kandinsky-5.0-T2V-Pro-sft-5s-Diffusers",
torch_dtype=torch.bfloat16,
)
pro_pipe.enable_model_cpu_offload()
video = pro_pipe(
"Документальная съёмка: северное сияние над Кольским полуостровом, "
"отражение в озере, звёздное небо, кинематографический масштаб"
).frames
Image-to-Video
Анимация статичного изображения — мощный инструмент для маркетинга, e-commerce и социальных сетей:
from PIL import Image
photo = Image.open("product.jpg")
video = pipe(
"Камера медленно облетает объект, мягкое студийное освещение, "
"лёгкий блик на поверхности",
image=photo,
).frames
Типовые сценарии I2V:
- Продуктовые ролики — анимация фото товара с движением камеры
- Архитектурная визуализация — «облёт» рендера здания
- Контент для соцсетей — оживление статичных баннеров и постов
- Сторибординг — быстрые превью по ключевым кадрам
Camera Control LoRAs
Sber AI выпустил специализированные LoRA-адаптеры для управления движением камеры:
- Pan — горизонтальное панорамирование (влево/вправо)
- Tilt — вертикальное панорамирование (вверх/вниз)
- Zoom — приближение и удаление
- Roll — вращение камеры вокруг оси
- Orbit — круговой облёт объекта
LoRA-адаптеры выпущены отдельно для Video Lite и Video Pro. Подробнее об обучении собственных LoRA — в руководстве по LoRA fine-tuning.
Запуск через ComfyUI
Kandinsky Video поддерживается в ComfyUI через официальные ноды. Графовый интерфейс удобен для:
- Конструирования пайплайнов T2V → постобработка → кодирование
- Батч-генерации с очередью
- Подключения ControlNet и LoRA как отдельных веток графа
Подробнее про ComfyUI на облачном GPU — руководство по ComfyUI.
Кодирование видео
Kandinsky генерирует последовательность кадров. Для конвертации в MP4 используйте ffmpeg с NVENC:
ffmpeg -y -framerate 24 -i frames/%06d.png \
-c:v h264_nvenc -preset p5 -rc vbr -b:v 6M -maxrate 10M \
-pix_fmt yuv420p -movflags +faststart output.mp4
Подробнее про транскодирование — Video Transcode.
Стоимость генерации видео
| Задача | GPU | Время | Стоимость |
|---|---|---|---|
| 1 видео 5 с (Video Lite) | RTX 4090 | ~30–90 с | ~₽2–5 |
| 1 видео 10 с (Video Lite) | RTX 4090 | ~1–3 мин | ~₽5–15 |
| 1 видео 10 с (Video Pro) | H100 | ~3–8 мин | ~₽30–80 |
| 10 видео по 5 с (Video Lite, батч) | RTX 4090 | ~10–15 мин | ~₽40–70 |
Для точного планирования — калькулятор стоимости.
Ограничения
- Максимальная длительность — 10 секунд на один вызов. Для более длинных роликов нужна конкатенация или пост-продакшн.
- Повторение движений — при генерации >5 с возможны циклические паттерны в движениях объектов.
- Нет аудио — Kandinsky генерирует только визуальный ряд. Звук нужно добавлять отдельно.
- VRAM для Video Pro — минимум 48 ГБ, реально нужно A100 80GB или H100.
- Скорость — генерация видео значительно медленнее, чем изображений. Video Pro на H100 генерирует 10 с видео за 3–8 минут.
FAQ
Можно ли генерировать видео дольше 10 секунд? Одним вызовом — нет. Для более длинных роликов генерируйте сегменты и склеивайте через ffmpeg или используйте последний кадр как init_image для следующего сегмента.
Чем Video Pro лучше Video Lite? Video Pro (19B) даёт значительно более детализированные и когерентные видео. На LMArena занял #1 среди open-source моделей. Но требует в 2–4 раза больше VRAM и стоит дороже в эксплуатации.
Сколько VRAM нужно для Video Pro? Минимум 48 ГБ. Практически это A100 80GB, H100 или H200. На consumer GPU (RTX 4090, 24 ГБ) Video Pro не запустится.
Работает ли I2V с любым изображением? Да, но качество зависит от входного изображения. Лучше всего работает с чёткими фотографиями и рендерами. Сильно сжатые или низкокачественные изображения дадут артефакты.
Навигация по разделу «Генерация изображений и видео»
Обзор • Kandinsky (главная) • Kandinsky LoRA • ComfyUI • AUTOMATIC1111 • SDXL • Видео • Инфраструктура: Performance, Storage, Мониторинг, Калькулятор
Готовы запустить?
Запустить GPU-сервер