Синхронизация губ MuseTalk
MuseTalk 1.5 на облачном GPU — веб-интерфейс для lip-sync
от 8 ГБ VRAM ≈25 ₽/час ~25 минут до результата
Что такое MuseTalk
MuseTalk — open-source модель для синхронизации губ по аудио: вы даёте изображение или видео с лицом и WAV-файл с речью — на выходе получаете mp4, где губы двигаются в такт звуку. Это не diffusion-генерация с нуля, а быстрый single-step inpainting — на GPU получается 30+ fps.
Что вы получите
- MuseTalk 1.5 с предзагруженными весами (~5 ГБ);
- Gradio веб-интерфейс на порту 7860;
- доступ через браузер после запуска инстанса.
Как это работает
- Откройте Приложения → MuseTalk и нажмите Запустить.
- Пополните баланс — для первого запуска хватит суммы на ~30 минут работы GPU.
- Мастер предложит GPU от 8 ГБ VRAM (RTX 3060 и выше).
- Первый запуск занимает 20–25 минут (установка + загрузка весов).
- Нажмите «Открыть MuseTalk» на странице инстанса — загрузите лицо и аудио, скачайте результат.
Советы по качеству
- Лицо фронтально, без сильных поворотов;
- Аудио чистое, без музыки и шума;
- Короткие клипы (до 1–2 минут) обрабатываются быстрее.
Сколько стоит
Около 25–45 ₽/час на RTX 3060/3090. Останавливайте инстанс после экспорта mp4.
Частые вопросы
Можно ли через SSH? Да — CLI inference.sh доступен на инстансе для продвинутых сценариев.
Что если зависло? Подождите до 30 минут на первом запуске. Если прогресс не двигается — пересоздайте инстанс; логи на странице деталей.
Рекомендуемые видеокарты
Готовы запустить?
Запустить туториал