Синхронизация губ MuseTalk

MuseTalk 1.5 на облачном GPU — веб-интерфейс для lip-sync

от 8 ГБ VRAM ≈25 ₽/час ~25 минут до результата

Что такое MuseTalk

MuseTalk — open-source модель для синхронизации губ по аудио: вы даёте изображение или видео с лицом и WAV-файл с речью — на выходе получаете mp4, где губы двигаются в такт звуку. Это не diffusion-генерация с нуля, а быстрый single-step inpainting — на GPU получается 30+ fps.

Что вы получите

  • MuseTalk 1.5 с предзагруженными весами (~5 ГБ);
  • Gradio веб-интерфейс на порту 7860;
  • доступ через браузер после запуска инстанса.

Как это работает

  1. Откройте Приложения → MuseTalk и нажмите Запустить.
  2. Пополните баланс — для первого запуска хватит суммы на ~30 минут работы GPU.
  3. Мастер предложит GPU от 8 ГБ VRAM (RTX 3060 и выше).
  4. Первый запуск занимает 20–25 минут (установка + загрузка весов).
  5. Нажмите «Открыть MuseTalk» на странице инстанса — загрузите лицо и аудио, скачайте результат.

Советы по качеству

  • Лицо фронтально, без сильных поворотов;
  • Аудио чистое, без музыки и шума;
  • Короткие клипы (до 1–2 минут) обрабатываются быстрее.

Сколько стоит

Около 25–45 ₽/час на RTX 3060/3090. Останавливайте инстанс после экспорта mp4.

Частые вопросы

Можно ли через SSH? Да — CLI inference.sh доступен на инстансе для продвинутых сценариев.

Что если зависло? Подождите до 30 минут на первом запуске. Если прогресс не двигается — пересоздайте инстанс; логи на странице деталей.

Рекомендуемые видеокарты

Готовы запустить?

Запустить туториал