Что такое MuseTalk

MuseTalk — open-source модель для синхронизации губ по аудио: вы даёте изображение или видео с лицом и WAV-файл с речью — на выходе получаете mp4, где губы двигаются в такт звуку. Это не diffusion-генерация с нуля, а быстрый single-step inpainting — на GPU получается 30+ fps.

Что вы получите

MuseTalk 1.5 с предзагруженными весами (~5 ГБ);
Gradio веб-интерфейс на порту 7860;
доступ через браузер после запуска инстанса.

Как это работает

Откройте Приложения → MuseTalk и нажмите Запустить.
Пополните баланс — для первого запуска хватит суммы на ~30 минут работы GPU.
Мастер предложит GPU от 8 ГБ VRAM (RTX 3060 и выше).
Первый запуск занимает 20–25 минут (установка + загрузка весов).
Нажмите «Открыть MuseTalk» на странице инстанса — загрузите лицо и аудио, скачайте результат.

Советы по качеству

Лицо фронтально, без сильных поворотов;
Аудио чистое, без музыки и шума;
Короткие клипы (до 1–2 минут) обрабатываются быстрее.

Сколько стоит

Около 25–45 ₽/час на RTX 3060/3090. Останавливайте инстанс после экспорта mp4.

Частые вопросы

Можно ли через SSH? Да — CLI inference.sh доступен на инстансе для продвинутых сценариев.

Что если зависло? Подождите до 30 минут на первом запуске. Если прогресс не двигается — пересоздайте инстанс; логи на странице деталей.

Синхронизация губ MuseTalk