Lip-sync на GPU
Синхронизация губ MuseTalk на облачном GPU
Аудио-управляемая синхронизация губ за один клик: загрузите фото или видео с лицом и WAV-аудио — получите talking-head mp4. Работает на GPU от 8 ГБ VRAM.
Запустить MuseTalkЧто это
MuseTalk 1.5 синхронизирует губы на фото или видео по WAV-аудио. Всё работает на вашем облачном GPU — файлы не уходят на сторонний SaaS.
Как пользоваться
- Запустите приложение — первый раз ~25 минут на установку.
- Откройте Gradio UI в браузере.
- Загрузите лицо + аудио → скачайте mp4.
GPU для MuseTalk
Достаточно 8 ГБ VRAM — RTX 3060 для экономии, 4090 для быстрой обработки.
Частые вопросы
Какие входные файлы нужны?
Фото или короткое видео с лицом (фронтально, хорошее освещение) и WAV-аудио с речью. Результат — mp4 с синхронизированными губами.
Сколько ждать первый запуск?
Около 20–25 минут: установка MuseTalk, загрузка весов (~5 ГБ) и запуск Gradio UI на порту 7860.
Сколько VRAM нужно?
MuseTalk в fp16 занимает 2–3 ГБ — достаточно карты от 8 ГБ. RTX 3060 подходит.
Можно ли использовать коммерчески?
Вы арендуете GPU и запускаете open-source модель сами. Проверьте лицензии MuseTalk и используемых весов для вашего сценария.
Где хранятся мои файлы?
На вашем инстансе. После удаления инстанса данные теряются — скачайте результат до остановки.

