Lip-sync на GPU

Синхронизация губ MuseTalk на облачном GPU

Аудио-управляемая синхронизация губ за один клик: загрузите фото или видео с лицом и WAV-аудио — получите talking-head mp4. Работает на GPU от 8 ГБ VRAM.

Запустить MuseTalk

Что это

MuseTalk 1.5 синхронизирует губы на фото или видео по WAV-аудио. Всё работает на вашем облачном GPU — файлы не уходят на сторонний SaaS.

Как пользоваться

  1. Запустите приложение — первый раз ~25 минут на установку.
  2. Откройте Gradio UI в браузере.
  3. Загрузите лицо + аудио → скачайте mp4.

Пошаговый туториал →

GPU для MuseTalk

Достаточно 8 ГБ VRAM — RTX 3060 для экономии, 4090 для быстрой обработки.

RTX 3090

24 ГБ VRAM

RTX 3090

от 85.29 ₽/час

≈ 65 412 ₽/мес при 24/7

RTX 4090

48 ГБ VRAM

RTX 4090

от 74.61 ₽/час

≈ 76 896 ₽/мес при 24/7

Частые вопросы

Какие входные файлы нужны?

Фото или короткое видео с лицом (фронтально, хорошее освещение) и WAV-аудио с речью. Результат — mp4 с синхронизированными губами.

Сколько ждать первый запуск?

Около 20–25 минут: установка MuseTalk, загрузка весов (~5 ГБ) и запуск Gradio UI на порту 7860.

Сколько VRAM нужно?

MuseTalk в fp16 занимает 2–3 ГБ — достаточно карты от 8 ГБ. RTX 3060 подходит.

Можно ли использовать коммерчески?

Вы арендуете GPU и запускаете open-source модель сами. Проверьте лицензии MuseTalk и используемых весов для вашего сценария.

Где хранятся мои файлы?

На вашем инстансе. После удаления инстанса данные теряются — скачайте результат до остановки.
Запустить MuseTalk