SadTalker-Video-Lip-Sync

Этот проект основан на SadTalker для реализации Wav2lip для синтеза видео губ. Используя видеофайлы для создания форм губ, управляемых голосом, и устанавливая настраиваемый метод улучшения для области лица, выполняется улучшение изображения области синтетической формы губ (лица), чтобы улучшить четкость сгенерированных форм губ. Используйте алгоритм DL интерполяции кадров DAIN, чтобы добавлять кадры в сгенерированное видео и дополнить действие перехода синтетических форм губ между кадрами, делая синтезированные формы губ более плавными, реалистичными и естественными.

Колаб:

1.Установка среды. (Environment)

git clone https://github.com/NeuroDonu/SadLIpFIX
cd /SadLIpFIX/
python -m venv venv 
pip install torch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
apt install ffmpeg -y
pip install -r requirements.txt
python -m pip install paddlepaddle-gpu==2.3.2 --extra-index-url https://paddle-wheel.bj.bcebos.com/2.5.1/linux/linux-gpu-cuda12.0-cudnn8.9-mkl-gcc12.2-avx/paddlepaddle_gpu-2.5.1.post120-cp39-cp39-linux_x86_64.whl

2.Структура репозитория

SadTalker-Video-Lip-Sync
├──checkpoints
|   ├──BFM_Fitting
|   ├──DAIN_weight
|   ├──hub
|   ├── ...
├──dian_output
|   ├── ...
├──examples
|   ├── audio
|   ├── video
├──results
|   ├── ...
├──src
|   ├── ...
├──sync_show
├──third_part
|   ├── ...
├──...
├──inference.py
├──README.md

3.ВЗаимодействие

python inference.py --driven_audio <audio.wav> \
                    --source_video <video.mp4> \
                    --enhancer <none,lip,face> \  #(lip по дефолту)
                    --use_DAIN \ #(Использование этой функции займет большой объем видеопамяти и отнимет много времени.)
             		--time_step 0.5 #(Частота вставки кадров, по умолчанию 0,5, то есть 25 кадров в секунду —> 50 кадров в секунду; 0,25, то есть 25 кадров в секунду —> 100 кадров в секунду.)

4.Модели

Весь список моделей：

├──checkpoints
|   ├──BFM_Fitting
|   ├──DAIN_weight
|   ├──hub
|   ├──auido2exp_00300-model.pth
|   ├──auido2pose_00140-model.pth
|   ├──epoch_20.pth
|   ├──facevid2vid_00189-model.pth.tar
|   ├──GFPGANv1.3.pth
|   ├──GPEN-BFR-512.pth
|   ├──mapping_00109-model.pth.tar
|   ├──ParseNet-latest.pth
|   ├──RetinaFace-R50.pth
|   ├──shape_predictor_68_face_landmarks.dat
|   ├──wav2lip.pth

Скачать можете вот тут: https://mega.nz/file/cW833LJY#ZCaLy3_5SUntsb_wOPztzVAwwI2rbmva8sf4bIWxPTw

#Установка чекпоинтов
apt install megatools
cd SadTalker-Video-Lip-Sync
megadl https://mega.nz/file/cW833LJY#ZCaLy3_5SUntsb_wOPztzVAwwI2rbmva8sf4bIWxPTw
tar -zxvf checkpoints.tar.gz

Все свежие новости выходят на моем канале

Взято за основу

SadTalker: https://github.com/Winfredy/SadTalker
VideoReTalking：https://github.com/vinthony/video-retalking
DAIN: https://arxiv.org/abs/1904.00830
PaddleGAN: https://github.com/PaddlePaddle/PaddleGAN

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SadTalker-Video-Lip-Sync

1.Установка среды. (Environment)

2.Структура репозитория

3.ВЗаимодействие

4.Модели

Взято за основу

About

Releases 1

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 39 Commits
checkpoints		checkpoints
dian_output		dian_output
examples		examples
results		results
src		src
sync_show		sync_show
third_part		third_part
README.md		README.md
app.py		app.py
inference.py		inference.py
notebok.ipynb		notebok.ipynb
requirements.txt		requirements.txt

NeuroDonu/SadLIpFIX

Folders and files

Latest commit

History

Repository files navigation

SadTalker-Video-Lip-Sync

1.Установка среды. (Environment)

2.Структура репозитория

3.ВЗаимодействие

4.Модели

Взято за основу

About

Resources

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages