La première itération de mon haut-parleur AI entièrement automatisé. La seule entrée du programme est le texte et la surface du modèle que vous souhaitez utiliser. Il utilise VITS pour la parole, StyleGAN2 pour la génération de visage, First Order Motion Model pour le mouvement général, Wav2Lip pour le mouvement de la bouche, DFDNET pour la restauration du visage et DAIN pour l’interpolation de trame.