Lipsynch / id plugin ? [Archives]

Voir la version complète : Lipsynch / id plugin ?

dotcom

19/02/2011, 13h18

Hello,

Une petite question que je me pose mais qui n'a rien de lié avec un projet en cours, c'est juste une interrogation.
Je ne sais pas s'il existe un plug sur le lipstick 3d pour C4D, mais bref, voilà :

Je fais le maillage type d'une bouche et pour quelques lettres ou sons j'applique un morphtag,
mettons qu'il y ait le morphtag pour un "u" prononcé,
pour un "a" pour un "i" pour un "o"
(je ne sais pas quels sont les sons de base utilisés pour l'animation de persos, mais ça doit bien se trouver qqpart).

chaque morphtag a donc son petit slider de 0 à 100.

Maintenant j'anim selon une bande son ...
le sais que la voix-off passe du "o" au "i" puis au "a" etc.
donc j'anim mes petits sliders selon les sons prononcés, et j'y passe des heures...

N'y aurait-il pas un moyen de faire dire par ma bouche le fichier son automatiquement ?
on gagnerait un temps d'animation considérable...

Donc j'ajoute des points clefs dans mon animation :
à la frame 10 ma bouche dit un o
à la frame 15 elle dit un i
puis à la frame 20 elle dit un a

10:o , 15:i , 20:a

Un petit xpresso passe par là aidé par un coffee ou un python ou autre serpentin caféiné du genre...
il lit la timeline (ou un fichier texte) et applique la valeur 100 du slider à l'instant ou se prononce la lettre
puis revient à 0 au moment ou une autre lettre se prononce qui à son tour pousse son slider à 100,
etc.

ça automatiserait bien des choses et autoriserait bien des avatars...

Supposons aussi que je puisse intégrer le maillage d'une bouche que j'ai modélisé : on a un plug-in qui s'adapte
à la fois selon une mod et à la fois selon un fichier son donné.
On a juste à modeliser sa bouche personnalisée
et à donner des valeurs sur une timeline.

Possible ?

valkaari

20/02/2011, 02h17

Ben déjà identifier les sons, c'est pas une mince affaire. Possible, mais pas simple. Le faire pour toutes les voix possible, femme enfant, gros bucherons du fond des alpes ça doit rajouter de la difficulté.

Rajoute à ça, une capacité à pouvoir déformer tout type de bouche (ou quelques points précis).

Rajoute ensuite les émotions qui vont venir modifier la forme de ta bouche. Tant que tu y es, rajoute le volume, puisqu'entre chuchoter et crier, l'ouverture n'est pas la même.

Tu te rends compte que le nombre de possibilité est très importante avec à chaque étape une petit peu "d'aléatoire".

Tout ça vas rendre très hardcore le codage d'un outils capable de le faire. L'outil devant être capable de gérer le plus de possibilités possible.

Fluffy

20/02/2011, 03h45

On dit "lipsynch", par contre. "lipstick", cela veut dire rouge à lèvre :)

dotcom

20/02/2011, 07h48

merci vous deux!
j'ai corrigé le titre du topic.

Facial tracking...
Facial motion capture
c'est le truc à utiliser donc !

Tengaal

20/02/2011, 10h50

l'animation de personnage est un métier, si une fonction ou un bouton suffisait à faire un lipsync complet et impeccable sur une bande son, alors il n'y aurait plus grand monde à bosser chez Pixar ! :)

je fait pas mal d'avatar ou "presentateur virtuels" pour les sites, et je fais pas mal de Lipsync manuellement justement.
Quand on a une bonne palette de morphing de phonème (environ une dixaine) + morphings d'expressions de visage, alors ça s'anime très vite une fois que la bande son est intégré dans C4D.

en 2H je traite environ 16s de parlé.

En sachant qu'avec l'expérience, on va de plus en vite, notamment du fait que lorsqu'on parle, notre bouche n'articule pas chaque lettre des mots, les lèvres font des "raccourcis", par exemple les R,C,Q sont des sonorités guturales, donc indépendantes des lèvres, donc pas la peine de créer des clés pour ces consonnes.

de même quand on prononce toute une phrase, les mots sont enchainés directement, il n'y a pas de rupture, donc là encore la bouche fait aussi des raccourcis au niveau des enchainements de mots.

bref, au début pour apprendre, le mieux c'est de prononcer le mot à animer devant un miroir et de regarder ce que prononce réellement la bouche quand on prononce le mot ou une sequence de mots.

Ensuite avec la pratique on sait ou même les clés de prononciation dans un phrasé et là ça s'anime très vite.

bien sûr il y a les solutions de captures faciales, mais ça veut dire soit, que celui ou celle qui fait la voix, doit également générer la mocap, ce qui n'est pas forcément évident, car souvent le client arrive avec sa bande son et c'est tout. Ou bien il faut faire soi-même la mocap en playback sur la bande son, mais là il faut faire du doublage donc être bien synchro avec la bande son fournie...
Et puis il faut également lors de la mocap avoir une attitude comédien pour jouer le texte, car ce qui est capturé sur le visage donnera l'expression du personnage 3D, donc ça compte aussi. le personnage peut parlé avec un air souriant, ou bien anxieux, ou alors attristé, ect...
là encore c'est un travail d'animation, ou un travail d'acteur si c'est de la mocap.