Vieillissement du visage avec l’IA

Que ce soit pour s'amuser dans un filtre Snapchat, pour un film, ou même pour enlever quelques rides, nous avons tous une utilité en tête pour changer notre âge dans une photo.

Cela est généralement fait par des artistes avec beaucoup d’expérience utilisant Photoshop ou un outil similaire pour éditer vos photos. Pire, dans une vidéo, ils doivent faire ce genre de montage manuel pour chaque image ! Imaginez la quantité de travail nécessaire pour cela. Eh bien, voici à la fois une solution et un nouveau problème à cette situation.

Résultats de l'article “FRAN”.

La publication de recherche la plus récente de Disney, FRAN, peut le faire automatiquement. C'est un gros avantage pour l'industrie cinématographique, vous permettant de vieillir instantanément quelqu'un pour un film entier à très peu de frais. Cependant, c'est un problème pour les artistes qui perdent simultanément certaines opportunités d'emploi, mais les aident à réduire leurs tâches ennuyantes et fastidieuses pour se concentrer sur des tâches reliées à leur talent.

Quelque chose de cool ici est qu'ils ont créé un outil basé sur FRAN pour que les artistes puissent utiliser et éditer les résultats (voir dans la vidéo), rendant leur travail plus efficace en se concentrant sur l'amélioration des détails plutôt que sur les modifications monotones par copier-coller. J'aimerais entendre vos réflexions à ce sujet sur notre communauté Discord. Mais concentrons-nous encore une fois sur le côté purement positif de ces travaux : les progrès scientifiques qu'ils ont réalisés dans le re-vieillissement numérique des visages en vidéo.

Résultats de l'article “FRAN”.

Ce que vous avez vu ci-dessus sont les résultats de ce nouvel algorithme appelé “FRAN”, et je pense que vous pouvez déjà être d'accord sur la qualité incroyable de ces résultats ! Il suffit de regarder à quel point cela semble plus réaliste par rapport à d'autres approches de re-vieillissement à la pointe de la technologie qui contiennent de nombreux artefacts et ne parviennent pas à conserver la même identité de la personne (voir ci-bas). De plus, l'approche de FRAN ne nécessite pas de centrer les visages comme le font ces autres approches, ce qui la rend encore plus impressionnante. Ce qui est encore plus incroyable, c'est la simplicité de leur approche.

Comparaison des résultats. Image du papier.

Tout d'abord, FRAN signifie sans surprise “Face Re-Aging Network”.

Cela signifie que le modèle est capable de prendre un visage et de modifier l'âge de la personne avec cohérence, réalisme et résultats haute résolution dans des expressions, des points de vue et des conditions d'éclairage variables.

Pour les films, l'apparence d'âge de l'acteur est généralement modifiée par l'équipe de production en utilisant des costumes, des coiffures, etc. dédiés, pour représenter l'âge visé, et seul le visage est laissé aux artistes numériques pour éditer image par image. C'est là que FRAN entre en jeu, se concentrant strictement sur les régions cutanées du visage. Les chercheurs se sont concentrés également sur les âges adultes uniquement, car les films ont déjà des techniques efficaces et différentes pour le vieillissement très jeune, car les formes du corps entier et des visages sont différentes et plus petites dans ces cas précis.

Mais comment peuvent-ils prendre un visage de n'importe quelle position et simplement changer son apparence pour ajouter ou enlever quelques dizaines d'années ? Principalement parce qu'ils n'ont aucun exemple (ou très peu) à montrer au modèle pour cette tâche. Cela signifie qu'ils ne peuvent pas former un algorithme pour répliquer les images avant et après. Il existe très peu d'exemples de la même personne avec 20 ans ou plus d'écart sous tous les angles. Ils doivent avoir une approche différente des approches d'apprentissage supervisé conventionnelles où vous essayez de reproduire les exemples que vous avez déjà. En règle générale, les chercheurs s'attaquent à ce problème en utilisant de puissants modèles formés sur des faux visages générés pour tous les âges. Bien que les résultats soient assez impressionnants, ils fonctionnent principalement sur les visages centrés et frontaux en raison des données d'entraînement des faux visages générés pour cela. Ainsi, les résultats sont difficilement généralisables à des scènes du monde réel, car ils ne conservent pas vraiment l'identité de la personne n’ayant pas été formée en utilisant la même personne à différentes périodes de temps, mais juste une variété de personnes avec différents âges. De plus, de tels images statiques pourront difficilement produire des résultats incorporant des mouvements faciaux réalistes en raison de leur entraînement sur ces images statiques : le modèle ne connaît pas la mécanique du monde réel, les changements d'éclairage, etc.

Résultats de l'article “SAM”.

Leur première contribution s'attaque à cet écart dans le nombre d'images d'une même personne à différents âges. Leur but ici est de faire la même chose que les approches précédentes, mais avec une petite modification. Ils utiliseront toujours de faux visages générés, mais construiront un ensemble de données contenant les mêmes visages avec des âges différents, donc le même arrière-plan et tout identique pour que l'algorithme se concentre strictement sur le visage. Ils ont pensé que même si ces approches ne se généralisent pas vraiment bien dans le monde réel et dans les scènes vidéo, ils comprennent très bien le processus de vieillissement, donc ils pourraient l'utiliser pour générer plus d'images de la même personne à différents âges dans un premier temps. pour construire un meilleur ensemble de données. Cette étape est réalisée à l'aide d'un autre modèle appelé SAM, qui peut prendre le visage d'une personne parfaitement centré et le vieillir. Il ne sera utilisé que pour construire notre ensemble d'images avant et après à utiliser pour la formation de leur algorithme FRAN. Cette étape est nécessaire, car nos algorithmes sont trop stupides pour généraliser à partir de peu d'exemples comme nous (humains) le faisons, et nous ne pouvons pas obtenir autant de photos de visages réels avec le même éclairage, le même arrière-plan et les mêmes vêtements à différents âges : elles doivent être générées artificiellement.

Présentation du modèle FRAN. Gauche : modèle U-Net pour générer le masque prédit pour le vieillissement. À droite : la prédiction du discriminateur des images réelles (à partir de l'ensemble de données) ou générées pour l'entraînement. Image tirée du papier.

La deuxième contribution consiste à utiliser ce nouvel ensemble d'images qu'ils ont créépour former un algorithme capable de reproduire ce processus sur des scènes du monde réel avec une bonne cohérence entre les images composant une vidéo. L'algorithme qu'ils ont construit est, en fait, assez simple et similaire à la plupart des algorithmes de traduction d'image à image que vous trouverez. Ils utilisent une architecture U-Net, qui prend un âge d'entrée et de sortie et une image pour apprendre la meilleure façon de la transformer en une nouvelle image en l'encodant dans l'espace le plus significatif possible et en la décodant dans la nouvelle image. Ainsi, le réseau apprend à prendre n'importe quelle image et à l'introduire dans ce que nous appelons un espace latent où nous avons nos encodages. Cet espace latent contient essentiellement toutes les informations nécessaires que le réseau a appris pour sa tâche spécifique, donc les différentes caractéristiques du visage pour cet individu particulier, mais ne contient pas d'informations sur l'arrière-plan de l'image et d'autres caractéristiques qui ne sont pas nécessaires pour le vieillissement.

Ensuite, il faut ces informations pour prédire une sorte de masque de vieillissement. Ce masque ne contiendra que les parties qui doivent être modifiées dans l'image pour un effet de vieillissement rendant la tâche beaucoup plus gérable que de prédire à nouveau l'image entière. Et nous fusionnons simplement ce masque prédit avec notre image initiale pour obtenir le visage vieilli. Ce masque est la principale raison pour laquelle leur approche est tellement meilleure pour préserver l'identité de la personne puisqu'ils limitent le champ d'action de leur réseau aux seules modifications de la peau affectant le vieillissement et non à l'image entière. Lorsque vous ne pouvez pas le rendre plus intelligent, rendez-le simplement plus spécifique !

Le modèle est formé selon une approche GAN, ce qui signifie qu'il utilisera un autre modèle que vous voyez dans l'image de présentation du modèle ci-dessus, à droite, appelé discriminateur formé simultanément utilisé pour calculer si l'image vieillie générée est similaire à celles nous avons dans notre ensemble de données de formation, évaluant essentiellement ses résultats pour guider la formation.

Et voilà ! C'est ainsi que FRAN vous aide à vieillir votre visage entre 18 et 85 ans.

Bien sûr, ce n'était qu'un simple aperçu de cette nouvelle publication de DisneyResearch, et je vous recommande de lire leur excellent article pour plus d'informations et une analyse des résultats (lien ci-dessous). Si vous n'êtes pas familier avec les GANs, je vous suggère de regarder la courte vidéo d'introduction que j'ai faite à leur sujet.

Merci d'avoir lu, et je vous verrai la prochaine fois avec un autre papier incroyable!

Références

►Loss et al., DisneyResearch, 2022: FRAN, https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/
► GANs expliqués: https://youtu.be/ZnpZsiy_p2M
►SAM: https://yuval-alaluf.github.io/SAM/
►Discord: https://www.louisbouchard.ai/learn-ai-together/

Louis-François Bouchard

Hello! Je suis Louis-François Bouchard, de Montréal, Canada, aussi connu sous le nom de 'What's AI' et j'essaie de partager et de vulgariser tout ce qui est en lien avec l'intelligence artificielle. Mon objectif est de démystifier la «boîte noire» de l'IA pour tous et de sensibiliser les gens aux risques de son utilisation.

https://www.youtube.com/channel/UCIUgms0TE2WhQijbU-IMYyw
Précédent
Précédent

Cette IA peut cloner votre voix !

Suivant
Suivant

Comment parler à une IA