Le meilleur DeepFake à ce jour !

27 avr.

Ce nouveau modèle de Google Research et de l'Université de Tel-Aviv est incroyable. Vous pouvez le voir comme un deepfake très, très puissant qui peut quasiment tout faire. Prenez une centaine de photos de n'importe quelle personne et vous avez sa personnalité encodé pour fixer, éditer ou créer n'importe quelle image réaliste que vous voulez. C'est à la fois étonnant et effrayant, surtout quand vous regardez les résultats. Prenez juste une minute pour les admirer en vidéo (voir en fin d’article)…

Le modèle utilise simplement une architecture StyleGAN, que j'ai déjà couverte dans de nombreux articles, donc je n'entrerai pas dans les détails de ce réseau. Rapidement, StyleGAN prend une image, l'encode à l'aide de réseaux de neurones convolutifs et est entraîné pour parvenir à régénérer la même image. Si cela sonne comme une autre langue, prenez juste deux minutes pour regarder cette vidéo que j'ai faite sur StyleGAN.

Comment StyleGAN édite les images. Image de l'auteur.

Ensuite, lorsque vous l'avez bien entraîné avec un grand jeu de données de nombreuses personnes, vous pouvez lui apprendre à transformer l'image directement à partir de l'espace encodé appris, comme je l'ai expliqué dans mes articles. Vous n'avez donc plus besoin de l'alimenter en images, vous pouvez simplement jouer avec ce que nous appelons le générateur et l’espace latent.

Cela signifie que vous pouvez lui apprendre à changer l'image entière comme une application de transfert de style où, par exemple, vous prendrez une image réaliste et l'encoderez, ou commencerez directement à partir de l'encodage et la transformerez en une image numérique de type anime, comme on peut voir ci-haut. Formé et manipulé correctement, vous pouvez également modifier uniquement certaines caractéristiques locales telles que la couleur des cheveux ou toute autre modification pour vous mettre en valeur.

Présentation générale de ce modèle en deux étapes. Image tirée du papier.

Ainsi, ce nouveau modèle appelé MyStyle utilise ce second modèle “de base”, StyleGAN, et le modifie pour réaliser une tâche de transfert de style et toute tâche pouvant être associée à votre visage. Comme je l'ai dit, il apprend littéralement à quoi vous ressemblez et peut faire à peu près n'importe quoi ; inpainting, super-résolution ou édition.

L'inpainting d'image est survient lorsque vous auriez un objet dans le plan couvrant votre visage et vous retireriez cet objet de l'image afin de faire réapparaître votre visage. Tout comme si vous activiez la transparence dans un jeu vidéo pour voir à travers les murs.

La super-résolution d'image est une tâche incroyablement difficile lorsque vous essayez de généraliser à de nombreux visages différents, mais beaucoup plus facile lorsque vous vous concentrez sur une seule personne. Ici, le but est de prendre une image en très basse définition et de la transformer en une image haute résolution. Donc, en gros, vous avez ceci, une image floue de vous-même, et vous essayez de la faire ressembler à ceci (image de droite ci-dessus).

Vous pouvez voir à quel point ces deux applications sont assez difficiles pour une machine, car elle doit connaître la personne afin de combler de gros trous ou d'ajouter des pixels pour rendre le visage plus net. Le modèle doit essentiellement être à la fois un ami très proche de vous et un grand artiste en même temps, car il doit savoir à quoi ressemble votre visage sous n'importe quel angle, ainsi que pouvoir le dessiner de manière réaliste. Bien que je fasse toujours de mon mieux pour être le meilleur ami possible, oubliez-moi de dessiner une version précise de votre visage si vous voulez de bons résultats. C'est juste à un autre niveau.

Donc, en prenant cette base de StyleGAN entraîné avec un énorme ensemble de données générales de milliers de personnes et une centaine de photos de vous-même, MyStyle apprendra un espace latent (encodé) unique à votre visage (étape 1 dans l'aperçu du modèle ci-dessus). Il vous trouvera essentiellement dans la représentation encodée de tous les visages et sera ré-entrainé pour pousser le modèle à se concentrer sur vos différents traits.

Ensuite, vous pourrez lui fournir des photos incomplètes ou ratées de vous-même et lui demander de les réparer pour vous (étape 2 dans l'aperçu du modèle ci-dessus). C’est top! Cela nécessite pas mal d'images de vous-même, mais 100 images signifient seulement une bonne journée à l'extérieur avec un ami et vos téléphones pour avoir de bien meilleurs résultats que les modèles généraux qui essaient de généraliser à tout le monde. C'est aussi beaucoup moins cher que d'engager un professionnel sur Photoshop et de lui demander de retoucher toutes vos futures photos.

Pourtant, vous pouvez voir à quel point ce genre de modèle peut être dangereux pour les personnes célèbres ou celles qui ont beaucoup de photos Instagram. Quelqu'un pourrait les utiliser pour entraîner un modèle et créer des images super réalistes de vous-même dans des situations compromettantes. C'est pourquoi je dis souvent qu'on ne peut plus se fier à ce qu'on voit, surtout sur internet. Ne pensons même pas à tous les problèmes possibles quand ce sera aussi dans le monde réel avec des lunettes de réalité augmentée…!

Ces photos de Lady Gaga n'existent pas. Image tirée du papier.

Néanmoins, les résultats sont fantastiques et bien meilleurs que ce que nous avons vu avant de considérer qu'il ne nécessite qu'une centaine de photos de vous-même au lieu d'heures de prise de vue vidéo pour les DeepFakes plus anciens. Ce modèle a également beaucoup moins d'artefacts que ceux nécessitant moins d'images effectuant une seule tâche .

Et voilà ! C'est ainsi que MyStyle, un nouveau modèle de Google Research et de l'Université de Tel-Aviv, est capable d'effectuer l'inpainting d'images, la super-résolution d'images et l'édition d'images en utilisant une architecture et un schéma d’entraînement uniques par rapport à d'autres approches, car il se concentre sur la personne plutôt que sur la tâche elle-même, ce qui rend les résultats beaucoup plus précis, réalistes et généralisables.

J'espère que vous avez apprécié l'article! Faites-moi savoir ce que vous pensez de ce format plus court et plus simple, si vous l'aimez ou non. Bien sûr, ce n'était qu'un aperçu rapide de ce nouveau papier de recherche et je recommande fortement de lire le document en lien ci-dessous pour une meilleure compréhension de leur méthode d’entraînement et du modèle.

Je vous verrai la semaine prochaine avec un autre article incroyable!

Louis

Regardez la vidéo en anglais sous-titrée en français

Références

►Nitzan, Y., Aberman, K., He, Q., Liba, O., Yarom, M., Gandelsman, Y., Mosseri, I., Pritch, Y. and Cohen-Or, D., 2022. MyStyle: A Personalized Generative Prior. arXiv preprint arXiv:2203.17272.
►Code (arrive bientôt): https://mystyle-personalized-prior.github.io/
►Ma Newsletter (En anglais): https://www.louisbouchard.ai/newsletter/

Louis-François Bouchard

Hello! Je suis Louis-François Bouchard, de Montréal, Canada, aussi connu sous le nom de 'What's AI' et j'essaie de partager et de vulgariser tout ce qui est en lien avec l'intelligence artificielle. Mon objectif est de démystifier la «boîte noire» de l'IA pour tous et de sensibiliser les gens aux risques de son utilisation.

https://www.youtube.com/channel/UCIUgms0TE2WhQijbU-IMYyw

Le meilleur DeepFake à ce jour !

Regardez la vidéo en anglais sous-titrée en français

Références

Le nouveau modèle de Meta (OPT) est un GPT-3 open source !

Une IA qui résume automatiquement vos documents