Édition d'image à partir de texte avec l’IA ! Imagic expliqué

La publication scientifique de cette semaine pourrait bien être votre prochain modèle préféré à ce jour.

Si vous pensez que les récents modèles de génération d'images comme DALLE ou Stable Diffusion sont cool, vous ne croirez pas à quel point celui-ci est incroyable.

C'est Imagic :

Résultats d’Imagic éditant diverses images d'entrée. Image tirée du papier.

Imagic prend un tel modèle basé sur la diffusion capable de prendre du texte et de générer des images et adapte le modèle pour éditer les images à la plce. Regardez ça... Vous pouvez générer une image, puis apprendre au modèle à la modifier comme vous le souhaitez.

C'est un pas assez important vers votre Photoshop personnel gratuit.

Le modèle comprend non seulement ce que vous voulez montrer, mais il est également capable de rester réaliste tout en conservant les propriétés des images initiales. Regardez comment le chien et la personne restent les mêmes dans toutes les images ici.

Résultats d’Imagic éditant diverses images d'entrée. Image tirée du papier.

Cette tâche s'appelle l'édition d'image conditionnée par du texte. Cela signifie éditer des images en utilisant uniquement du texte et une image initiale, ce qui était pratiquement impossible il y a à peine un an. Maintenant, regardez ce qu'on peut faire !

Oui, tout cela se fait à partir d'une seule image d'entrée et d'une courte phrase où vous dites ce que vous aimeriez avoir. À quel point est-ce incroyable ? !

La seule chose encore plus cool, c'est comment ça marche. Plongeons-y !

Ce modèle, comme la grande majorité des articles publiés ces jours-ci, est basé sur des modèles de diffusion. Plus précisément, il prend un modèle de générateur d'images qui a déjà été formé pour générer des images à partir de texte et l'adapte à l'édition d'images. Dans leur cas, ils utilisent Imagen, dont j'ai parlé dans un article précédent. Il s'agit d'un modèle génératif basé sur la diffusion capable de créer des images haute définition après avoir été formé sur un énorme ensemble de données de paires image-légende.

Visualisation du modèle Imagen. Image tirée du papier.

Dans le cas d'Imagic, ils prennent simplement ce modèle Imagen pré-formé comme base et y apportent des modifications afin d'éditer l'image envoyée en entrée, en gardant l'apparence spécifique à l'image, comme la race et l'identité du chien, et en éditant il suit notre texte.

Vue d'ensemble du processus de mise au point d'Imagic. Image tirée du papier.

Donc pour commencer (image ci-dessus, à gauche), nous devons encoder à la fois le texte et l'image initiale afin qu'elle puisse être comprise par notre modèle Imagen. Lorsque cela est fait, nous optimisons nos encodages de texte, ou incorporations de texte, pour mieux correspondre à notre image initiale. Fondamentalement, en prenant notre représentation textuelle et en l'optimisant pour notre image initiale, appelée e_opt, pour être sûr que le modèle comprend que, dans cet exemple, nous voulons générer le même type d'image avec un oiseau et un arrière-plan similaires.

Ensuite, nous prenons notre générateur d'images pré-formé pour l'affiner. Cela signifie que nous allons réentraîner le modèle Imagen en conservant l’encodage optimisé que nous venons de produire. Donc ces deux étapes servent à rapprocher l’encodage de texte de l’encodage d'image en gelant l'un des deux et en rapprochant l'autre, ce qui nous assurera d'optimiser pour les deux (a et b, image ci-dessus) le texte et l'image initiale, et non seulement l'un des deux.

Maintenant que notre modèle comprend l'image initiale et notre texte et comprend qu'ils sont similaires, nous devons lui apprendre à générer de nouvelles variations d'image pour ce texte.

Cette partie est super simple. Nos intégrations de texte et nos intégrations optimisées pour les images sont très similaires, mais pas exactement identiques. La seule chose que nous faisons ici est de prendre l'image encodée dans notre espace encodé et de la déplacer un peu vers l’encodage de texte.

À ce moment, si vous demandez au modèle Imagic de générer une image en utilisant le l’encodage optimisé, il devrait vous donner la même image que votre image d'entrée. Donc, si vous déplacez un peu cet encodage vers les encodages de votre texte, cela modifiera également un peu l'image vers ce que vous voulez (image ci-dessus, c). Plus vous le déplacerez dans cet espace, plus le montage sera important et plus vous vous éloignerez de votre image initiale. Donc, la seule chose que vous devez déterminer maintenant est la taille du pas que vous voulez faire vers votre texte.

Étape n vers e_target (nos encodages de texte).

Et voilà !

Lorsque vous trouvez votre équilibre parfait avec n, vous disposez d'un nouveau modèle capable de générer autant de variations que vous le souhaitez tout en conservant les attributs importants de l'image tout en éditant comme vous le souhaitez !

Bien sûr, les résultats ne sont pas encore parfaits, comme vous pouvez le voir ici, où le modèle ne s'édite pas correctement ou effectue des modifications d'image aléatoires sur l'image initiale, comme un recadrage ou un zoom inapproprié. Pourtant, cela reste très impressionnant si vous me demandez. Je trouve le rythme de progression de la génération d'images incroyable, et c'est à la fois incroyable (positif) et effrayant. J'aimerais connaître votre opinion sur ces types de modèles de génération et d'édition d'images. Pensez-vous qu'ils sont une bonne ou une mauvaise chose? À quels types de conséquences pouvez-vous penser si de tels modèles deviennent de plus en plus puissants ?

Exemples de cas d'échec. Image tirée du papier.

Vous pouvez trouver plus de détails sur les paramètres spécifiques qu'ils ont utilisés pour obtenir ces résultats dans leur article, que je vous invite définitivement à lire.

Je vous invite également à lire mon article sur Imagen si vous souhaitez plus d'informations sur la partie génération d'image et son fonctionnement.

Je vous verrai la semaine prochaine avec une autre publication incroyable!

References

►Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image Editing with Diffusion Models. arXiv preprint arXiv:2210.09276.
► Use it with Stable Diffusion: https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb
►My Newsletter (A new AI application explained weekly to your emails!): https://www.louisbouchard.ai/newsletter/

Louis-François Bouchard

Hello! Je suis Louis-François Bouchard, de Montréal, Canada, aussi connu sous le nom de 'What's AI' et j'essaie de partager et de vulgariser tout ce qui est en lien avec l'intelligence artificielle. Mon objectif est de démystifier la «boîte noire» de l'IA pour tous et de sensibiliser les gens aux risques de son utilisation.

https://www.youtube.com/channel/UCIUgms0TE2WhQijbU-IMYyw
Précédent
Précédent

eDiffi expliqué : Un nouveau modèle de synthèse d'images par NVIDIA !

Suivant
Suivant

Modèles 3D à partir de texte ! DreamFusion expliqué