Louis-François Bouchard

View Original

Dalle mini est incroyable - et VOUS pouvez l'utiliser !

Je suis sûr que vous avez vu des images comme celles ci-dessus dans votre fil Twitter ces derniers jours. Si vous vous demandiez ce que c'était, ce sont des images générées par une IA appelée DALL·E mini. Si vous ne les avez jamais vus, vous devez lire cet article, car vous manquez quelque chose. Si vous vous demandez comment cela est possible, eh bien, vous êtes sur l'article parfait et saurez la réponse en moins de cinq minutes.

Ce nom, DALL·E, doit déjà vous dire quelque chose, puisque j'ai couvert deux versions de ce modèle réalisées par Open AI au cours de la dernière année avec des résultats incroyables. Mais celui-ci est différent. DALL·E mini est un projet open-source créé par la communauté inspiré de la première version de DALL·E et qui n'a cessé d'évoluer depuis lors, avec maintenant des résultats incroyables grâce à Boris Dayma et à tous les contributeurs.

Oui, cela signifie que vous pouvez jouer avec le modèle tout de suite, grâce à Huggingface. Le lien se trouve dans les références ci-dessous, mais restez quelques secondes de plus avant de quitter! Ça en vaudra la peine et vous en saurez beaucoup plus sur cette IA que tous ceux que vous connaissez autour de vous.

Aperçu du modèle dalle mini.

À la base, DALL·E mini est très similaire à DALL·E, donc ma vidéo initiale sur le modèle est une excellente introduction à celle-ci. Il a deux composants principaux, comme vous vous en doutez, un module de langage et un module d'image.

Tout d'abord, Dalle mini doit comprendre le texte, puis générer des images, deux choses très différentes nécessitant deux modèles très différents. Les principales différences avec DALL·E résident dans les architectures du modèle et les données d’entraînement, mais le processus de bout en bout est à peu près le même. Ici, nous avons un modèle de langage appelé BART. BART est un modèle formé pour transformer une saisie de texte en un langage compréhensible pour le modèle suivant. Pendant l’entraînement, nous alimentons des paires d'images avec des légendes à DALL·E mini. BART prend la légende de texte et la transforme en jetons discrets, et nous ajustons BART en fonction de la différence entre l'image générée et l'image envoyée en entrée.

Modèle et encodages BART dans l’architecture de dalle mini.

Mais alors, quelle est cette chose qui génère l'image ? Nous appelons cela un décodeur. Il prendra cette nouvelle représentation de texte produite par BART, que nous appelons un encodage (encoding), et la décodera en une image. Dans ce cas, le décodeur d'image est VQGAN, un modèle que j'ai déjà couvert sur la chaîne, donc je vous invite définitivement à le regarder si vous êtes intéressé.

VQGAN dans l’architecture de dalle mini

En bref, VQGAN est une excellente architecture pour faire le contraire de BART. Il apprend à partir d'un tel mappage d'encodage à générer une image. Comme vous vous en doutez, GPT-3 et d'autres modèles génératifs de langage font une chose très similaire, encodant le texte et décodant le mappage nouvellement généré dans un nouveau texte qu'il vous renvoie. Ici c'est la même chose, mais avec des pixels formant une image au lieu de lettres formant une phrase. VQGAN apprend à travers des millions de paires d'images d'encodage sur Internet, donc essentiellement vos images publiées avec des légendes, et finit par être assez précis dans la reconstruction de l'image initiale.

Ajout de bruit aux encodages pour générer une variation de l'image

Ensuite, vous pouvez lui donner de nouveaux encodages qui ressemblent à ceux de l’entraînement, mais un peu différents, et cela générera une image complètement nouvelle, mais tout de même similaire décrivant le même texte. De même, nous ajoutons généralement juste un peu de bruit à ces encodages pour générer une nouvelle image représentant la même invite de texte.

Et voilà ! C'est ainsi que DALL·E mini apprend à générer des images à partir de vos entrées de texte.

Regardez plus de résultats dans la vidéo sous-titrée en français :

Comme je l'ai mentionné, il est open-source, et vous pouvez même jouer avec le modèle tout de suite, grâce à Huggingface. Bien sûr, ce n'était qu'un simple aperçu, et j'ai omis certaines étapes importantes pour plus de clarté. Si vous souhaitez plus de détails sur le modèle, j'ai lié d'excellentes ressources dans les références ci-dessous. J'ai également récemment publié deux courtes vidéos sur YouTube présentant des résultats amusants ainsi que des résultats de comparaison avec DALL·E 2 pour les mêmes invites de texte.

C'est assez cool à voir !

J'espère que cet article et la vidéo vous ont plu, et si c'est le cas, prenez quelques secondes pour me le faire savoir dans les commentaires et laissez un like.

Je vous verrai, non pas la semaine prochaine, mais dans deux semaines avec un autre papier incroyable !

References

►DALL·E mini vs. DALL·E 2: https://youtu.be/0Eu9SDd-95E
►Les résultats de mini-DALL·E les plus étranges/les plus drôles: https://youtu.be/9LHkNt2cH_w
►Jouez avec DALL·E mini: https://huggingface.co/spaces/dalle-mini/dalle-mini
►Code de DALL·E mini: https://github.com/borisdayma/dalle-mini
►Twitter de Boris Dayma: https://twitter.com/borisdayma
►Excellent rapport technique complet de Boris Dayma et al.: https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA#the-clip-neural-network-model
►Excellent Thread Twitter sur Dall-e mini par Tanishq Mathew Abraham : https://twitter.com/iScienceLuvr/status/1536294746041114624/photo/1?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1536294746041114624%7Ctwgr%5E%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.redditmedia.com%2Fmediaembed%2Fvbqh2s%3Fresponsive%3Dtrueis_nightmode%3Dtrue
►Vidéo sur VQGAN: https://youtu.be/JfUTd8fjtX8
►Ma Newsletter (Anglais): https://www.louisbouchard.ai/newsletter/

Rejoignez notre communauté sur Discord, Learn AI Together (anglais):
https://discord.gg/learnaitogether