DALLE 3 expliqué : améliorer la génération d'images avec de meilleures légendes !

L'année dernière, nous avons été époustouflés par DALL·E 2, le second modèle de texte en image super impressionnant d'OpenAI. Mais aujourd'hui, préparez-vous à entrer dans un monde où l'art et la technologie fusionnent comme jamais auparavant avec sa troisième version !

Plongeons dans DALL·E 3 avec un tout nouvel article scientifique qu'OpenAI vient de publier et découvrons les avancées qui le placent loin devant DALL·E 2 !

Légende traduite automatiquement: Dans un décor fantastique, un humanoïde à fourrure hautement détaillé avec des yeux perçants pose avec confiance en plan moyen, vêtu d'une veste en peau d'animal. L'artiste a magistralement rendu le personnage en art numérique, capturant les détails complexes de la fourrure et de la texture des vêtements. Image et légende tirées de l’article d’OpenAI.

Formé sur des légendes d'images hautement descriptives, DALL·E 3 ne suit pas seulement les instructions - il leur donne vie. Les résultats sont incroyables, et il comprend non seulement les instructions, mais également l'histoire derrière votre instruction. Le progrès depuis 2020 est tout simplement incroyable.

Résultats de DALLE 1. Image de la publication d’OpenAI: A. Ramesh et al., Zero-shot text-to-image generation, 2021. arXiv:2102.12092.

Au cœur des prouesses de DALL·E 3 se trouve un robuste “légendeur d'image”. Ce nouveau légendeur d'images est le facteur principal pour lequel DALL·E 3 est bien meilleur que DALL·E 2. Les modèles précédents étaient initialement formés de manière auto-supervisée avec des paires image-texte extraites d'Internet. Imaginez une photo Instagram et sa légende ou ses hashtags. Ce n'est pas toujours aussi informatif ou même lié. Les auteurs du post décrivent surtout le sujet principal sur la photo, pas toute l'histoire derrière ou l'environnement et le texte qui apparaît dans l'image avec le sujet principal. De même, ils ne disent pas où tout est placé dans l'image, ce qui serait une information utile pour assurer la recréation précise d'une image similaire. Pire encore, beaucoup de légendes sont juste des blagues, des pensées ou des poèmes qui n’ont aucun lien, partagés avec les images. À ce stade, entraîner avec de telles données revient à se tirer une balle dans le pied.

Et si, à la place, vous aviez les légendes parfaites ? Super détaillées avec toutes les informations spatiales nécessaires pour la recréer ? Ce serait parfait ! Mais comment pouvons-nous obtenir ces informations pour des millions d'images ? Nous pourrions embaucher des centaines ou des milliers d'humains pour écrire des descriptions pour chacune des images. Ou, nous pourrions utiliser un autre modèle pour comprendre les images et générer de meilleures légendes ! Eh bien, c'est ce qu'ils ont fait. D'abord, créez un puissant modèle de légende d'image, puis utilisez-le sur votre grand ensemble de données actuel de paires image-légende pour les améliorer.

DALL·E 3 a ainsi utilisé 95 % de légendes synthétiques et 5 % de légendes de base, un mélange qui l'élève à des domaines de créativité et de qualité inexplorés par ses prédécesseurs. Regardez ces légendes (image plus bas) ! Ne sont-elles pas meilleures qu'une brève description Instagram ? Elles sont à la fois bien écrites et super détaillées.

Image et légende tirées de l’article.

Et qu'est-ce que ce modèle de légende d'image exactement ? Eh bien, il est assez similaire à un modèle linguistique comme ChatGPT. Ici, au lieu de prendre du texte et de le décomposer en jetons, nous prenons des images. Les jetons sont les nombres que le modèle peut comprendre puis traiter pour générer des phrases qui auraient statistiquement un sens basé sur ce que l'utilisateur a demandé ou dit.

J'ai mentionné d'utiliser simplement des images au lieu de mots, mais ce n'est pas aussi simple. Les images sont beaucoup plus grandes que les mots contenant des milliers de valeurs de pixels. Heureusement, il existe des approches comme CLIP qui ont également été formées sur des paires image-légende pour prendre des images et les représenter dans un espace compressé. Il le fait en convertissant à la fois l'image et le texte dans un nouvel espace que seul lui comprend et s'assure que le texte et l'image de la même paire donnent des valeurs similaires.

Cela signifie que si vous lui envoyez ensuite votre image, cette nouvelle représentation devrait avoir une signification générale que le modèle peut comprendre, tout comme si elle provenait d’un texte. Ensuite, pour générer leurs données synthétiques, ils doivent simplement utiliser cette nouvelle représentation pour comprendre les images et apprendre à générer une bonne légende. C'est la partie délicate. Générer une bonne légende.

Bien sûr, ils ont utilisé un ensemble de données finement traitée de bonnes paires image-légende pour affiner le modèle pour générer de meilleures légendes. Ils ont donc encore dû embaucher des humains pour construire un ensemble de données, bien que beaucoup plus petit que des millions d'images. Ils ont d'abord fait cela avec de grandes légendes sur le sujet principal de l'image pour faire comprendre au modèle la caractéristique la plus importante de l'image. Ensuite, ils l'ont affiné à nouveau avec non seulement le sujet principal de l'image, mais également son environnement, son arrière-plan, le texte trouvé dans l'image, les styles, la coloration, etc., créant ainsi des légendes très descriptives, comme vous le voyez ici.

Image et légende tirées de l’article.

Et voilà ! Ils ont maintenant leur “légendeur d'image” capable de prendre une image et de générer une nouvelle légende descriptive pour elle ! Ils l'appliquent à l'ensemble de leurs données et forment le modèle DALL·E 3 de la même manière qu'ils l'ont fait avec DALL·E 2, sur lequel j'ai fait une vidéo (en anglais) si vous souhaitez plus d'informations sur son fonctionnement !

Dans les évaluations, DALL·E 3 surpasse DALL·E 2, les évaluateurs humains préférant constamment les images générées par le modèle le plus récent. Il est également beaucoup mieux quantitativement mesuré sur différents repères comme le T2I-CompBench, un benchmark d'évaluation créé par Huang et al., qui est composé de 6 000 invites textuelles compositionnelles avec plusieurs métriques d'évaluation spécifiquement conçues pour évaluer des modèles de génération de texte-image compositionnels.

Image et légende tirées de l’article.

Alors, pour récapituler, DALLE-3 est un énorme pas en avant dans le suivi des invites de texte et a des résultats qualitatifs étonnants, mais il a toujours ses limites.

Il a du mal avec des fonctionnalités de génération d'image comme la conscience spatiale. Il est vraiment difficile d'avoir des descriptions assez descriptives avec des informations de localisation pour tous les objets. De plus, cette troisième version est déjà bien meilleure pour générer du texte à l'écran, quelque chose avec lequel tous les modèles précédents ont vraiment du mal, mais elle est toujours assez peu fiable. Nous devrons attendre DALLE-4 pour avoir le texte approprié généré dans les images !

Un autre problème avec DALLE 3 vient du modèle de légende d'image. Ils ont signalé que le “légendeur” est enclin à halluciner des détails importants sur une image. Il aime souvent donner plus de détails que moins, même s'il doit les créer à partir de rien. Je suppose que c'est juste un comportement régulier des LLM, peut-être parce que de bons écrivains humains aiment donner des détails et une bonne histoire, et le modèle a été formé sur ce style d'écriture. Quoi qu'il en soit, il n'y a pas de solution complète à ce nouveau problème d'hallucination de modèle d’IA, c'est pourquoi vous devriez toujours faire attention lorsque vous utilisez ces modèles de langue, ou même d'image dans ce cas, mais si vous en êtes conscient, vous pouvez toujours faire des merveilles en exploitant ces modèles et utiliser des techniques comme l'ingénierie d'invite ou RAG pour mieux contrôler les sorties du modèle comme je l'ai partagé dans d'autres vidéos sur ma chaîne What’s AI.

J'espère que vous avez apprécié cet article. Encore une fois, si vous souhaitez approfondir un peu les détails techniques, je vous recommande de regarder mes vidéos précédentes sur DALLE et DALLE-2. Je suggérerais également aux plus intrigués d'entre vous de plonger dans le document DALLE 3, où ils donnent plus d'informations sur sa création, son évaluation et ses limites actuelles. Les liens sont en références ci-bas.

Merci d'avoir lu tout l'article, et je vous verrai la prochaine fois avec plus de nouvelles incroyables sur l'IA expliquées !

Références

Louis-François Bouchard

Hello! Je suis Louis-François Bouchard, de Montréal, Canada, aussi connu sous le nom de 'What's AI' et j'essaie de partager et de vulgariser tout ce qui est en lien avec l'intelligence artificielle. Mon objectif est de démystifier la «boîte noire» de l'IA pour tous et de sensibiliser les gens aux risques de son utilisation.

https://www.youtube.com/channel/UCIUgms0TE2WhQijbU-IMYyw
Précédent
Précédent

Pourquoi j’ai arrêté mon doctorat en intelligence artificielle

Suivant
Suivant

L’IA est un mauvais élève… Deep Learning et apprentissage supervisé : ce que vous devez savoir