L'IA en 2023 résumé en 13 minutes

29 déc.

Quelle année!

Beaucoup de choses se sont passées dans le domaine des technologies, et surtout avec l’intelligence artificielle. OpenAI a révélé GPT-4 ainsi que sa capacité de génération d'images DALL-E 3 et GPT-4Vision, Meta a introduit leur modèle de langue Llama 2, et même Google a dévoilé ses modèles LLM en commençant par Bard hébergé sur Bing et maintenant Gemini qui a fait controverse, Stability AI a lancé sa capacité de génération vidéo avec le modèle Stable Video Diffusion, Elon Musk a également fait une annonce concernant leur propre modèle de langue Grok, et plus récemment, Channel1, un nouveau média de nouvelles, a été annoncé pour début 2024, avec des informations et acteurs presque entièrement automatisées par l'IA et personnalisables pour l'utilisateur. Et le plus excitant d’entre tous, Louis-François a finalement créé sa chaîne en français pour vulgariser l’intelligence artificielle et vous devez vous y abonner! Oui, tout cela en une seule année dans l'industrie. Mais il ne faut pas oublier la communauté de recherche en IA qui a également connu des avancées incroyables, que nous allons couvrir dans cet article.

D'un autre côté, cette année a également été marquée par de la drama. Il y a eu toute la controverse autour d'OpenAI, où ils ont licencié leur PDG Sam Altman puis l'ont réembauché suite à la pression des employés et de la communauté IA. Un pionnier de l'IA, également connu comme l'un des parrains de l'IA, Geoffrey Hinton (photo), a quitté Google pour alerter l'humanité sur les menaces que l'IA pourrait poser et en discuter librement. Enfin, nous avons été témoins de la controverse entourant la vidéo de démonstration de Google sur le modèle Gemini et plus encore…

En 2022, nous avons assisté à la création du puissant ChatGPT. En 2023, l'IA ne se limite pas aux mots – ça vient toucher au son, aux images et ouvre un tout nouvel univers de possibilités ! Préparez-vous, car l'IA arrive à peine dans nos vies et est là pour rester.

Si, pour une raison quelconque, vous n'avez pas pu suivre toutes les actualités et mises à jour de l'IA cette année, manqué des informations essentielles, ou simplement si vous voulez un récapitulatif de ce qui s'est passé cette année en IA, cet article est pour vous.

Allons-y…

Janvier

VALL-E est capable d'imiter la voix d'une personne avec seulement un échantillon de 3 secondes. Cette nouvelle technologie marque une avancée significative dans la synthèse vocale, atteignant des niveaux de réalisme et de naturalité sans précédent. Ce développement pourrait révolutionner la manière dont nous produisons et interagissons avec les médias numériques, en fusionnant la génération de texte et de voix pour créer des représentations humaines entièrement synthétiques et réalistes.

InstructPix2Pix modifie des images en utilisant des instructions textuelles. Ce modèle d'IA, entraîné avec un ensemble de données généré par un modèle GPT et par Stable Diffusion, permet d’effectuer des modifications d'image précises guidées par le texte. Il combine la compréhension du contexte textuel et visuel, permettant des modifications rapides et précises.

MusicLM crée de la musique à partir de descriptions textuelles en utilisant des modèles basés sur les Transformer, similaires à l'approche de GPT. Il transforme les descriptions textuelles en pièces musicales riches, générées par l'IA. Cette innovation est complémenté par MusicCaps, un ensemble de données qu'ils ont publié avec 5,5 millions de paires musique-texte, améliorant la performance du modèle et la future génération de musique par l'IA.

Février

GEN-1, la dernière innovation des créateurs de Stable Diffusion, stylise des vidéos à partir de consignes textuelles ou suivant des images. Il édite intelligemment des éléments spécifiques à l'intérieur d'une vidéo, comme modifier l'apparence d'un chien, tout en préservant la structure globale de la vidéo. La capacité de GEN-1 à combiner la compréhension structurelle avec l'adaptation de contenu marque une avancée significative dans le montage vidéo piloté par l'IA.

Mars

PaLM-E fusionne la compréhension des images et du texte avec la robotique, permettant à un robot d'exécuter des tâches basées sur des commandes textuelles et visuelles. Il intègre des modèles de vision et des modèles de langage pour interpréter et réagir à son environnement, démontrant la capacité croissante de l'IA à comprendre et interagir avec le monde réel.

Le 14 mars 2023, OpenAI a tout changé en lançant GPT-4. GPT-4 est connu pour être plus fiable et créatif que son prédécesseur, GPT-3.5, et peut gérer des instructions plus nuancées. Il démontre des performances améliorées dans divers domaines, y compris l'assistance en programmation et les tests standardisés. Cependant, GPT-4 conserve certaines limitations des versions précédentes, telles que les hallucinations et le manque de logique ou de véritable intelligence.

Peu après, Google a officiellement lancé Bard, sa réponse à ChatGPT. Bard est construit sur le modèle de langage avancé de Google, LaMDA, et est conçu pour être un collaborateur créatif, générant des idées et fournissant une assistance sur divers sujets. Il est pratiquement identique à ChatGPT et avait un accès plus précoce à Internet, ainsi que d'autres fonctionnalités qu'ils développent constamment. C'est certainement une excellente alternative à essayer.

Avril

Le modèle Segment Anything de Meta, ou SAM, révolutionne la segmentation d'images avec son approche basée sur des consignes. Entraîné sur un vaste ensemble de données, SAM peut efficacement segmenter des objets dans des images ou des vidéos en utilisant des consignes textuelles ou spatiales. Ce modèle simplifie les tâches de segmentation, le rendant très efficace pour diverses applications, en particulier dans des situations nécessitant une adaptation rapide à de nouveaux objets sans réentraînement. C'est une première tentative impressionnante pour un modèle généraliste pour traiter les images.

LLaVA est un modèle innovant de vision et de langue qui a utilisé GPT-4 pour la génération de son jeux de données. Ce modèle comprend de manière unique à la fois les instructions visuelles et linguistiques, combinant les forces de LLaMA pour le traitement du langage et de CLIP pour la compréhension des images. Grâce à l'ajustement des instructions visuelles, LLaVA apprend à répondre aux questions sur les images sans dépendre des légendes.

Mai

Le modèle Perfusion de NVIDIA propose un contrôle supérieur dans la génération d'images. Il excelle dans l'intégration précise d'objets spécifiques dans de nouvelles images, améliorant la fidélité du contenu généré. Ce modèle représente un bond en avant dans la création de contenu visuel personnalisé et contextuellement pertinent.

"Drag Your GAN" introduit une méthode novatrice pour l'édition d'images, permettant aux utilisateurs de manipuler de manière réaliste des images en déplaçant des points à l'intérieur d'elles. Ce modèle d'IA, utilisant une architecture GAN, améliore l'édition d'images en permettant de changer la position des objets tout en maintenant le réalisme de l'image. Cette innovation simplifie les tâches d'édition d’images en les rendant plus accessibles et intuitives.

Geoffrey Hinton, un pionnier de l'apprentissage profond souvent appelé le parrain de l'IA, a annoncé son départ de chez Google après une décennie. Il a exprimé ses inquiétudes concernant la technologie qu'il a aidé à créer et souhaite discuter ouvertement de ces problèmes.

Juin

Neuralangelo de NVIDIA s'appuie sur le modèle Instant NeRF pour créer des scènes 3D avec des détails de surface améliorés et un réalisme accru. Il améliore les limitations d'Instant NeRF en matière de texture et de structure fine, rendant les modèles 3D générés plus réalistes et détaillés.

Si certaines de ces approches en IA ne vous disent rien, pas de soucis, abonnez-vous à la chaîne et vous vous familiariserez rapidement avec elles!

TryOnDiffusion améliore les expériences d'essayage virtuel. Il utilise un modèle pour superposer de manière réaliste des articles vestimentaires sur l'image d'une personne, surmontant les limitations précédentes des essayages virtuels. Ce modèle représente une amélioration significative dans la création de représentations précises et réalistes de vêtements sur différents types de corps.

Juillet

StyleGANEX, une avancée du modèle StyleGAN de NVIDIA, permet une manipulation plus flexible des visages dans les images, quelle que soit la résolution. Cette innovation améliore considérablement la capacité à manipuler et générer des visages dans une variété de résolutions.

3D-LLM marque une avancée significative dans l'IA en comprenant notre monde en trois dimensions et avec le langage. Il traite des nuages de points 3D et du texte, offrant une compréhension plus complète des environnements et objets du monde réel. Il représente un pas vers des applications plus interactives et réalistes, comblant le fossé entre les mondes numérique et physique.

LLaMA-2 de Meta, le successeur du modèle LLaMA initial, a été largement adopté, avec plus de 30 millions de téléchargements de modèles basés sur LLaMA. C'est une version open-source des modèles GPT qui peut avoir accès à de grandes capacités, bien qu'elle ne soit pas vraiment comparable à GPT-4.

Août

MetaGPT innove en utilisant des modèles de langage de grande taille comme agents dans un flux de travail structuré, réduisant les risques d'hallucination et améliorant l'efficacité des tâches. Cette approche permet de gérer des tâches complexes avec précision, ouvrant la voie à des systèmes d'IA plus avancés et automatisés.

MVDream porte la génération de modèles 3D à partir de texte à un nouveau niveau de réalisme et de complexité. En comprenant les attributs physiques à partir d'entrées textuelles, il crée des modèles 3D de haute qualité qui représentent avec précision les objets dans le monde réel.

Septembre

DALL·E 3, une grande avancée par rapport à DALL·E 2, excelle dans la transformation de consignes complexes en images détaillées grâce à son améliorateur de légendes d'images. Cette innovation conduit à des visualisations plus précises et riches en contexte. Cependant, le modèle fait toujours face à des défis en matière de conscience spatiale et de génération de texte dans les images. Vous pouvez l'essayer maintenant avec ChatGPT Plus et cela en vaut la peine.

Novembre

Distil-Whisper, une version simplifiée de Whisper d'OpenAI, offre une transcription audio efficace, étant 6 fois plus rapide et 49 % plus petite tout en conservant 99 % de précision. Réalisé grâce à la distillation de connaissances à partir du modèle initial Whisper, il réduit considérablement les besoins en données d'entraînement. C'est un pas substantiel pour rendre la conversion de voix à texte plus accessible et pratique pour un usage quotidien.

Stable Video Diffusion, un nouveau modèle de Stability AI, étend la technologie de diffusion latente à la génération de vidéos. Il génère des séquences vidéo réalistes à partir de textes ou d'images en utilisant des couches temporelles supplémentaires. Bien qu'il soit habile pour de courtes vidéos, il rencontre encore des défis avec des séquences plus longues. Ce modèle représente une avancée remarquable dans la création de vidéos automatiques avec l'IA.

Elon Musk a annoncé l'introduction de "Grok", un modèle de language développé par sa startup, xAI. Ce modèle, conçu pour être utilisé avec X (Twitter), présente un sens de l'humour sarcastique similaire à celui de Musk. Si vous aimez Elon, vous aimerez Grok. Grok est destiné à rivaliser avec ChatGPT et est décrit comme ayant un caractère rebelle, moins de restrictions, et en faveur de la liberté d'expression.

Lors de la première conférence des développeurs d'OpenAI, les principales nouveautés ont inclus l'introduction de GPT-4 Turbo, offrant une fenêtre de contexte de 128K jetons pour le traitement de textes étendus, ainsi que le lancement de l'API Assistants pour le développement d'applications IA complexes. De plus, la conférence a dévoilé un marché destiné au partage et à la monétisation de modèles GPT personnalisés, ainsi que des modèles d'IA sur mesure pour les organisations, ce qui a contraint de nombreuses startups à changer de direction ou à fermer leurs portes.

La controverse chez OpenAI a commencé par le licenciement inattendu du PDG Sam Altman, suivi du départ du directeur de l'apprentissage automatique, Greg Brockman. Cela a provoqué une pétition de la part des employés pour la réintégration d'Altman et de Brockman. La pression des employés et des parties prenantes a abouti au retour d'Altman et au changement du conseil d'administration. Ce qui démontrait quand même des soucis de gouvernance au sein de l'organisation mais aussi un esprit d'équipe remarquable.

Décembre

Google Deepmind a lancé Gemini pour concurrencer GPT-4. Malheureusement, ils n'ont publié qu'une vidéo de leur meilleur modèle et non le modèle lui-même. Ça a été critiqué pour avoir induit les spectateurs en erreur concernant les capacités en temps réel du modèle. Il a été révélé que la vidéo n'était pas une démonstration en direct mais qu'elle avait été soigneusement produite à l'aide de prompts textuels et d'images fixes, ce qui a soulevé des questions sur la transparence de Google dans la présentation de ses technologies d'IA.

La chaîne Channel 1, un média d'information basé à Los Angeles qui sera lancé en 2024, prévoit d'utiliser des présentateurs de nouvelles générés par intelligence artificielle. Elle offrira une expérience d'information personnalisée qui s'adapte aux préférences des téléspectateurs grâce à des fonctionnalités basées sur l'IA telles que la traduction automatique, les résumés de nouvelles et d'autres caractéristiques innovantes visant à révolutionner l'industrie de l'information. Cette chaîne s'engage à maintenir la transparence et la précision dans ses reportages générés par IA.

Merci d’avoir écouté lu l’article au complet! Si vous avez apprécié, je vous invite fortement à suivre le blog et vous abonner à la chaîne YouTube pour en apprendre plus sur des nouvelles similaires en intelligence artificielle que je partagerai tout au long de l’année!

Louis-François Bouchard

Hello! Je suis Louis-François Bouchard, de Montréal, Canada, aussi connu sous le nom de 'What's AI' et j'essaie de partager et de vulgariser tout ce qui est en lien avec l'intelligence artificielle. Mon objectif est de démystifier la «boîte noire» de l'IA pour tous et de sensibiliser les gens aux risques de son utilisation.

https://www.youtube.com/channel/UCIUgms0TE2WhQijbU-IMYyw

L'IA en 2023 résumé en 13 minutes

ChatGPT : Comprendre son Pouvoir grâce au RLHF et RLAIF

Le Futur de la Génération Automatique de Vidéos