Galactica : Qu'est-ce que c'est et que s'est-il passé ?
Le 15 novembre, MetaAI et Papers with Code ont annoncé la sortie de Galactica, un grand modèle de langage open source qui change la donne, formé sur les connaissances scientifiques avec 120 milliards de paramètres.
Comme l'un de mes amis l'a partagé sur Twitter, le modèle peut écrire des articles scientifiques, des revues de littératures, des pages Wikipédia et du code. Il sait citer et écrire des équations. C'est un “big deal” pour l'IA et la science!
Le 17 novembre, Galactica a été fermé.
Pourquoi? Parce que, comme avec tous les modèles d'apprentissage profond, il ne comprenait pas la tâche à accomplir et se trompait dans de nombreux cas. Cela ne devrait pas être un problème, surtout si nous ajoutons un avertissement indiquant que le modèle peut être erroné et qu'il ne faut pas lui faire confiance aveuglément. Tout comme personne ne faisait confiance à Wikipédia, nous ne pouvions pas le mettre comme référence dans les projets du lycée. Le problème est que Galactica avait tort ou était biaisé, mais sonnait juste et autoritaire.
Au moins, le modèle est disponible pour les chercheurs, et je pense qu'il est important de le garder en open source.
Comme l'a partagé un autre de mes amis, tout le drame autour du nouveau modèle semble un peu excessif. Bien sûr, le modèle n'est pas parfait, tout comme tous les autres qui sont actuellement disponibles en ligne. Nous en avons besoin en ligne pour tester ses limites, les travailler et l'améliorer. Nous devrions considérer ces types de publications comme des étudiants et permettre les erreurs et les améliorations sans craindre d'être fermés ou annulés.
De toute façon, nous ne sommes pas là pour en discuter. Espérons qu'il sera bientôt de retour en ligne.
Nous sommes ici pour voir ce qu'est ou était Galactica, et comment ce modèle peut écrire des articles scientifiques, des revues de littérature, du code, et plus encore…
Fondamentalement, Galactica est un grand modèle de langage avec une taille comparable à GPT-3, mais spécialisé sur les connaissances scientifiques. Plus précisément, il a été formé sur un vaste corpus de connaissances scientifiques, comprenant plus de 48 millions d'articles, manuels et notes de cours, des millions de composés et de protéines, des sites Web scientifiques, des encyclopédies, etc. Les données, qu'ils soulignent, étaient de haute qualité et hautement organisées, ce qui est l'une des grandes différences avec GPT-3.
Donc, en théorie, Galactica contient à peu près toutes les connaissances scientifiques de l'humanité. Imaginez avoir une mémoire incroyable et le temps de lire des millions de recherches, en vous souvenant de la plupart d'entre elles.
Eh bien, c'est Galactica. Il semble que sa mémoire ne soit pas si bonne après tout, et le modèle mélange un peu tout ensemble même si nous pouvions supposer que la plupart des informations présentes dans l'ensemble de données d'entraînement étaient exactes. Tout de même, en tenant compte de tous les biais et échecs, Galactica reste assez puissant et surpasse à peu près toutes les autres approches pour les tâches liées à la science.
Ce n'est tout simplement pas suffisant pour un produit dans lequel nous pouvons avoir confiance. Néanmoins, ça vaut la peine de comprendre comment le modèle fonctionne, surtout parce qu'il reviendra encore plus puissant très bientôt.
Image tirée du papier
Comme nous l'avons mentionné, Galactica est un grand modèle de langage, similaire à GPT-3 ou BLOOM, spécifiquement formé pour, comme les auteurs spécifient, "organiser la science". Il y a aussi beaucoup d'ingénierie dans ce modèle, permettant une grande polyvalence dans ses entrées et sorties, comme la tokenisation spéciale des citations ou des séquences de protéines, dont vous pouvez en savoir plus dans leur article lié ci-dessous. Leur effort de tokenisation est de loin la plus grande contribution de ce travail.
La tokenisation signifie essentiellement la façon dont le modèle verra les données au lieu des mots, des mathématiques ou des formes que nous (humains) voyons et comprenons. Je partagerai en fait un article sur l’encodage et la tokenisation plus tard cette semaine, donc si cela vous semble intéressant, restez à l'écoute et suivez-moi pour ne pas le manquer !
Donc, à part ces étapes étranges de tokenisation et de pré-traitement, qu'est-ce que Galactica, et que fait-il après avoir pris les mots ou les différentes entrées scientifiques et les avoir préparés pour le modèle faisant la tokenisation ?
Image tirée du papier.
Pas de surprise, Galactica est encore une autre architecture basée sur les Transformer, comme GPT-3, avec quelques variantes, y compris les différences de tokenisation. Je vous invite donc définitivement à lire l'un des nombreux articles que moi ou certains de mes amis avons rédigés sur l’architecture Transformer, car je ne reviendrai pas sur son fonctionnement ici une fois de plus.
La deuxième différence majeure entre Galactica et d'autres grands modèles de langage est ce qu'ils appellent la pré-formation rapide. Cela signifie qu'ils incluront des invites de texte extraites des ensembles de données d'entraînement aux côtés des données elles-mêmes, dont il a été démontré qu'elles "maximisent la généralité du modèle tout en améliorant les performances sur certaines tâches d'intérêt".
Et c'est à peu près tout!
Comme je l'ai dit, l'architecture est très similaire à ce que vous connaissez déjà, et la plupart du temps, les schémas de formation et de prétraitement varient, ce qui montre que le modèle ne fait pas tout, mais la façon dont nous pré-mâchons les données pour lui peut même avoir encore plus d'importance. Vous pouvez essentiellement voir la différence entre GPT-3 et Galactica en tant qu’un même étudiant ayant un mauvais professeur de sciences par rapport à un bon. Il a les mêmes capacités et ressources. Le professeur l'a juste rendu plus accessible et compréhensible pour lui.
Bien sûr, ce n'était qu'un aperçu de l'article, et je recommande fortement de le lire. Il y a des tonnes de détails sur les multiples astuces d'ingénierie qu'ils ont mises en œuvre, ainsi que l'analyse des résultats, des détails sur toutes les tâches qu'ils ont abordées à l'aide du modèle et comment il a compris les données d'entrée et fait ses prédictions, ses limites, ses biais, etc.
J'espère que vous avez apprécié cet article, et je vous verrai la semaine prochaine avec un autre article incroyable et un article spécial couvrant ce que sont les encodages !
Références
►Taylor et al., 2022: Galactica, https://galactica.org/
►Ma Newsletter (anglais): https://www.louisbouchard.ai/newsletter/