Une IA qui résume automatiquement vos documents
Avez-vous du mal à résumer rapidement un film que vous venez de regarder ou un livre que vous avez lu il y a quelques semaines ? Parfois, vous aimez un livre et, si vous parvenez à vous souvenir de son contenu, ce qui m’est plutôt difficile, vous risquez d'ennuyer votre ami en lui parlant pendant une heure décrivant les nombreux chapitres et parties importantes alors que votre ami veut juste avoir un résumé rapide et concis. En effet, faire un excellent résumé est un défi, même pour nous, mais nécessaire. Comme il est utile de pouvoir savoir rapidement de quoi parle le livre avant de l'acheter, ou tout simplement de vous aider à parcourir tous vos mails et documents en quelques secondes.
Vous devez avoir une bonne compréhension d'un livre, d'un film ou de tout contenu que vous essayez de résumer pour bien le faire. Omettez toutes les informations inutiles tout en gardant l'essentiel. Faire quelque chose d'aussi concis que possible peut être vraiment compliqué, voire impossible.
Ici, j'essaie d'expliquer des papiers de recherche en quelques minutes, et je n'arrive souvent pas à faire moins de 5 minutes, même si ce n'est qu'un résumé d'un article de 20 pages. Cela nécessite des heures de travail et de mise au point, et maintenant je peux être remplacé par une IA qui fait mieux en quelques millisecondes.
En effet, Google a récemment annoncé un nouveau modèle de génération automatique de résumés à l'aide de machine learning, publié dans Google Docs que vous pouvez déjà utiliser.
Le modèle essaiera de comprendre l'ensemble du document et de générer un bref résumé de la pièce — ce que certains professionnels du cinéma ne peuvent toujours pas faire.
Le modèle doit réaliser deux choses :
Comprendre le texte du document, aussi appelé Compréhension du langage naturel.
Générez des phrases cohérentes en utilisant un langage naturel. Ou, en d'autres termes, effectuez la génération du langage naturel.
Mais comment pouvons-nous y parvenir
Vous l'avez deviné… Avec beaucoup de données et de puissance de calcul ! Heureusement, c'est Google Research.
Ils ont entraîné leur modèle pour reproduire notre processus de pensée pour générer des résumés en utilisant beaucoup trop de documents avec des résumés générés manuellement. Au vu de tous ces exemples, le modèle fait comme tout bon élève et finit par être capable de générer des résumés relativement bons pour des documents similaires comme il l'a vu lors de sa phase d'apprentissage. Vous pouvez voir pourquoi nous avons besoin de données de bonne qualité ici. Le modèle apprendra d'eux. Il se peut qu'il soit seulement aussi bon que les données qui ont été utilisées pour l'entraîner.
Ce serait comme avoir un très mauvais entraîneur qui ne connaît rien au basketball essayant d'enseigner à un nouveau joueur. Comment ce nouveau joueur pourrait-il devenir bon si l'entraîneur ne connaît rien à ce sport ? Le talent du nouveau venu ne sera pas optimisé et pourrait être gaspillé uniquement à cause du mauvais encadrement.
Le défi vient avec la généralisation à de nouveaux documents. La généralisation est parfois même difficile pour les étudiants qui n'ont appris qu'à exécuter les exemples donnés, mais n'ont pas compris comment appliquer les formules. C'est la même chose ici. Le modèle est confronté à des difficultés, car il ne peut pas se souvenir de tous les documents et résumés par cœur. Il DOIT les comprendre ou, au minimum, savoir sur quels mots porter son attention afin de produire un résumé qui reflète bien le document. Ce dernier se produira très probablement, car le modèle ne comprend pas vraiment le document, il comprend seulement comment effectuer la tâche, qui est malheureusement encore loin de l'intelligence humaine, mais assez pour une telle tâche.
Je viens de mentionner "attention". Eh bien, ce n'était pas une coïncidence. L'attention est peut-être le concept le plus important derrière ce modèle. En effet, tout comme GPT-3, ce nouveau modèle utilise également l'architecture Transformer et les mécanismes d'attention. C'est là qu'un calcul intensif est nécessaire. Comme vous le savez, les transformeurs sont des réseaux grands et puissants, mais la plupart du temps un peu trop gros pour des outils rapides et efficaces qui doivent être disponibles en ligne en quelques secondes. La complexité de calcul des transformeurs évolue également avec la taille de l'entrée, ce qui signifie que plus l'entrée est volumineuse, plus le calcul sera lourd, ce qui cause de gros problèmes lorsque vous souhaitez résumer un livre entier.
GPT-3 fonctionne bien pour les petites entrées comme les tâches de réponse aux questions, mais la même architecture ne pourra pas traiter efficacement des livres entiers. Au lieu de cela, ils ont dû utiliser quelques astuces afin d'avoir un modèle plus petit et plus efficace tout en gardant des résultats de haute qualité. Cette optimisation a été réalisée en fusionnant les Transformers avec des RNNs, qui sont deux concepts que j'ai expliqués dans des vidéos précédentes, que je recommande fortement de regarder pour une meilleure compréhension. Les deux vidéos sont liées dans la description ci-dessous.
Modèle PEGASUS et modèle combiné RNN+Transformateur [1][2].
En bref, ce modèle agira de la même manière que GPT-3, ce que vous devriez maintenant comprendre grâce à ma vidéo à ce sujet, mais avec une version plus petite du modèle, itérant encore et encore jusqu'à ce que le modèle termine le livre. La partie “transformeur” de l'architecture sera chargée de "comprendre" une petite partie du texte et d'en produire une version encodée. Le RNN sera chargé d'empiler et de conserver ces connaissances en mémoire, en parcourant tout le livre pour aboutir à la manière la plus concise de résumer son contenu. En travaillant ensemble, le mécanisme d'attention ajouté à l'architecture récurrente sera capable de parcourir de longs documents et de trouver les caractéristiques les plus importantes à mentionner dans le résumé, comme le ferait n'importe quel humain.
Bien sûr, le modèle n'est pas parfait, car même les écrivains professionnels ne sont pas parfaits pour résumer leur travail, mais les résultats sont assez impressionnants et produits de manière extrêmement efficace. Je vous recommande fortement de l'essayer par vous-même dans Google Docs pour vous faire une idée.
Et voilà !
C'est ainsi que Google Docs résume automatiquement vos documents avec leur nouveau modèle basé sur l'apprentissage automatique. J'espère que vous avez apprécié l'article! Si oui, j’apprécierais beaucoup si vous pouviez prendre une seconde pour laisser un commentaire et suivre mon travail sur YouTube. Donnez moi votre avis sur ce nouveau modèle. Allez-vous l'utiliser?
Merci d'avoir lu jusqu'à la fin, et je vous verrai la semaine prochaine avec un autre modèle incroyable !
Regardez la viéo sous-titrée en français
Références
►Blogue de Google: https://ai.googleblog.com/2022/03/auto-generated-summaries-in-google-docs.html
►GPT-3: https://youtu.be/gDDnTZchKec
►Attention: https://youtu.be/QcCJJOLCeJQ
►Que sont les RNNs? (en anglais): https://youtu.be/Z0pb3LjeIZg
►[1] Zhang, J., Zhao, Y., Saleh, M. and Liu, P., 2020, November. Pegasus: Pre-training with extracted gap-sentences for abstractive summarization. In International Conference on Machine Learning (pp. 11328–11339). PMLR.
►[2] Chen, M.X., Firat, O., Bapna, A., Johnson, M., Macherey, W., Foster, G., Jones, L., Parmar, N., Schuster, M., Chen, Z. and Wu, Y., 2018. The best of both worlds: Combining recent advances in neural machine translation. arXiv preprint arXiv:1804.09849.
►Ma Newsletter (en anglais): https://www.louisbouchard.ai/newsletter/