ChatGPT : Comprendre son Pouvoir grâce au RLHF et RLAIF
Regardez la vidéo!
Savez-vous pourquoi ChatGPT a fait tant de bruit ? Non, ce n'est pas parce qu'il est gratuit, même si ça aide. C'est à cause de quatre lettres : RLHF, l’ingrédient secret qui rend ChatGPT si efficace.
RLHF, ou l'Apprentissage par Renforcement avec retours humains marque la différence entre les modèles de langages précédents et ChatGPT, qui est si doué pour comprendre ce qu’on veut et interagir avec nous comme on le ferait avec un ami ou collègue. De façon humaine.
Ce n'est pas un sujet abstrait que seules les personnes curieuses devraient explorer. En fait, de nombreuses entreprises utilisent déjà cette méthode pour construire des modèles de langage incroyablement puissants.
D'ici la fin de la vidéo, vous aurez une excellente compréhension de RLHF et d’une récente alternative utilisée pour améliorer la performance et la sécurité des modèles de langage de grande taille qu’on appelle les LLMs. Je suis Louis-François et on va plonger dans cette nouvelle technique essentielle pour les modèles de langues qui a fait en sorte que GPT-4, et autres modèles récents sont si puissant!
L'Apprentissage par Renforcement à partir de Retours Humains, RLHF en anglais pour reinforcement learning with human feedback, est une méthode qui intègre deux parties: les retours humains et l'apprentissage par renforcement. J’ai déjà fait une vidéo où j’explique l’apprentissage par renforcement si vous êtes curieux de ce mode d’apprentissage en intelligence artificielle. En gros, on utilise ici de vraies personnes afin de donner un retour au modèle pour l’améliorer étape par étape. Ici par modèle je veux surtout parler des modèles de langues comme GPT-4. Et on fait surtout ça pour améliorer leur alignement avec les objectifs désirés et rendre le modèle plus humain. Comment?
Les humains vont essentiellement diriger le modèle lors de l'entraînement pour favoriser certaines formulations et réponses plutôt que d'autres, encourageant ainsi la production de réponses qui sont plus fiables et conformes à nos attentes. Ceci est réalisé avec l'aide d'une technique brilliante en apprentissage par renforcement qui aide le modèle à apprendre de ses erreurs tout en ne changeant pas radicalement son comportement. Le modèle prend en compte les retours des classements humains pour s'améliorer au fil du temps au lieu de faire ça automatiquement avec une base de données pré-conçu et fixe. Mais voyons tout cet entraînement un peu plus en détail…
C’est important de savoir que le RLHF est juste une étape supplémentaire dans le processus complet d'entraînement d'un modèle de langue. Vous avez déjà besoin d’une version initiale du modèle qui est déjà assez bon et capable de générer des réponses. Ainsi, on commence généralement par entraîner le modèle par lui-même sur des données issues d'Internet. Ensuite, on peut entamer le processus de formation RLHF.
Donc, la première étape était de prendre un modèle déjà puissant et de l'affiner avec un apprentissage supervisé, que j’ai également couvert dans une vidéo. Mais qu'est-ce que cela signifie ? Cela signifie qu'on prend un modèle comme GPT-3.5, une version améliorée et à jour de GPT-3 qui connait à peu près tout internet, qu’on a ensuite ré-entraîné spécifiquement sur des exemples de conversation. Cela signifie que dans ce cas, on tente de limiter son potentiel strictement aux conversations, le rendant théoriquement meilleur pour converser par rapport à GPT-3, car un spécialiste est presque toujours meilleur qu'un généraliste pour une tâche spécifique.
Le processus d’entraînement de GPT-4. Étape 1: Pré-entraînement. Étape 2: Entraînement du modèle de récompense. Étape 3: Ré-entraînement du modèle final utilisant le modèle de référence. Image traduire par l’auteur de la version originale sur le blog d’OpenAI.
Maintenant, votre modèle est censé être meilleur dans les conversations, mais ce n'est pas suffisant. On n’est toujours pas au niveau de GPT-4, mais seulement à une amélioration de GPT-3. Similaire à apprendre les règles d'un sport comme le tennis, même si vous savez jouer, vous devez vous entraîner pour vous améliorer. C'est la même chose pour les LLMs : ils ont besoin de pratique, et c’est là que le RLHF entre en jeu. C'est donc ce qu’on fait. On discute avec lui et recueille de nombreuses complétions de modèles issues de discussions pour chaque échange. Ensuite, on demande à des humains de classer les complétions générés. Par exemple, on pourrait demander au modèle de générer 4 réponses pour chaque message et demander aux évaluateurs humains de classer les réponses de 1 à 4 en fonction de leur caractère « humain ».
Mais comment peut-on prendre des classements de messages et dire au modèle de suivre les meilleurs ? Eh bien, comme toujours, avec un problème très compliqué, on utilise plus d'IA ! En effet, on entraîne ici un autre modèle avec le jeu de données qu’on vient de construire. On va essentiellement créer un classificateur automatique basé sur la façon dont les humains ont noté les réponses, donc on lui donne tous les messages générés par le modèle de langue messages et classements et lui apprend à reproduire le même processus de classifications que les humains de l’étape précédente. Ce nouveau modèle est appelé le modèle de récompense.
Le processus d’entraînement de GPT-4. Étape 1: Pré-entraînement. Étape 2: Entraînement du modèle de récompense. Étape 3: Ré-entraînement du modèle final utilisant le modèle de référence. Image traduire par l’auteur de la version originale sur le blog d’OpenAI.
Maintenant, on doit tout assembler ! On a notre LLM pré-entraîné et affiné et on lui demande de générer plusieurs complétions, qui sont ensuite envoyées au modèle de récompense. On peut ensuite utiliser les classements de ce nouveau modèle de récompense pour entraîner le modèle de langage pour la troisième fois, en lui donnant un retour automatique pour qu'il converge vers ce que les humains préfèrent le plus, si notre système de récompense nous a bien compris. Ce qui est pas mal plus éfficace que d’avoir des humains lire et noter des millions d’exemples!
Donc un modèle formé sur Internet comme GPT-3.5 est spécifiquement affiné pour les conversations, le rendant un peu meilleur aux conversations. Cependant, savoir ne suffit pas ; le modèle doit pratiquer. Cela est réalisé en recueillant quelques milliers de réponses du modèle et en faisant classer ces réponses par des humains selon leur ressemblance à des réponses humaines. Un nouveau "modèle de récompense" est ensuite entraîné en utilisant ces données classées, dans l'espoir de pouvoir reproduire ces préférences humaines. Enfin, la dernière étape consiste à introduire le RLHF en utilisant le modèle de langage pour générer des réponses que le modèle de récompense classe, guidant en retour automatiquement le modèle de langue à produire des sorties qui s'alignent plus étroitement sur les préférences humaines. Et voilà ! Vous avez maintenant un système super puissant comme ChatGPT.
C'est vraiment génial, mais vous pouvez voir combien cela peut devenir incroyablement coûteux si vous devez embaucher des centaines de personnes pour discuter puis classer les réponses du modèle. De plus, il est difficile d'évaluer précisément une réponse ; tout cela est très subjectif. Heureusement, il existe une alternative innovante très intéressante au RLHF : l'Apprentissage par Renforcement à partir de Retours d'IA (RLAIF) développé par Anthropic.
Dans RLAIF, au lieu de s'appuyer sur des retours humains, un Modèle de Retours d'IA est utilisé pour fournir des retours pour l’entraînement. Oui, il y a maintenant une IA qui entraîne une autre IA ; on n’est rendu là. Ce nouveau Modèle de Retours d'IA est guidé par ce qu’ils appellent une “constitution” fournie par les créateurs du modèle. Cette constitution est simplement un petit ensemble de principes ou d'instructions que le modèle doit suivre, définissant les principes essentiels pour le jugement du modèle.
Image du papier introduisant le RLAIF par Google.
Donc, on crée d'abord un jeu de données de préférences classées, mais cette fois généré automatiquement par le Modèle de Retours d'IA. Qui est essentiellement juste un modèle comme ChatGPT qui a la constitution comme prompt. Ce jeu de données est ensuite utilisé pour former notre modèle de récompense, exactement comme le modèle de récompense dans RLHF. Le modèle de récompense sert alors de signal de récompense dans le même schéma d'apprentissage par renforcement pour notre modèle de langue comme pour le RLHF.
Donc le RLAIF est essentiellement la même chose que RLHF, mais avec une étape de plus dans l’automatisation de tout ce processus d’entraînement nécessitant encore moins de mains d’oeuvres pour la création d’un modèle de langue puissant, rendant par le fait même son entraînement beaucoup plus accessible aux plus petites entreprises.
Fait amusant, un article récent de Google, que j'ai lié ci-dessous, a réalisé d'autres expériences avec RLAIF et a découvert que les humains préfèrent souvent les réponses du modèle entraîné avec le RLAIF de celui avec des humains !
Conclusion:
Le RLHF et son homologue automatique, le RLAIF, révolutionnent la façon dont on entraîne et affine les modèles de langage comme ceux derrière ChatGPT. C'est aussi une preuve de la nécessité d’avoir des retours humains et donc, comme on dit, de toujours avoir des “human-in-the-loop” ou bien des humains dans la boucle. Même si le RLAIF est bien automatisée, il reste qu’il y a beaucoup d’affinage et de travail de jugement humains pour améliorer les résultats. Ça ne reste qu’une machine qui prévoit les mots à venir et non un être conscient et intelligent qui peut comprendre le monde comme nous!
Voilà donc le RLHF et le RLAIF et comment ces techniques d’apprentissages rendent nos modèles de langues plus intelligents et plus efficaces. J'espère que vous avez apprécié cette vidéo, et je vous retrouverai la prochaine fois avec d'autres nouvelles techniques d'IA passionnantes !