Le fine-tuning par renforcement : la nouvelle révolution de l’IA

Regardez la vidéo pour l’explication visuelle!

Avez-vous déjà voulu prendre un modèle de langue et lui faire répondre exactement comme vous le souhaitez, sans avoir besoin d'une montagne de données ou d’exemples ?

Eh bien, OpenAI nous propose une nouvelle solution : le « Reinforcement Fine-Tuning » ou RFT, qui change notre manière de personnaliser les modèles d'IA. Plutôt que de réentraîner le modèle en lui donnant des exemples de ce que l'on attend en espérant qu'il apprenne de manière classique, on lui enseigne directement en récompensant les bonnes réponses et en pénalisant les mauvaises—un peu comme lorsqu'on dresse un chien, mais… avec moins de gâteries et plus de maths.

Voyons en détail comment le « reinforcement fine-tuning » se distingue du réentraînement classique, le « supervised fine-tuning » !

Normalement, lorsque vous affinez un modèle, vous lui fournissez un ensemble d'exemples, et il apprend à les imiter mot pour mot en prédisant les même réponses, et sa progression est mesurée par rapport aux mots directement et à quel points ils sont similaires à ceux espéré qui sont dans nos données d’entraînement. Cette méthode s'appelle le fine-tuning supervisé, ou SFT (« supervised fine-tuning »). Ça fonctionne bien, mais vous avez généralement besoin d'un énorme jeu de données pour que ce soit efficace. Le « Reinforcement Fine-Tuning » (ou RFT) inverse cette logique : au lieu de simplement recopier des réponses, le modèle doit expérimenter, recevoir du feedback, puis s'améliorer progressivement. C'est comme un apprentissage par essais et erreurs, sauf que les erreurs sont corrigées avec des maths plutôt que par de la frustration. Et le meilleur dans tout ça ? OpenAI affirme qu'on peut obtenir d'excellents résultats avec seulement quelques dizaines d'exemples de haute qualité. Ça change totalement la donne.  

Et donc pourquoi est-ce important ? Eh bien, les récents modèles comme o3 sont des modèles très puissants issus de la dernière série spécialisée dans le raisonnement—ils sont donc parfaitement adaptés au RFT. Ces modèles sont déjà très doués pour la logique, le code et les mathématiques, alors appliquer le fine-tuning par renforcement permet d’améliorer ces compétences pour des domaines spécifiques tels que l'analyse juridique ou les prévisions financières. Autrement dit, au lieu d'avoir une IA généraliste que vous devez réentraîner sur des tâches complexes via du fine-tuning supervisé pour lui apprendre de nouveaux concepts, vous avez déjà à disposition un modèle extrêmement performant qu'il suffit d'affiner par renforcement pour en faire précisément l'expert dont vous avez besoin.



Les deux approches ont essentiellement leur propre utilité que l'on peut résumer en une ligne :
Le fine-tuning supervisé apprend au modèle des choses qu'il ne connaît pas encore, comme une nouvelle langue, ce qui est particulièrement efficace avec des modèles petits ou moins « intelligents ».
À l'inverse, le fine-tuning par renforcement oriente le modèle existant vers ce qu'on souhaite vraiment qu'il dise. Il « aligne » ainsi le modèle à nos besoins spécifiques, mais nécessite un modèle déjà performant. C'est précisément pourquoi les modèles spécialisés dans le raisonnement conviennent parfaitement à cette approche.
J'ai déjà traité du fine-tuning supervisé sur la chaîne si ça vous intéresse. Voyons maintenant concrètement comment fonctionne le RFT !
Premièrement, il vous faut un jeu de données—c'est-à-dire un ensemble de tâches ou de questions accompagné des réponses correctes. Par exemple, imaginons que vous souhaitiez un modèle très performant en diagnostic médical. Vous lui fourniriez alors une série de descriptions de cas, accompagnées des diagnostics exacts. Le point clé ici est que ces tâches doivent avoir des réponses objectives et vérifiables. Si la réponse correcte n’est pas clairement définie, le RFT sera beaucoup moins efficace. Cette approche est donc parfaite pour des tâches telles que les mathématiques, la programmation ou les prises de décisions structurées, mais beaucoup moins pour la rédaction créative ou les tâches fondées sur l’opinion.

Ensuite, il vous faut une méthode pour évaluer les réponses du modèle. C’est là que ça devient intéressant. L’évaluateur (ou « grader » en anglais) détermine à quel point une réponse est bonne ou mauvaise. Cela peut être très simple—comme une comparaison directe à la bonne réponse—ou plus complexe, comme l’attribution d'un crédit partiel aux réponses proches. Imaginez une épreuve de mathématiques : vous recevez tous les points si votre réponse est exactement juste, peut-être la moitié si vous avez les bonnes étapes mais faites une petite erreur, et zéro si vous écrivez juste « 42 » partout. Concevoir un bon évaluateur est crucial, car c’est lui qui contrôle le signal de récompense qui guide l’apprentissage.

Le mécanisme d'évaluation dans le fine-tuning par renforcement (RFT) joue un rôle essentiel, car il façonne directement la façon dont le modèle apprend à partir de ses résultats. En RFT, un évaluateur—soit un mod èle séparé, soit une règle heuristique prédéfinie—compare les réponses du modèle à un ensemble de réponses correctes et leur attribue des scores selon leur exactitude et leur pertinence. Eh oui, on peut utiliser un autre modèle de langage pour évaluer et améliorer un modèle existant ! C’est assez fou quand on y pense ! Cette évaluation peut être binaire (correct ou incorrect) ou plus détaillée, permettant d'accorder du crédit partiel. Par exemple, une réponse pourrait recevoir tous les points si la réponse correcte est classée en premier, un crédit partiel si elle apparaît en deuxième, ou aucun point si elle est absente. L’attribution de crédits partiels est particulièrement utile, car elle permet un feedback plus nuancé et renforce ainsi l'apprentissage, même lorsque la réponse du modèle n’est pas parfaite. Ce retour structuré aide à stabiliser et à accélérer l’entraînement, favorisant des améliorations progressives au fil du temps.

Les métriques d’évaluation jouent également un rôle fondamental pour mesurer la performance des modèles affinés avec le RFT. Parmi les plus importantes, on trouve la précision « top-k » (« top-k accuracy »), qui indique à quelle fréquence la bonne réponse apparaît parmi les k premières prédictions du modèle. Plus précisément, la précision « top-1 » mesure le pourcentage de fois où la bonne réponse est en première position, tandis que la précision « top-5 » évalue à quelle fréquence elle apparaît dans les cinq premières réponses. La précision « top-max », quant à elle, vérifie simplement si la bonne réponse figure quelque part dans la liste fournie par le modèle, quelle que soit sa position. Ces métriques sont surveillées au fil du temps afin de suivre les progrès du modèle, permettant une analyse comparative efficace entre différents modèles. Ensemble, le mécanisme d’évaluation et ces métriques fournissent un retour structuré et des résultats mesurables, améliorant ainsi les capacités de raisonnement du modèle et garantissant son efficacité dans des applications concrètes.

Il y a ensuite la boucle d’entraînement. C’est là que la magie opère vraiment. Le modèle génère ses réponses, l’évaluateur (modèle ou fonction déterminée) attribue un score, puis le notre modèle de langue, notre LLM ajuste ses réponses pour favoriser celles ayant obtenu les meilleurs résultats. OpenAI utilise probablement l’optimisation proximale par politique (Proximal Policy Optimization, ou PPO). Si vous n’êtes pas familier avec PPO, il s’agit d’un algorithme d'apprentissage par renforcement déjà employé avec succès dans le RLHF (Reinforcement Learning from Human Feedback), la méthode à l’origine du réglage du comportement de ChatGPT, que j’ai déjà détaillée dans une précédente vidéo. PPO permet au modèle d’ajuster progressivement ses réponses sans provoquer des changements brusques et instables dans son comportement. C’est essentiellement une manière de peaufiner un modèle sans le casser. Cette boucle d’apprentissage est répétée jusqu’à ce que le modèle obtienne systématiquement de bons scores. Le résultat ? Un modèle affiné qui ne se contente plus de recopier des exemples, mais qui apprend véritablement à répondre de la manière dont vous le souhaitez. C’est exactement pour cela que les modèles d’OpenAI répondent toujours à vos questions avec une courte introduction, une liste à puces et une conclusion succincte, ou encore refusent de répondre aux demandes malveillantes.

Bien sûr, on veut aussi éviter le surentraînement. Il faut donc tester le modèle régulièrement. Si le modèle réussit parfaitement sur les exemples d’entraînement, mais échoue face à des tâches nouvelles, on appelle cela du surapprentissage (overfitting en anglais) : vous aurez alors créé une IA excellente pour un test précis, mais inefficace en application réelle. Pour l’éviter, on garde certains exemples en réserve pour les tests et on vérifie si le modèle généralise bien. Sinon, il faut ajuster les choses jusqu’à ce que ce soit le cas.

Si vous voulez utiliser RFT sans effort, OpenAI propose une solution : il suffit de leur fournir vos exemples, et la plateforme s'occupe de l'entraînement en arrière-plan. Mais si vous souhaitez construire ce système par vous-même, c'est tout à fait faisable—vous aurez juste besoin d'une bibliothèque d'apprentissage par renforcement, par exemple la librairie de Transformer Reinforcement Learning (TRL) sur Hugging Face, ainsi qu’un système capable de réaliser l’inférence, calculer les récompenses et optimiser les paramètres. C’est un peu plus complexe, mais tout à fait réalisable, surtout si vous aimez plonger dans le code.

On peut aussi s’attendre à voir émerger de nombreux outils et plateformes de fine-tuning sans code qui reposent sur l'approche par renforcement—comme par exemple, autour des nouveaux modèles abordables et performants comme le modèle de raisonnement r1 de Deepseek ou ses successeurs. Je pense aussi que DeepMind proposera bientôt du fine-tuning par renforcement pour sa série de modèles de raisonnement Gemini Thinking.

À ce stade, si vous avez regardé mes vidéos précédentes, vous vous demandez peut-être : en quoi le fine-tuning par renforcement diffère-t-il du RLHF (« Reinforcement Learning from Human Feedback »), la méthode d'apprentissage par renforcement utilisée pour aligner les IA sur nos attentes ? Eh bien, dans le RLHF, le retour donné à l'IA est principalement basé sur les préférences humaines, autrement dit sur des jugements subjectifs. Le modèle reçoit une rétroaction sur la qualité perçue de ses réponses. En revanche, le fine-tuning par renforcement (RFT) se concentre uniquement sur l’exactitude objective. Ici, la rétroaction porte sur le fait qu’une réponse soit juste ou fausse. Cela rend le RFT particulièrement adapté aux domaines qui exigent une précision rigoureuse, tels que le droit, la médecine, la finance et l’ingénierie.

Et par rapport au fine-tuning supervisé classique ? Les API de fine-tuning standards utilisent habituellement des approches supervisées quinécessitent un grand nombre d’exemples, des milliers voir millions. Le RFT, lui, est capable de fonctionner avec beaucoup moins de données, une dizaine et moins selon OpenAI. Mais je tiens à souligner qu’il ont deux utilitées distinctes. Imaginez-le comme ça : le fine-tuning supervisé remplit le LLM d'informations, alors que le RFT apprend plutôt à réfléchir face à un problème et à agir en conséquence, ou plutôt, à mieux formuler ses réponses pour arriver à un résultat escompté.

Une bonne illustration d’utilisation du RFT serait un cabinet juridique utilisant un modèle affiné par renforcement afin d’effectuer des analyses précises et pertinentes. Puisque les retours fournis au modèle reposent sur une interprétation juridique correcte, il apprend à être précis, donner les bons détails sous le bon format, et être fiable et réellement utile dans un cadre professionnel.

Ce qui est particulièrement intéressant avec le RFT, c'est qu’il permet aux modèles d’aller bien au-delà de la simple imitation : ils apprennent vraiment à raisonner et à répondre précisément comme on le souhaite. Vous n’avez plus nécessairement besoin de gros volumes de données ; vous avez simplement besoin d’un ensemble bien choisi de questions pertinentes et d’une fonction d’évaluation fiable. C’est un énorme avantage pour les entreprises, les chercheurs ou les développeurs qui veulent obtenir d’excellentes performances sans avoir à dépenser une fortune en ressources de calcul.

Alors, quel avenir pour le RFT ? Au moment d’écrire ceci, OpenAI teste cette méthode dans un programme alpha réservé à quelques partenaires privilégiés. Ils perfectionnent l'approche et améliorent l'API associée. À terme, cela pourrait ouvrir la voie à des modèles spécialisés extrêmement performants dans des domaines précis. Plutôt que de disposer uniquement d’IA généralistes comme aujourd’hui, nous pourrons obtenir une variété de modèles spécialisés, chacun optimisé pour un niveau expert dans son propre secteur. Je pense vraiment que le RFT va devenir un outil extrêmement précieux pour les développeurs de grands modèles de langage, complémentaire à d’autres méthodes que nous enseignons déjà dans nos cours, telles que le RAG, le prompting, le fine-tuning classique, l'utilisation d'outils ou encore les agents intelligents. 

Si vous êtes curieux et souhaitez approfondir ces sujets, n'hésitez pas à consulter nos formations sur  academy.towardsai.net!

J’espère que cette introduction du RFT était utile ou au moins intéressante!

Merci d’avoir lu jusqu’à la fin!

Louis-François Bouchard

Hello! Je suis Louis-François Bouchard, de Montréal, Canada, aussi connu sous le nom de 'What's AI' et j'essaie de partager et de vulgariser tout ce qui est en lien avec l'intelligence artificielle. Mon objectif est de démystifier la «boîte noire» de l'IA pour tous et de sensibiliser les gens aux risques de son utilisation.

https://www.youtube.com/channel/UCIUgms0TE2WhQijbU-IMYyw
Suivant
Suivant

FlashMLA expliqué simplement : le secret d’efficacité ultime de DeepSeek