1. Modèles de Langage
Les Modèles de Langage se focalisent sur le traitement des langages humains. On parle aujourd’hui de « Grands » Modèles de Langage (GML) vu la taille énorme tant des jeux de données d’entraînement (des copies de l’ensemble de l’Internet!) que du nombre de paramètres internes du modèle. Ils peuvent être unilingues ou multilingues en fonction des données d’entraînement fournies mais la tendance actuelle est au multilinguisme: ChatGPT « converse » en 95 langues.
Les (Grands) Modèles de Langage fonctionnent de la manière suivante :
- ils ont pour principe de chercher à prédire le prochain mot d’une séquence de mots fournie par l’utilisateur.
- Cette prédiction se fait sous la forme d’une distribution de probabilité qui couvre l’ensemble des mots possibles (disons le dictionnaire).
- Plusieurs mécanismes sont possibles pour choisir le mot gagnant. Une approche déterministe consiste à choisir systématiquement le mot avec la probabilité la plus élevée. Une approche stochastique constituera à tirer au hasard dans la distribution de probabilité. Le type d’approche dépend du modèle et peut parfois être modifié par l’utilisateur.
- le mot prédit est alors ajouté à la séquence et le modèle est exécuté à nouveau avec la séquence complétée avec le mot généré, pour prédire le mot suivant.
- Ce mécanisme est exécuté répétitivement autant de fois que nécessaire jusqu’à l’occurence d’un mot spécial qui signifie la fin du texte (pensez au « STOP » des télégrammes).
Vous trouverez ci-dessous une illustration simple de ce mécanisme pour la séquence initiale « J’ai une voiture… » que le modèle complétera en trois étapes en « J’ai une voiture depuis hier. ».



L’ explication ci-dessus est conceptuellement correcte, mais les modèles actuels contiennent une astuce supplémentaire : ils ne prédisent pas des mots mais des tokens qui sont des parties de mots. Ils ressemblent plutôt à des syllabes que des mots. C’est notamment ce qui permet le multilinguisme. Nous y reviendrons dans un article ultérieur. Mais c’est un detail technique qui ne doit pas nous distraire du principe expliqué ci-dessus.
Les grands modèles de langage sont aussi des généralistes au niveau du type de narration; ils ne privilégient pas le dialogue sur d’autres formes discursives. En d’autres termes, ils ne répondront pas nécessairement à une question par une réponse. Ils sont donc tout à fait capables de ne pas répondre à la question voire de répondre par une autre question si cela leur semble plus plausible.
Tournons-nous maintenant vers les modèles de langage spécialisés en question-réponse et conversationnels, qui adressent précisément ce point.
2. Modèles de langages question/réponse et conversationnels
Les modèles Question/réponse sont des modèles dérivés ayant reçu un entraînement complémentaire qui les pousse à fournir une réponse lorsqu’une question est posée, en utilisant la base de connaissance intégrée dans le modèle lors de l’entraînement généraliste. Ceci rend ce genre de modèle beaucoup plus approprié pour une interaction avec des êtres humains.
Les modèles conversationnels sont un raffinement supplémentaire consiste à entraîner le modèle à tenir compte de l’ensemble d’un dialogue passé avec l’utilisateur -soit potentiellement plusieurs questions-réponses- lors de l’élaboration de la réponse.
Pour prendre le cas concret d’OpenAI, Les modèles GPT2,3 et 4 sont des modèles généralistes de puissance expressive croissante; InstructGPT est un modèle Question/Réponse dérive de GPT et ChatGPT est un modèle conversationnel dérivé d’ InstructGPT.
3. Véracité et hallucinations
Lors de l’entraînement complémentaire, les développeurs du système vont également tenter de privilégier les réponses véridiques, honnêtes et inoffensives. Mais ce n’est pas si simple que cela en a l’air. Le but du système est de compléter la séquence de la manière la plus plausible selon son propre modèle, ce comportement se rapproche plus du baratin que de l’honnêteté.
Ces modèles sont donc de brillants baratineurs et l’utilisateur sera bien averti de TOUJOURS revalider et vérifier le texte généré. Ne faites pas comme cet avocat aux USA qui a remis une plaidoierie générée par ChatGPT sans la relire, qui contenait toute une jurisprudence inventée de toutes pièces par notre espiègle serviteur informatique.
On dit dans le jargon de l’IA que le modèle hallucine. Une hallucination est une déclaration du modèle qui semble plausible mais s’avère être fausse.
4. Apprentissage spécialisé
Les modèles de langage étant à la base entraînés sur un corpus de texte généraliste, il peut être intéressant de leur fournir un entraînement complémentaire dans un domaine spécifique si vous avez une application précise en tête. Par exemple un entraînement sur les codes de loi pour une application juridique ou des ouvrage médicaux de référence pour une application dans le secteur de la santé, afin d’enrichir la puissance expressive du modèle dans la direction recherchée.
Cela reste un exercice relativement complexe qui va demander de faire appel à des experts : un corpus spécialisé de texte va devoir être identifié, prétraité puis les paramètres du modèle modifiés sur base de l’entraînement sur ce jeu de données, suivi d’une phase de test et de validation. L’ avantage de cette approche est que la connaissance du modèle est définitivement enrichie. Les interactions futures entre un utilisateur et le modèle sur le sujet seront plus fructueuses.
Une solution plus rudimentaire consiste à fournir un petit nombre d’exemples (de questions et réponses correctes) dans le texte de la question initiale afin d’ orienter le modèle dans la bonne direction pendant l’exécution. On appelle cela l’apprentissage dans le contexte (in-context learning). Il s’agit d’une des techniques de prompting que nous verrons dans le prochain article.
Laisser un commentaire