L’ Intelligence Artificielle a pour objectif de construire des systèmes qui simulent un comportement intelligent. Ceci reprend un grand nombre de techniques dont l’ apprentissage machine constitue une partie importante. C’est l’apprentissage machine, et plus particulièrement sa déclinaison moderne faisant appel aux réseaux de neurones artificiels, appelée apprentissage profond qui a vu une croissance explosive ces dernières années et se retrouve au coeur de tous les progrès récents (conduite autonome, modèles de langage, générateurs d’image…).
Il me semble donc intéressant de décrire un peu plus en détail les grandes techniques de l’ apprentissage machine, qui se caractérisent par la quantité et le type de supervision qu’ ils reçoivent pendant l’ entraînement.
On distingue de ce fait trois grandes catégories d’ algorithmes :
- l’ apprentissage supervisé;
- l’ apprentissage non supervisé;
- l’ apprentissage par renforcement

Le nombre de techniques et d’ algorithmes utilisés en apprentissage machine est assez important, comme vous le verrez sur la figure ci-dessous. Mon but n’ étant pas ici de faire un exposé exhaustif, je me limiterai à présenter les techniques les plus connues.

L’ apprentissage machine recourt à une démarche inductive qui va chercher à construire un modèle sur base d’ exemples fournis pendant l’ entraînement. Une fois l’ entraînement terminé, le modèle sera utilisé sur d’ autres données. Un modèle bien entraîné va donc tenter de généraliser les corrélations apprises pendant l’ entraînement sur de nouvelles données. Ceci est à contraster avec l’ approche algorithmique de l’ IA classique qui est de nature déductive: un algorithme fixe est appliqué systématiquement à des données et fournit ses conclusions.

1. L’ apprentissage supervisé
C’ est le cas le plus simple à comprendre. Ces algorithmes définissent une correspondance entre des données d’ entrée et des données de sortie. Un modèle supervisé est donc une sorte de boîte noire qui va apprendre à ingérer des données en entrée pour restituer les données en sortie correspondantes. La boîte noire est en réalité une fonction mathématique contenant de (nombreux) paramètres réglables.
Le lien entre données d’ entrée et de sortie est établi lors de l’ apprentissage: on évalue l’ écart entre la réponse désirée et la réponse du modèle. Les paramètres du modèle sont ensuite modifiés de manière à réduire progressivement cette erreur au fil des itérations par des techniques mathématiques qui vont tenter de « dévaler la montagne » de l’ erreur en suivant la direction de la plus forte pente…

Tout cela n’est possible que si les données à la fois d’entrée et de sortie dont de nature numérique, ce qui ne pose en général pas de problème : tout ce qui est stocké sur un ordinateur l’ est sous forme numérique : texte, image, audio…
Une fois l’ entraînement terminé, on introduira des données en entrée et le modèle de produira la sortie correspondante. Bien sûr, cela ne présenterait aucun intérêt si le modèle était seulement capable de répondre aux données d’entrée de l’entraînement : ce que l’ on veut réellement, c’ est que le modèle soit capable de généraliser en répondant de manière plausible à de nouvelles données d’entrée qui ne lui ont jamais été présentées.
Les deux grands exemples classiques d’ apprentissage supervisé en apprentissage machine sont la régression et la classification. La régression est utilisée pour prédire des valeurs numériques telles que le prix, le salaire, l’ âge, etc… Elle aide à prédire les tendances du marché, les prix de l’ immobilier, la consommation électrique etc…
La classification est un processus qui consiste à diviser l’ ensemble des données en différentes classes. Les algorithmes de classification sont utilisés pour classer dans une catégorie/classe telles que Homme ou Femme, Vrai ou Faux, Spam ou Non Spam, etc. Le nombre de de classes peut être supérieur à deux, on pourrait vouloir classer des voitures en fonction de la marque par exemple (on parle de classification binaire ou multiclasse).

L’ apprentissage profond permet d’ étendre ces techniques à des données d’ entrée perceptuelles comme des images ou des sons. Le « détecteur de chat » dans les images qui faisait fureur il y a une dizaine d’ années l’ illustre bien : il s’agit d’ un système de classification d’ image (chat ou pas chat).
Un problème de l’ apprentissage supervisé est qu’ il faut fournir au modèle un ensemble de solutions (les sorties) pour l’ entraînement, ce qui n’ est pas toujours facile et requiert parfois de fastidieux efforts surtout pour les problèmes perceptuels qui demandent un grand volume de données d’ entraînement. Des entreprises entières ont vu le jour, qui mettent à disposition des ressources humaines en grand nombre pour labelliser des images ou autres données d’ entraînement.
2. L’ apprentissage non supervisé
Ce type d’ algorithme se fait sans que l’ entraînement n’ utilise de données de sortie (il est donc « sans supervision »). Le but cette fois n’est pas d’ apprendre une correspondance entre entrée et sortie, mais bien d’ identifier et d’ exploiter la structure sous-jacente dans les données elles-mêmes : un assemblage de mots aléatoire ne constitue pas un texte, et un ensemble de points chosis au hasard ne constituera pas une image interprétable… il y a donc quelque chose de plus dans les données qui nous intéressent. L’ apprentissage non supervisé cherche à identifer ce « quelque chose ».
Les techniques génératives relèvent de l’ apprentissage non supervisé. On y retrouve donc les modèles de langage et des générateurs d’ image.
Dans le cas des modèles de langage, le générateur va chercher à prolonger la séquence de mots qui lui est fournie dans l’ invite (le prompt). Une phrase peut se voir comme une séquence de mots. Le générateur va se baser sur l’ immense volume de textes ingurgités pendant l’ entraînement pour définir le prochain mot qui prolonge la séquence de la manière la plus plausible. Ce mot est ensuite ajouté à la séquence d’ entrée et l’ algorithme est exécuté à nouveau, et ainsi répétitivement jusqu’à génération de la réponse complète.

Les modèles générateurs d’ image vont fonctionner de manière un peu plus étonnante. Cette fois, le modèle va apprendre une représentation compacte des images. La technique utilisée pour apprendre cette représentation est assez indirecte puisqu’on va demander à l’ algorithme de retirer des parasites des images (les « débruiter »), ce qui amène le modèle à extraire les caractéristiques essentielles des images, et donc leur représentation compacte…

La représentation compacte est alors mise en correspondance avec le texte décrivant l’ image (texte qui fait aussi partie des données d’ entraînement). Le modèle va donc apprendre à « débruiter » une image en tenant compte de la description textuelle de cette dernière.
Une fois l’ entraînement terminé, il suffira d’ introduire un texte arbitraire, ainsi qu’une image ne contenant que des parasites. Le modèle va chercher à « débruiter » les parasites en tenant compte du texte que vous avez introduit ce qui, si tout va bien, convergera vers une image originale basée sur votre texte. Je suis bien conscient que ça paraît un peu fou mais c’ est le principe de l’ algorithme Stable Diffusion qui est utilisé par la quasi-totalité des générateurs d’ image actuels…
3. L’ apprentissage par renforcement
Le troisième grand domaine de l’ apprentissage machine est l’ apprentissage par renforcement. Cet apprentissage introduit la notion d’ un agent autonome qui agit dans un environnement et peut effectuer des actions et d’ en constater ensuite les conséquences. Les actions peuvent modifier l’ environnement et également donner lieu à des récompenses (ou des pénalités).
L’ apprentissage par renforcement consiste à apprendre ce qu’ il faut faire – comment associer des situations à des actions – de manière à maximiser le signal de récompense numérique. On ne dit pas au modèle quelles actions il doit entreprendre, mais il doit découvrir les actions qui rapportent le plus en les essayant.

La difficulté de l’ apprentissage par renforcement est que la récompense peut se trouver plusieurs étapes dans le futur, et donc établir quelle action mènera à la plus grande récompense future n’ est pas évident. Pensez à un jeu d’ échecs : la récompense (positive ou négative) n’ arrive que lorsque le jeu se termine par échec et mat. Si vous êtes en début ou en milieu de partie, il faudra probablement de nombreux coups avant que la récompense ne soit obtenue…ce problème est appelé le problème de l’ assignation temporelle du crédit. Lorsque l’ agent apprend à naviguer dans l’ environnement pour obtenir la récompense, il doit aussi équilibrer les stratégies d’ exploration et celles d’ exploitation : après avoir trouvé une approche qui mène à la récompense, faut-il se borner à répéter cette approche (exploitation) ou bien prendre le risque de tenter une nouvelle approche qui pourrait mener à une récompense supérieure (exploration)…
L’ apprentissage par renforcement est un domaine fascinant qui concerne non seulement les machines devant agir dans un environnement (robotique, conduite autonome…), mais nous interpelle aussi sur certains mécanismes de fonctionnement de notre propre cerveau. L’ excellent livre de Max Benett en référence décrit l’ hypothèse selon laquelle certaines structures cérébrales apparues chez les premiers vertébrés il y a environ 500 millions d’ années (et toujours présentes chez nous) exploitent un mécanisme d’ apprentissage par renforcement, qui a ainsi conféré à ces animaux un avantage évolutif, en leur permettant de mettre en place de meilleures stratégies de survie…
Sources et références
- A Brief History of Intelligence: Evolution, AI, and the Five Breakthroughs That Made Our Brains, livre de Max Bennett publié par Mariner Books, ISBN 978-0063286344
- Understanding Deep Learning, par Simon J. D. Prince, https://udlbook.github.io/udlbook/
- Reinforcement Learning, an introduction, par Richard S. Sutton and Andrew G. Barto, publié par MIT Press, ISBN 978-0-262-04864-4.