Le prix Nobel de chimie 2024 a été attribué à Demis Hassabis, PDG de Google Deepmind, conjointement avec le Dr. John Jumper également de Deepmind et le Professeur David Baker de l’Université de Washington.
Cette distinction a été attribuée pour leurs travaux sur le programme AlphaFold 2 développé par Google Deepmind, qui constitue une véritable révolution dans le domaine des sciences du vivant. Il s’ agit probablement de l’ application la plus prometteuse de l’ Intelligence Artificielle à ce jour. Le modèle, qui permet de prédire la structure tridimensionnelle des protéines à partir de leur séquence d’ acides aminés a résolu un problème de biochimie vieux de plus de cinquante ans. Le prix Nobel ne récompense pas seulement des années de recherches, mais démontre aussi comment l’ apprentissage machine et l’ IA influencent profondément notre compréhension des mécanismes du vivant.
Ce qui rend Alphafold aussi intéressant est sa capacité à faire des prédictions structurales précises de pratiquement n’ importe quelle protéine, une information exploitable par des milliers de chercheurs à travers le monde pour développer de nouveaux médicaments ou mieux comprendre des menaces sanitaires comme la résistance aux antibiotiques. De plus, l’ outil AlphaFold est librement accessible.
Les retombées potentielles d’ Alphafold sont certes nombreuses, mais comme il s’ agit d’ une application très spécifique, il faut se plonger dans le monde de la biologie moléculaire pour bien la comprendre…
Cet article s’ inscrit dans la continuité de mon article précédent intitulé « Les Machines Gracieuses » accessible ici. L’ essai de Dario Amodei, qui est docteur en neurosciences, imagine les transformations de notre société à moyen terme (5-10 ans) en se concentrant largement sur les progrès à attendre de l’ IA dans ses spécialités: la biologie et les neurosciences.
Présenter Alphafold est aussi une opportunité de sortir de l’ omniprésence médiatique des modèles de langage. L’ accessibilité et la popularité de l’ IA générative auprès du grand public a quelque peu éclipsé les progrès parallèles de l’ IA dite « prédictive » ces derniers temps. AlphaFold est une excellente occasion de rappeler que l’ IA prédictive, bien que plus spécialisée, recèle un potentiel énorme lui aussi.
1. Quelques mots de biochimie
Les protéines sont des molécules complexes qui sont responsables de la quasi-totalité des processus biologiques. Elles sont constituées de chaînes d’ acides aminés qui s’ emboîtent dans un ordre bien précis.
Ces chaînes pouvant être assez longues, le nombre de protéines théoriquement possibles est astronomique. Mais le mécanisme d’ assemblage n’ est pas aléatoire, loin de là : l’ être humain est constitué d’ environ 20.000 types de protéines, produites de manière calibrée en fonction de la cellule et de l’ organe.
L’ information décrivant la séquence de chaque protéine constituant nos protéines se trouve enregistrée dans notre ADN, sur lequel on retrouve environ 20.000 gènes, correspondant à nos 20.000 protéines, chaque gène encodant une protéine.
L’ ADN se compose d’ une longue suite de quatre bases différentes (dénommées en abrégé A,C, T et G). Un bloc de trois bases consécutives constitue un « codon », par exemple TTA, ATG etc… Chaque codon encode un acide aminé de la séquence formant la protéine. Un gène est donc une suite de bases ADN consécutives formant des codons qui seront ensuite traduits en une chaîne d’ acides aminés qui se replieront enfin pour former une protéine.
Petite complication, l’ ADN est d’ abord transcrit en ARN messager avant d’ être traduit en acides aminés, et la base T(hymine) est transformé en U(racile) au passsage. Par exemple, le codon TTA dans l’ ADN va devenir UUA dans l’ ARN messager qui encodera ensuite l’ acide aminé Leu(cine) dans le ribosome. La figure 2 montre comment passer du codon de l’ ARN messager à l’ acide aminé, en allant du centre vers l’ extérieur.


Il est fascinant de réaliser que ce mécanisme de transcription/traduction est identique -à quelques variations mineures près- pour l’ ensemble du vivant, depuis la bactérie jusqu’à l’ humain. La principale (la seule ?) distinction entre deux espèces provient de la différence entre les protéines produites et leur rôle.
Que ce mécanisme soit uniforme est un signe de l’ origine commune de l’ ensemble du vivant : si l’ on remonte suffisamment loin dans le temps, on aboutit à l’ organisme appelé LUCA, le dernier ancêtre commun universel à l’ ensemble de tous les êtres vivants actuels. Il est très probable que LUCA possédait déjà le mécanisme décrit ci-dessus expliquant son universalité. A noter que LUCA n’est en rien le premier organisme vivant, il résulte lui-même d’ un long processus évolutif sur la terre primitive. Mais tous les descendants des prédécesseurs de LUCA hormis ce dernier ont disparu…

Les acides aminés étant les mêmes pour tous les organismes, l’ algorithme de prédiction de structure des protéines d’ Alphafold2 peut s’ appliquer à l’ ensemble du règne animal et végétal. Et l’ on retrouve d’ ailleurs d’ importantes similitudes entre les protéines à travers les espèces. Au plus les espèces sont proches au sens de la taxonomie, au plus les protéines sont semblables. Et l’ analyse des différences entre protéines jouant un rôle similaire à travers les espèces est une des sources d’ information utilisées par AlphaFold2 pour prédire la structure des protéines.
2. Le problème du repliement des protéines
Fort bien, nous savons maintenant comment sont stockées dans l’ ADN les séquences d’ acide aminé constituant les protéines. La découverte de ce code remonte au début des années 1960 et fait suite à la découverte de la structure en double hélice de l’ ADN en 1953.
Mais les chercheurs ont rapidement dû faire face à un autre problème : le rôle d’une protéine dépend de sa forme dans l’ espace. En effet, une fois créée dans le ribosome – la machine cellulaire qui transforme l’ ARN messager en séquence d’ acides aminés – la protéine va se replier selon un mécanisme extrêmment complexe faisant intervenir non seulement les attractions et/ou répulsions des atomes entre eux, mais aussi le rôle du milieu aqueux dans lequel plonge la chaîne d’ acide aminés, dont certaines parties sont hydrophiles et d’ autres hydrophobes. La protéine ne deviendra fonctionnelle qu’une fois son repliage achevé. Complication finale, certaines protéines s’ assemblent ensuite entre elles pour former des structures plus complexes appelées multimères. La figure 4 donne une idée des étapes du processus :

Le problème du pliage des protéines est donc de savoir quelle forme géométrique finale adaptera une séquence donnée d’ acides aminés. Cela fait environ cinquante ans (depuis le début des années 1970) que les biochimistes butaient sur ce problème. Ce problème est tellement important qu ‘il a été appelé « la seconde moitié du code génétique » car sans cette information de structure, le rôle des protéines n’ est pas compréhensible.
En l’ absence d’une solution au problème du pliage des protéines, la seule alternative constituait à déterminer expérimentalement la forme de chaque protéine, une par une, par des techniques de cristallographie d’ abord et plus récemment de microscopie électronique. Mais cela restait un effort majeur, demandant plusieurs années de travail à un ou plusieurs chercheurs pour une seule protéine.
Au cours des cinquante dernières années, les laboratoires ont réussi à déterminer la structure d’ environ 220.000 protéines, qui sont regroupées dans la base de données mondiales des protéines PDB (Protein Databank) dont l’ instance européenne est accessible ici. Ce volume de données expérimentales laborieusement collecté au cours des dernières décennies a permis d’ entraîner AlphaFold.
3. Présentation d’ Alphafold
Alphafold utilise des techniques d’ intelligence artificielle pour prédire directement la structure finale (« pliée ») de la protéine à partir de la chaîne d’ acide aminés fournie en entrée. En d’ autres termes, AlphaFold2 ne s’ intéresse pas ni ne cherche à résoudre le processus de pliage sur lequel butaient les chercheurs. Il va au contraire, selon une approche typique du Machine Learning , chercher à prédire directement la forme finale de la protéine sur base de corrélation avec les structures connues qui lui sont présentées lors de l’entraînement du modèle, d’ où l’ importance de la base de données des 220.000 protéines existantes sans lequel rien n’ aurait été possible.
Une clarification : j’ ai parlé jusqu’ ici d’ Alphafold 2, publié en 2020, parce que c’ est ce modèle qui a reçu le prix Nobel 2024 mais Google Deepmind a publié en 2023 un nouveau modèle appelé AlphaFold3 qui est encore plus puissant et c’ est celui dont je vais vous présenter succinctement l’ architecture.
Lorsque l’ on présente une séquence d’ acides aminés à AlphaFold3, ce dernier va fonctionner en trois étapes. Il va tout d’ abord effectuer des recherches préparatoires pour localiser dans plusieurs bases de données la forme des protéines connues les plus proches ainsi que les séquences d’ acide aminés semblables dans d’ autres espèces. Ces données sont synthétisées sans deux ensembles distincts : la représentation par paire, qui décrit les positions et interactions relatives entre deux acides aminés de la chaîne, et la représentation d’ alignement multi-séquences (MSA) qui reprend un ensemble de séquences d’ acides aminés similaire à ce qui est recherché. Ces deux structures sont alors envoyées au second module.

Le second module contitue le coeur du système. Il s’ articule autour d’ un mécanisme d’ attention appelé « Pairformer » semblable à ce qui existe dans les modèles de langage. Ce mécanisme va enrichir l’ information en combinant les données contextuellement proches. Les deux structures (MSA et représentation par paires) sont retravaillées au cours de 48 étapes successives pour être finalement présentées à l’ entrée du module final.
Le module final va utiliser un algorithme de diffusion semblable aux générateurs d’ images pour itérer vers la structure géométrique finale sur base des informations fournies par le pairformer, la différence étant qu’ au lieu de générer des pixels que base d’ un texte, le modèle va générer une liste de positions tridimensionnelles pour chaque atome de la molécule sur base de la preprésentation par paires et de la MSA. Ce qui précède n’ est qu’ un très bref survol du mécanisme, si cela vous intéresse une description beaucoup plus détaillée mais restant accessible est disponible ici.
4. Potentiel pharmaceutique et thérapeutique
Répétons-le : le potentiel thérapeutique d’ Alphafold est très important. Google Deepmind ne s’y est pas trompé puisqu’il a lancé une spin-off appelée Isomorphic Labs qui travaille avec le secteur pharmaceutique pour développer de nouveaux médicaments.
La grande nouveauté d’ AlphaFold3 par rapport à Alphafold 2, c’ est qu’ il permet non seulement de prédire la structure des protéines, mais également leurs interactions avec d’ autres molécules comme l’ ADN ou de plus petites molécules appelées ligands. Or de nombreux médicaments ne sont rien d’ autre que des ligands qui vont modifier l’ action de certaines protéines en se liant avec elles. La possibilité de modéliser de telles interactions in silico devrait donc permettre d’ accélérer l’ identification de nouveaux médicaments potentiels.
Même logique pour les vaccins : pour créer un vaccin, il faut connaître la structure en 3D de l’ agent pathogène pour identifier les régions susceptibles d’ être reconnues par les anticorps de l’ organisme ce qui déclenchera le mécanisme de réponse immunitaire. Vacciner signifie introduire dans l’ organisme des molécules inoffensives présentant les mêmes structures moléculaires afin d’ apprendre au système immunitaire à les reconnaître à l’ avance. Or, avec Alphafold, il suffit de connaître la séquence génétique du virus (son code ADN) pour connaître sa forme tridimensionnelle, ce qui est nettement plus facile à déterminer.
Autre domaine d’ application: les maladies génétiques et les cancers. Il s’ agit cette fois de déterminer l’ impact d’ une variation dans la séquence d’ acides aminés sur la structure de la protéine et son fonctionnement. Cette protéine modifiée peut soit être héritée (maladie génétique) soit résulter de mutations (cancer) soit les deux. Il s’ agit d’ un domaine encore largement inexploré car la lourdeur des techniques traditionnelles rendait impossible l’ analyse du nombre énorme de variants possibles.
L’ idée est ici de prédire la dangerosité d’ un variant dont on connaît la séquence ADN (qui peut aisément être obtenue par séquencage). Pour ce faire, Google Deepmind développe un autre programme appelé AlphaMissense, une adaptation d’ Alphafold visant à catégoriser le risque introduit par un variant.
5. Le problème inverse : le design de protéines
Un point mérite d’ être soulevé ici : si Alphafold a largement résolu le problème « direct » de la prédiction de la structure des protéines à partir d’ une séquence d’ acides aminés, le problème inverse n’ est pas moins important. Le design de protéines consiste à partir d’ une structure spatiale désirée et à chercher la séquence d’ acides aminés correspondante afin de pouvoir la faire fabriquer en série par les cellules.
Résoudre le problème direct nous aide à comprendre le fonctionnement du vivant, mais résoudre le problème inverse ouvrirait une boîte de Pandore : la construction de virus pathogènes voire de cellules artificielles entrerait dans le champ du possible.
Le problème inverse n’ est pas résolu mais il existe une voie de contournement: utiliser un modèle direct comme Alphafold pour générer un très grand nombre de structures, les stocker, puis utiliser un système de recherche pour localiser la structure la plus proche de ce que l’ on cherche et en fournir la séquence.
C’est ce qu’a fait Google Deepmind en publiant les structures de 200 millions de protéines générées par Alphafold. En effet, si la prédiction de structure était difficile avant Aphafold, le problème du séquençage génétique est résolu depuis longtemps. Le nombre de séquences ADN connues est donc bien plus important que celui des structures de protéines. Google Deepmind a simplement utilisé son algorithme sur l’ensemble des séquences qui n’avaient pas encore été modélisées en 3D (soit 99.9% du total)….le résultat est accessible ici.
6. Risques
Alphafold 3 est accessible au public ici. Vous pouvez demander à visualiser la structure d’ une protéine après avoir fourni la séquence d’ acides aminés au format FASTA, et éventuellement ajouter d’ autres éléments en interaction : ADN, ARN, ligands…
Voici un exemple dans lequel j’ ai essayé de voir l’ interaction entre deux protéines, un segment d’ ARN et deux ions Zinc. Les couleurs correspondent au niveau de confiance du modèle comme indiqué sur la légende en haut de l’ image.

Le modèle n’ est cependant pas open-source. Vous devez passer par les serveurs de Google Deepmind. Il y a une bonne raison à cela en plus de l’ impératif commercial : les virus sont eux aussi des assemblages de protéines. C’ est pourquoi le modèle bloque la prédiction structurales de certaines séquences suspectes.
Il existe cependant déjà un programme concurrent à Alphafold, appelé RoseTTAFold, qui est librement téléchargeable sur Github ici. Ses performance sont cependant inférieures à Alphafold.
Tant que ces modèles restent limités à la prédiction directe, le danger reste limité. Mais si le problème inverse venait à être résolu, le risque augmenterait considérablement…
7. Sources et références
- The Nobel prize in Chemistry 2024 : They cracked the code for proteins’ amazing structures, communiqué de presse de l’ Académie Royale Suédoise des Sciences, le 9 Octobre 2024 : https://www.nobelprize.org/prizes/chemistry/2024/press-release/
- Alphafold 3 predicts the structure and interactions of all of life’s molecules, par Isomorphic Labs le 5 août 2024 : https://www.isomorphiclabs.com/articles/alphafold-3-predicts-the-structure-and-interactions-of-all-of-lifes-molecules
- The Royal Institute on AI : Understanding Alphafold, interview avec Dame Janet Thornton : https://youtu.be/lxgaILSZEbU?si=zugFYLwzXLHf8jF8
- The Illustrated Alphafold: a visual walkthrough of the Alphafold3 architecture, par Elana Simon & Jake Goldber, le 10 juillet 2024 : https://elanapearl.github.io/blog/2024/the-illustrated-alphafold/