Les chercheurs ont conçu deux versions de l’IA : une « petite », avec 7 milliards de paramètres, et une plus grande, avec 40 milliards (à titre de comparaison, ChatGPT 3 avait 175 milliards de paramètres). Ils ont entraîné Evo 2 avec les séquences génétiques d’un grand nombre d’espèces procaryotes (comme les bactéries) et eucaryotes (comme les humains). Selon les auteurs, cela correspondrait à un total d’environ 8,8 billions de nucléotides (ou 8,8 mille milliards de nucléotides, les briques qui forment l’ADN). À titre de comparaison, le génome humain contient environ 3 milliards de nucléotides.
Puis, l’IA a été entraînée pour analyser des morceaux d’un million de nucléotides, pour apprendre comment les différents éléments du génome interagissent entre eux, même à longue distance. Toutefois, ils n’ont pas inclus des séquences de virus pouvant infecter l’humain, pour éviter que leur outil puisse être utilisé pour concevoir de nouveaux virus pathogènes.
Lire aussiUne avancée majeure vers le premier eucaryote avec un génome entièrement synthétique
« Penser dans le langage des nucléotides »
Grâce à cette gigantesque base de données, l’intelligence artificielle parvenait à détecter des patrons conservés à travers tous les génomes. Ceci lui permettait ensuite d’identifier les régions importantes d’un génome et de prédire leur fonction. « Tout comme le monde a laissé son empreinte dans le langage de l’internet utilisé pour entraîner des modèles de langage, l’évolution a laissé son empreinte sur les séquences biologiques, explique dans un communiqué Brian Hie, chercheur à Stanford et à l’Institut Arc, et directeur de l’étude. Ces patrons, affinés durant des millions d’années, contiennent des signaux sur comment les molécules fonctionnent et interagissent ».
L’outil parvenait aussi à prédire les conséquences d’une mutation au niveau de l’ADN, ainsi que de l’ARN (la molécule mobile qui transcrit l’information contenue dans le génome pour permettre la fabrication des protéines) et des protéines. Et cela, peu importe l’espèce dont provenait la séquence génétique. Ainsi, il arrivait à prédire correctement l’effet négatif de mutations humaines connues dans le gène BRCA1, impliqué dans le cancer du sein. Pourtant, l’IA n’a pas été entraînée avec des annotations sur ces mutations ni sur les fonctions de différentes parties du génome. Evo 2 les a tout simplement appris en analysant des séquences génétiques, de la même façon que ChatGPT apprend à écrire simplement en lisant des textes sur internet. « Ce modèle permet à la machine de lire, écrire et penser dans le langage des nucléotides », résume le codirecteur de l’étude, Patrick Hsu, fondateur de l’Institut Arc et chercheur à l’Université de Californie, à Berkeley.
Lire aussi« Effondrement mutationnel » : les mammifères ne peuvent pas être clonés indéfiniment
Evo 2 imite les génomes présents dans la nature…
Et comme les autres IA génératives, Evo 2 ne se contente pas d’analyser les données, elle peut les générer. Les chercheurs ont testé sa capacité à générer des séquences d’ADN, en lui donnant le début d’une vraie séquence d’un gène et en lui disant de la finir (comme on donnerait à ChatGPT le début d’une phrase pour qu’il la complète). L’IA parvenait à deviner la suite du gène avec un taux de réussite élevé, sauf pour les séquences virales, puisque ces séquences n’ont pas fait partie de l’entraînement.
Selon les auteurs, Evo 2 était même capable d’imaginer des génomes entiers. Ils l’ont d’abord testé avec l’ADN mitochondrial (le petit génome double brin contenu dans les mitochondries, les usines énergétiques des cellules, dont un brin fait un peu plus de 16.000 nucléotides). L’IA arrivait à inclure le bon nombre de régions codantes (qui contiennent les gènes), d’ARN ribosomaux et d’ARN de transfert, même si leurs séquences n’étaient pas tout à fait égales à celles du vrai ADN mitochondrial humain. Toutefois, les structures des protéines codées par cet ADN étaient similaires à celles des vraies protéines mitochondriales, montrant que l’IA est capable de bien imiter la nature. Puis ils ont demandé à Evo 2 de générer des génomes de bactéries (quelques centaines de milliers de nucléotides) et d’un chromosome de la levure (de quelques centaines de milliers de nucléotides aussi). Les séquences créées par l’IA n’étaient pas identiques à celles des espèces en question, mais y ressemblaient suffisamment pour garder les éléments essentiels, dans le bon ordre. Toutefois, les auteurs précisent que cela ne veut pas dire que ces séquences génétiques pourraient donner des êtres viables, c’est un test qu’il faudra faire ultérieurement.
… mais peut aussi en créer des nouveaux
Pour finir, les chercheurs ont évalué la capacité d’Evo 2 à « jouer » avec le génome, en inventant des séquences tout en respectant les règles de base de la génomique. Une de ces règles, c’est que, par moments il y a des régions du génome qui sont exposées, et dont les gènes peuvent être lus, et des régions pas exposées. Ils ont utilisé ces différentes régions pour écrire en code morse : ils ont indiqué à l’IA qu’une petite région accessible équivalait à un point, une longue région accessible à un tiré, et une région inaccessible à un espace. Suivant cette règle, ils lui ont demandé de concevoir des séquences génétiques qui incluent des messages en morse, dont « EVO2 ». L’IA a généré les séquences demandées, puis les chercheurs ont confirmé, avec succès, la présence du code morse in vivo : ils ont intégré ces séquences dans le génome de cellules souches de souris, afin d’évaluer l’accessibilité réelle de chaque région de la séquence créée par Evo 2. Montrant qu’il est possible de demander à l’IA de créer de nouvelles séquences, en respectant des règles données par l’utilisateur.
« Evo 2 a une compréhension généraliste de l’arbre de la vie, qui est utile pour une multitude de tâches, allant de prédire des mutations pathogéniques à concevoir du code potentiel pour de la vie artificielle, conclut Patrick Hsu. Nous sommes impatients de voir ce que la communauté scientifique construira à partir de ces modèles. » Les auteurs soulignent qu’ils ont pris en compte la possibilité que leur IA puisse être utilisée pour fabriquer des pathogènes, raison pour laquelle ils ne l’ont pas entraînée avec des séquences virales pouvant infecter l’humain. Mais il n’y a pas que des virus qui sont pathogènes. Les bactéries, par exemple, peuvent l’être aussi. Il paraît donc urgent que des garde-fous soient mis en place, pour que la vie artificielle ne finisse pas par détruire la vie réelle.
Source:
www.sciencesetavenir.fr




