Quand les IA miment l’activité cérébrale

Depuis une décennie déjà, les plus impressionnants systèmes d’intelligence artificielle sont majoritairement formés à l’aide d’énormes inventaires de données « étiquetées ». En effet, on étiquette une image, par exemple « chat tigré » ou « chat-tigre » (comme l’oncille en Amérique du Sud ou en le serval Afrique) pour « entraîner » un réseau de neurones artificiel à distinguer correctement un chat tigré d’un chat-tigre. Cette stratégie s’est révélée à la fois spectaculairement gagnante et terriblement déficiente.

Un tel entraînement, dit « supervisé », nécessite des données laborieusement étiquetées par des humains, et les réseaux neuronaux prennent souvent de mauvais raccourcis, apprenant à associer les étiquettes à des informations minimales voire, parfois, superficielles. Par exemple, un réseau de neurones pourrait utiliser la présence d’herbe pour reconnaître la photo d’une vache, du fait que les vaches sont généralement photographiées dans des champs.

« Nous érigeons une génération d’algorithmes se comportant comme des étudiants [qui] ne sont pas venus en cours pendant tout le semestre et qui, la veille de l’examen final, se mettent à bachoter », résume Alexei Efros, informaticien à l’université de Californie à Berkeley. « Ils n’apprennent pas vraiment la matière, mais ils réussissent l’examen. »

En outre, pour les chercheurs qui s’intéressent à l’intersection entre l’intelligence animale et l’intelligence artificielle, cet apprentissage supervisé risque de montrer rapidement ses limites, quant à éclairer le fonctionnement des cerveaux biologiques. En effet, les animaux – y compris les humains – n’utilisent pas des collections de données étiquetées pour apprendre. La plupart explorent l’environnement par eux-mêmes et, ce faisant, acquièrent une compréhension riche et solide du monde.

Dernièrement, des chercheurs en neurosciences computationnelles se sont mis à examiner des réseaux de neurones entraînés avec peu ou pas de données étiquetées par l’homme. Ces algorithmes d’apprentissage autosupervisé ont prouvé leur très grande efficacité à modéliser le langage humain et, plus récemment, à faire de la reconnaissance d’images. Dans des travaux récents, des modèles computationnels des systèmes visuels et auditifs des mammifères construits sur la base d’apprentissage autosupervisé ont affiché une meilleure correspondance avec le fonctionnement cérébral que leurs homologues à apprentissage supervisé. Au point que pour certains neuroscientifiques, c’est comme si les réseaux artificiels se mettaient désormais à dévoiler les méthodes que notre cerveau utilise réellement pour apprendre.

Supervision défectueuse

Les modélisations du cerveau inspirées des réseaux neuronaux artificiels sont arrivées à maturité il y a une dizaine d’années, quand, dans le même temps, ou presque, le réseau neuronal artificiel appelé AlexNet a révolutionné la classification d’images inconnues. Ce réseau, comme tous les réseaux neuronaux, était constitué de couches de neurones artificiels, des unités de calcul qui forment des connexions entre elles dont la force, ou le « poids », peut varier. Si un réseau neuronal échoue à classer correctement une image, l’algorithme d’apprentissage modifie le poids des connexions entre les neurones afin de rendre cette erreur de classification moins probable à la session suivante. L’algorithme répète ce processus de nombreuses fois avec toutes les images d’entraînement, en modifiant les poids des neurones, jusqu’à ce que le taux d’erreur du réseau tombe à un niveau acceptable.

À la même époque, les neuroscientifiques ont développé, à l’aide de réseaux neuronaux comme AlexNet et ses successeurs, les premiers modèles informatiques d’une partie spécifique du cerveau des primates : le système visuel. L’union semblait prometteuse : lorsqu’on montrait les mêmes images aux singes et aux réseaux neuronaux artificiels, par exemple, l’activité des neurones réels et des neurones artificiels présentait une étonnante correspondance. Des modèles artificiels d’audition et de détection des odeurs ont suivi.

Mais à mesure que le domaine a progressé, les chercheurs ont découvert les limites de l’entraînement supervisé. Par exemple, en 2017, Leon Gatys, un informaticien alors à l’université de Tübingen, en Allemagne, et ses collègues ont superposé un motif de peau de léopard à l’image d’une Ford Model T. Ils ont ainsi obtenu une image bizarre mais facilement reconnaissable. Un réseau neuronal artificiel, parmi les plus performants du moment, a correctement classé l’image originale (sans superposition) comme étant un Modèle T, mais il a considéré l’image modifiée comme étant un léopard. Il s’était fixé sur la texture et avait ignoré la forme de la voiture (ou celle du léopard, d’ailleurs).

Les stratégies d’apprentissage autosupervisé sont conçues pour éviter de tels problèmes. Dans cette approche, les humains n’étiquettent pas les données. Plutôt, « les étiquettes proviennent des données elles-mêmes », explique Friedemann Zenke, neuroscientifique computationnel à l’institut Friedrich-Miescher pour la recherche biomédicale, à Bâle, en Suisse. Comment ? Le principe essentiel est que les algorithmes autosupervisés créent délibérément des lacunes dans les données et demandent au réseau neuronal de les combler. Par exemple, dans ce qu’on nomme un « modèle de langage de grande taille », l’algorithme d’entraînement consiste à présenter au réseau neuronal les premiers mots d’une phrase et à lui demander de prédire le mot suivant. Lorsqu’il est entraîné à l’aide d’un corpus massif de textes glanés sur internet, le modèle semble ainsi apprendre la structure syntaxique de la langue, démontrant une capacité linguistique impressionnante – le tout sans étiquettes ni supervision externe.

Un effort similaire est en cours dans le domaine de la vision par ordinateur. Fin 2021, Kaiming He (chercheur membre de l’équipe Meta AI Research) et ses collègues ont révélé leur « autoencodeur à masque », qui s’appuie sur une technique conçue par l’équipe d’Alexei Efros en 2016. L’algorithme d’apprentissage autosupervisé masque aléatoirement les images, obscurcissant près des trois quarts de chacune d’entre elles. L’autoencodeur à masque transforme les parties non masquées en représentations latentes – des descriptions mathématiques compressées qui contiennent des informations importantes sur un objet. Dans le cas d’une image, la représentation latente peut être une description mathématique qui saisit, entre autres, la forme d’un objet dans l’image. Un décodeur reconvertit ensuite ces représentations en images complètes.

L’algorithme d’apprentissage autosupervisé entraîne le combiné codeur-décodeur à transformer les images masquées en leurs versions complètes. Toutes les différences entre les images réelles et les images reconstruites sont alors réinjectées dans le système pour l’aider à apprendre. Ce processus est répété pour un ensemble d’images d’entraînement jusqu’à ce que le taux d’erreur du système soit acceptablement faible. Dans un exemple, lorsqu’on a montré à un autoencodeur à masque déjà entraîné une nouvelle image d’un bus masqué à près de 80 %, le système a réussi à reconstruire la structure du bus. « C’est un résultat très, très impressionnant », a jugé Alexei Efros.

Les représentations latentes créées dans un système comme celui-ci semblent inclure des informations beaucoup plus profondes que celles susceptibles d’être produites dans les stratégies précédentes. Le système pourrait apprendre la forme d’une voiture, par exemple, ou d’un léopard, et pas seulement leur motif. « Et c’est là vraiment l’idée fondamentale de l’apprentissage autosupervisé : vous construisez vos connaissances de bas en haut », explique Alexei Efros. Pas de bachotage de dernière minute pour réussir l’examen.

Des cerveaux autosupervisés

Certains neuroscientifiques voient dans de tels systèmes les échos de la façon dont nous apprenons. « Pour moi, il n’y a aucun doute que 90 % de ce que fait le cerveau est un apprentissage autosupervisé », affirme Blake Richards, chercheur en neurosciences computationnelles de l’université McGill et du Mila, l’institut québécois d’intelligence artificielle. Selon une hypothèse largement partagée sur le fonctionnement des cerveaux biologiques, ceux-ci prédisent continuellement, par exemple, l’emplacement futur d’un objet lorsqu’il se déplace, ou le prochain mot d’une phrase. Tout comme un algorithme d’apprentissage autosupervisé tente de prédire les lacunes dans une image ou dans un fragment de texte. Par ailleurs, l’expérience quotidienne le montre, les cerveaux apprennent le plus souvent par eux-mêmes de leurs erreurs – seule une petite partie des informations faisant suite à une de nos actions provient d’une source externe qui, en substance, fait passer le message « mauvaise réponse ».

Prenons par exemple le système visuel des humains et des autres primates. C’est le système sensoriel animal le mieux étudié. Pourtant, les neuroscientifiques ont eu le plus grand mal à expliquer pourquoi il inclut deux voies distinctes : le flux visuel ventral, responsable de la reconnaissance des objets et des visages, et le flux visuel dorsal, qui traite le mouvement (les voies du « quoi » et du « où », respectivement).

Blake Richards et son équipe ont créé un modèle autosupervisé qui suggère une réponse. Ils ont entraîné une IA qui combine deux réseaux neuronaux différents : le premier, conçu selon l’architecture dite « ResNet », a été conçu pour le traitement des images ; le second, un réseau dit « récurrent », peut garder la trace d’une séquence d’entrées antérieures pour faire des prédictions sur la prochaine entrée attendue. Pour entraîner l’IA combinée, l’équipe commence – schématiquement – par choisir une séquence de dix images issues d’une vidéo et laisse le réseau ResNet les traiter une par une. Le réseau récurrent prédit ensuite la représentation latente de la onzième image, sans se limiter simplement à la faire coïncider avec les dix premières images. L’algorithme d’apprentissage autosupervisé compare alors la prédiction à la valeur réelle et demande aux deux réseaux neuronaux de modifier leurs poids pour améliorer la prédiction.

L’équipe de Richards a constaté que cette IA, entraînée avec un seul réseau ResNet, était performante pour la reconnaissance d’objets, mais pas pour la catégorisation des mouvements. Les chercheurs ont alors divisé le réseau ResNet unique en deux, créant ainsi deux voies (sans modifier le nombre total de neurones). L’IA a, dès lors, développé des représentations pour les objets dans l’une et pour le mouvement dans l’autre, permettant une catégorisation en aval de ces propriétés – tout comme le fait probablement notre cerveau.

Pour tester davantage cette IA, l’équipe lui a montré une série de vidéos que des chercheurs de l’Allen Institute for Brain Science, à Seattle, avaient précédemment montrées à des souris. Comme chez les primates, le cerveau des souris abrite des régions spécialisées dans les images statiques et d’autres dans le mouvement. Les chercheurs de l’Allen Institute ont enregistré l’activité neuronale du cortex visuel de la souris pendant que les animaux regardaient les vidéos.

Là encore, l’équipe de Richards a constaté des similarités dans la façon dont l’IA et les cerveaux vivants réagissaient aux vidéos. Au cours de l’entraînement, l’une des voies du réseau neuronal artificiel a présenté une similarité avec l’activité des régions ventrales du cerveau de la souris, qui détectent les objets, tandis que l’autre voie ressemblait à celle des régions dorsales, axée sur le mouvement.

Pour Blake Richards, ces résultats suggèrent que notre système visuel possède deux voies spécialisées, parce que cette organisation contribue à anticiper ce qui se passe dans le champ visuel ; une seule voie n’y suffirait pas.

Les réseaux artificiels se mettent désormais à dévoiler les méthodes que notre cerveau utilise

Les modèles du système auditif humain racontent une histoire similaire. En juin dernier, une équipe dirigée par Jean-Rémi King, chercheur chez Meta AI, a entraîné une IA appelée Wav2Vec 2.0, qui utilise un réseau neuronal pour transformer l’audio en représentations latentes. Les chercheurs masquent certaines de ces représentations, qui alimentent un autre composant du réseau neuronal appelé « transformeur ». Pendant l’entraînement, le transformeur doit prédire les informations masquées. Au cours de ce processus, l’IA entière apprend à convertir les sons en représentations latentes – là encore, aucune étiquette n’est nécessaire. L’équipe a utilisé environ six cents heures de paroles pour entraîner le réseau, « ce qui correspond approximativement à ce qu’un enfant entendrait au cours de ses deux premières années d’expérience », explique Jean-Rémi King.

Une fois le système entraîné, les chercheurs lui ont fait écouter des extraits de livres audio en anglais, en français et en mandarin. Ils ont ensuite comparé les résultats de l’IA avec les données collectées auprès de 412 personnes – un mélange de locuteurs natifs des trois langues qui avaient écouté les mêmes extraits enregistrés, pendant qu’on monitorait leur cerveau avec un scanner IRMf (imagerie fonctionnelle par résonance magnétique).

Jean-Rémi King a constaté que, malgré l’aspect bruité des images obtenues par IRMf et leur faible résolution, le réseau neuronal et les cerveaux humains « non seulement sont en corrélation les uns avec les autres, mais ils le sont de manière systématique » : l’activité des couches superficielles de l’IA s’aligne sur l’activité du cortex auditif primaire, tandis que l’activité des couches les plus profondes de l’IA s’aligne sur l’activité des couches des fonctions supérieures du cerveau, en l’occurrence celle du cortex préfrontal. « Ce sont des données vraiment magnifiques, s’enthousiasme Blake Richards. Ce n’est pas concluant, mais [c’est] un nouvel élément de preuve convaincant suggérant que, effectivement, la façon dont nous apprenons le langage se fait en grande partie en essayant de prédire les prochaines choses qui seront dites. »

réseaux de neurones autosupervisé comparaison images

Lorsqu’ils doivent catégoriser ou compléter une image (pour es deux exemples présentés, ligne supérieure), les réseaux de neurones autosupervisés ne comparent pas celle-ci avec un répertoire d’images déjà étiquetés par des humains. Ils masquent une partie de l’image (ligne du milieu), et produisent une interprétation de la partie masquée (ligne inférieure),jusqu’à ce que cette interprétation soit suffisamment proche de la partie masquée.

© C. Feichtenhofer et al., Masked autoencoders as spatiotemporal learners, Fig. 2, arXiv, 2022

Pathologies non guéries

Tout le monde n’est pas convaincu. Josh McDermott, chercheur en neurosciences computationnelles à l’institut de technologie du Massachusetts (MIT), a travaillé sur des modèles de vision et de perception auditive utilisant les deux types d’apprentissage, supervisé et autosupervisé. Son laboratoire a conçu ce qu’il appelle des « métamères », soit des signaux audio et visuels synthétisés qui, pour un humain, ne sont que du bruit insondable. Cependant, pour un réseau neuronal artificiel, les métamères sont indiscernables des signaux réels. Cela suggère que les représentations se formant dans les couches profondes du réseau neuronal, même avec un apprentissage autosupervisé, ne coïncident pas nécessairement avec les représentations dans notre cerveau.

Ces approches d’apprentissage autosupervisé « constituent un progrès car elles permettent d’apprendre des représentations qui peuvent produire une grande variété de voies de reconnaissance, sans recourir à de grandes collections d’étiquettes, convient Josh McDermott. Mais on y retrouve encore de nombreuses pathologies des modèles supervisés. »

Et indépendamment du type d’architecture choisi, il reste du travail pour améliorer les performances des algorithmes. Par exemple, dans le cas Wav2Vec 2.0 de Meta AI, l’IA ne prédit les représentations latentes que quelques dizaines de millisecondes de son à l’avance – moins de temps qu’il n’en faut pour émettre un bruit perceptible, sans parler d’un mot. « Il y a encore beaucoup à faire pour obtenir quelque chose de similaire à ce que fait le cerveau », admet Jean-Rémi King.

Comprendre réellement le fonctionnement du cerveau requerra davantage qu’un apprentissage autosupervisé. D’une part, le cerveau abrite de très nombreuses connexions de rétroaction, alors que les modèles actuels n’en ont que très peu, voire aucune. Une prochaine étape évidente consistera à utiliser l’apprentissage autosupervisé pour entraîner des réseaux hautement récurrents – un processus difficile – et observer comment l’activité de ces réseaux peut être comparée à l’activité réelle du cerveau. L’autre étape cruciale consistera à faire correspondre l’activité des neurones artificiels dans les modèles d’apprentissage autosupervisé à l’activité des neurones biologiques individuels. « Nous espérons qu’à l’avenir [nos] résultats seront également confirmés par des mesures sur des neurones [biologiques] individuels », concède Jean-Rémi King.

Si les similitudes observées entre les cerveaux et les modèles d’apprentissage autosupervisés se vérifient pour d’autres tâches sensorielles, ce sera une indication encore plus forte que nos cerveaux, quelle que soit la magie dont ils sont capables, font appel à un apprentissage autosupervisé sous une forme ou une autre. « Si nous trouvons des similitudes systématiques entre des systèmes si différents, cela suggère qu’il n’existe peut-être pas tant d’autres de façons de traiter l’information de façon intelligente, conclut Jean-Rémi King. Du moins, c’est sur ce genre de belle hypothèse que nous aimerions travailler. »

Quand les IA miment l’activité cérébrale

Télécharger la version PDF de cet article

(réservé aux abonnés numériques)

We would love to thank the author of this short article for this awesome content

Quand les IA miment l’activité cérébrale

Check out our social media accounts and also other related pageshttps://yaroos.com/related-pages/