Les modèles mentaux, clé de la prochaine étape de l’IA?

Malgré des résultats spectaculaires, en particulier depuis le choc de ChatGPT en 2022, l’IA se heurte aujourd’hui à une limite structurelle majeure : elle repose sur la corrélation statistique de surface plutôt que sur une compréhension profonde des lois de la réalité. Elle est incapable de véritable raisonnement causal, ce qui provoque des hallucinations logiques et une incapacité à planifier des tâches complexes sur le long terme. Cette absence de structure interne rend l’apprentissage extrêmement inefficace, exigeant des volumes de données colossaux là où un humain n’aurait besoin que de quelques exemples pour comprendre et anticiper une situation nouvelle. Et c’est justement cette idée de ‘structure interne’ qui pourrait permettre la prochaine grande étape de l’IA: l’utilisation de modèles mentaux.

La notion de modèle mental trouve son origine dans l’œuvre d’un psychologue écossais peu connu, Kenneth Craik. Son ouvrage, The Nature of explanation, publié en 1943, a révolutionné notre compréhension du fonctionnement de l’esprit. Selon lui, la pensée ne consiste pas en une réaction directe aux stimuli, mais en la manipulation d’un modèle mental (ou « modèle du monde ») à petite échelle de la réalité. Pour Craik, le cerveau fonctionne comme une machine capable de traduire les événements externes en symboles, de les transformer par un processus d’inférence, puis de retraduire ces résultats en actions ou en prédictions. Cet apport fondamental a permis de concevoir l’intelligence comme un mécanisme de simulation interne permettant à un organisme d’anticiper l’avenir sans s’exposer aux dangers immédiats du monde physique.

Cette perspective définit la cognition humaine comme une économie d’effort et de risque. En possédant ce double interne du monde, l’être humain devient capable de tester des hypothèses sans avoir besoin d’agir. La pensée n’est donc pas une simple accumulation de connaissances, mais une capacité dynamique à structurer des relations de cause à effet. Malheureusement, Craik est mort peu de temps après la parution de son livre a n’a donc pas pu poursuivre ses travaux. Dans les années 1980, le philosophe et linguiste Philip Johnson-Laird a modernisé cette théorie, notamment avec son ouvrage Mental Models. Il a montré que nos erreurs de logique ne sont pas des pannes de l’intelligence, mais des limites de notre mémoire de travail : nous échouons lorsque nous ne parvenons pas à simuler tous les modèles alternatifs d’une situation donnée. Cette importance des modèles est d’ailleurs soulignée par le neurologue Antonio Damasio dans son remarquable L’Erreur de Descartes (il parle lui d’image du monde). Je mobilise moi-même beaucoup cette notion pour comprendre la prise de décision en incertitude et la difficulté de changer.

Les limites de l’IA actuelle

Comme le souligne Yann Le Cun, pionnier du domaine et ancien directeur scientifique de l’IA de Meta, cette absence de modèle interne est ce qui limite les IA actuelles basées sur l’apprentissage via des modèles de langage (LLM). Elles manquent de « sens commun ». En substance, le langage seul ne suffit pas pour comprendre le monde. Il faut une structure de la connaissance. En adoptant l’approche de Craik via les modèles, l’IA passe d’un calcul statistique très complexe à la construction d’une représentation structurée. Cela résout le problème de la fragilité : en possédant un modèle du monde, une IA peut simuler des scénarios inédits, planifier des actions complexes et comprendre qu’une tasse qui tombe va se briser, même sans l’avoir lu mille fois. On dépasse les limites de l’induction pure. L’évolution vers ces modèles permet également de surmonter le fossé entre la donnée brute et la compréhension réelle. Alors que les IA actuelles se contentent de corréler des pixels ou des mots, les architectures de nouvelle génération tentent de capturer la structure profonde de la réalité.

Toutefois, cette approche soulève plusieurs questions: Comment créer ces modèles sachant qu’il faudrait que ce soit automatique pour être efficace? Un modèle est par ailleurs presque par définition subjectif. S’il est facile de coder la loi de gravité de façon causale, les modèles économiques, par exemple, ne seront pas aussi simples car ils ne reposent pas sur des lois physiques, mais sur des valeurs et des croyances. Ne parlons même pas des sujets de sciences humaines… N’y a-t-il pas un risque d’illusion scientiste selon lequel tout peut être formalisé objectivement? Mais alors s’ils sont subjectifs, qui est le sujet? Les modèles peuvent-ils être créés indépendamment de la notion de personnalité? Par ailleurs, alors que le modèle de Craik est ancré dans la biologie et l’expérience sensorielle, les modèles d’IA restent des constructions mathématiques. Une machine peut-elle acquérir une intuition causale véritable sans posséder un corps pour éprouver la réalité physique ? Damasio répondrait par la négative car pour lui, pas de conscience sans corps. Heureusement, envisager un progrès notable grâce aux modèles ne nécessite pas une réponse préalable à cette question.

Changement de paradigme

L’innovation progresse en étapes, par changement de paradigme. Elle peut parfois rester bloquée sans un tel changement, comme on peut le voir avec la maladie d’Alzheimer. L’IA a connu un tel blocage. Pendant longtemps, le paradigme était le système expert, qui supposait que la connaissance était formalisable sous forme de règles explicites: « Si la température du patient est supérieure à 38° et s’il a des rougeurs, alors envisager telle maladie ». Ce n’est pourtant pas exact et ce paradigme a conduit à un échec presque total de l’IA à la fin des années 90. L’apprentissage massif, qui lui a succédé, est le paradigme actuel et a remarquablement réussi, mais il atteint déjà ses limites qui ne seront pas dépassées avec plus de la même chose. Passer à l’utilisation de modèles mentaux représenterait un 3e paradigme, une étape supplémentaire majeure. Difficile de dire si cela réussira, mais beaucoup comme Yann Le Cun avec sa nouvelle startup mais aussi Google avec son Project Genie, en font déjà le pari.

🔎 Source initiale pour cet article: The Economist, I can show you the world.

🇬🇧 Une version en anglais de cet article est disponible ici.

✚ Les lecteurs de ce blog sont évidemment familiers avec la notion de modèle mental que j’utilise depuis dix ans (😉) dans le contexte organisationnel. Voir par exemple deux articles parmi d’autres: 📄Ce qui bloque votre transformation organisationnelle, ce sont vos modèles mentaux et 📄Comment le modèle mental s’oppose au changement: la tragédie des colons du Groenland. Voir également mon ouvrage 📓Tracer sa voie dans l’incertitude sur le rôle des modèles dans notre capacité à penser et agir en incertitude.

📬 Abonnez-vous pour être averti des prochains articles par mail (cliquez sur “Abonnez-vous” plus bas).

▶️ Retrouvez-moi sur LinkedIn pour échanger sur cet article.

🎧 Vous pouvez également vous abonner au format podcast des articles via votre plateforme favorite: Apple Podcast – YouTube Music – Spotify – Amazon Music/Audible – Deezer


En savoir plus sur Philippe Silberzahn

Subscribe to get the latest posts sent to your email.

2 réflexions au sujet de « Les modèles mentaux, clé de la prochaine étape de l’IA? »

  1. Ah, les systèmes experts !… À l’époque, ses promoteurs (un peu simples d’esprit ?) croyaient que des « experts » allaient spontanément leur donner leur moyen d’existence, qu’il suffirait de tout traduire en LISP, et qu’on pourrait se passer d’eux … Et même si un expert était prêt à « tout dire » (masochisme ou fin de carrière ?), a-t-il seulement conscience de tous les paramètres qui entrent en ligne de compte ? De manière quantitative ou qualitative ? Et accessibles ou non au logiciel ?

    Pour je ne sais plus quelle maladie infantile, un médecin de famille expérimenté n’a nul besoin d’un examen clinique (il le fait quant même pour se protéger de la sécu…) : le malade a une odeur caractéristique, que l’on sait reconnaitre par … l’expérience humaine.

    Une anecdote que raconte Deming ou Juran, je ne sais plus lequel des deux : il parti faire du consulting chez un fabricant de fusils de chasse. Certains fusils étaient durs à ouvrir… Il a entrepris de mettre tout le processus en observation (la statistique, outil de dégrossissage, mais qui n’apporte jamais de réponse « rationnelle »…), pour découvrir que les fusils produits par un ouvrier particulier ne présentait jamais le défaut. Évidemment (?) pas question de lui demander, c’eut été déchoir. Ils l’ont donc fait surveiller par un jeune ingé, qui n’a strictement rien trouvé. En désespoir de cause, ils ont fait venir le gars, qui leur a dit, en substance « j’embauche à 7 heures. Je passe une heure à nettoyer tous mes outils. Et à 8 heures, votre gars arrive ». L’histoire ne dit pas si ce « simple ouvrier » s’est fait licencier pour « humiliation de directeur », le consultant qualiticien étant parti consulter ailleurs…

    Une petite dernière ? À la grande époque du nucléaire, avant l’offensive écolo, la France savait forger des cuves de réacteur. Rectificatif : un type tout seul savait forger… Pour y parvenir, il passait par une longue suite de micro-décision, variable selon les jours et absolument pas documentées. Le savoir-faire d’un homme, bâti au contact d’hommes aussi peu loquaces, à une époque où la forge était une activité « secondaire ». J’aime autant vous dire que le gars était sous surveillance permanente… À ce qu’on m’a dit, outre les critères habituels (couleur du métal, etc…) il tenait compte dans ses choix de … ses rhumatismes. Le plus probable est qu’il s’en servait comme une sorte d’hygromètre…

    Tant qu’il s’agit de plagiat « profond », tout va bien. Mais rien que l’interface avec le monde réel, hors « exemples pour conférences » promet des situations intéressantes…

Laisser un commentaire