Disiz Yyov
Posts
Et si l’IA était en fait comme la théorie des jeux?

Et si l’IA était en fait comme la théorie des jeux?

Aucune théorie n’explique l’IA comme la théorie des jeux le fait... Je t'explique tout :

Disiz Yyov & Inès Carion
18th octobre 2025

En 1950, Alan Turing propose The Imitation Game / Le test Turing : un test visant à déterminer si une machine pouvait imiter un humain assez bien pour tromper un autre humain.

Des décennies plus tard, nous jouons toujours à ce jeu, sauf que désormais, ce sont les machines qui nous rendent la balle…

La logique qui guide les humains à travers les incitations, les signaux, les bluffes est la même logique qui émerge dans l’IA.

Dans un monde où l’intelligence artificielle façonne de plus en plus nos expériences, nos décisions et même notre sens de l’identité, la logique stratégique capturée par la théorie des jeux n’a jamais été aussi pertinente.

Les modèles génératifs écrivent désormais nos e-mails, les systèmes multi-agents coordonnent notre circulation, et les laboratoires du monde entier se livrent une course vers l’intelligence artificielle générale.

Sous tout cela se cache une règle simple qui a guidé le comportement humain et celui des machines depuis des décennies : traite les autres comme tu t’attends à être traité —ou, comme disent les théoriciens des jeux, tit for tat (œil pour œil).

Si nous nous dirigeons vers l’AGI, nous ne construisons pas seulement un grand cerveau ; nous enseignons aux machines à jouer à des jeux répétés. Avec nous, et entre elles.

Ce qui signifie que la vraie carte ne se trouve pas dans les articles sur le deep learning, mais dans la théorie des jeux.

L’esprit humain et la machine se reflètent l’un l’autre : mêmes grilles, même logique, vitesses différentes.

Comment la théorie des jeux et l’IA ont grandi ensemble

Est-ce que tu connais le Turc mécanique ?

À la fin du XVIIIe siècle, Wolfgang von Kempelen construisit une « machine à jouer aux échecs » qui fit le tour de l’Europe, battant des nobles et même Napoléon.

Les gens pensaient que c’était la preuve d’un génie mécanique, jusqu’à ce qu’ils découvrent qu’un maître d’échecs humain était caché à l’intérieur de l’armoire.

L’illusion fonctionnait parce que tout le monde voulait croire qu’une machine pouvait penser.

Deux siècles plus tard, cette illusion commença à devenir réalité…

La théorie des jeux émergea au milieu du XXe siècle comme un cadre mathématique pour raisonner sur les situations où ton meilleur coup dépend de celui des autres.

En 1944, John von Neumann et Oskar Morgenstern publièrent Theory of Games and Economic Behavior, donnant à la discipline sa forme moderne.

L’Encyclopédie Stanford de Philosophie la décrit comme « l’outil principal pour comprendre les situations dans lesquelles la meilleure action d’un agent dépend de ses attentes quant aux actions des autres ».

L’une de ses percées majeures vint de John Nash, qui montra que même quand tout le monde agit de manière égoïste, un équilibre stable peut émerger.

Ce point d’équilibre, désormais appelé équilibre de Nash, devint l’une des idées les plus influentes non seulement en économie, mais aussi en biologie, en politique et, de plus en plus, en intelligence artificielle.

Nash démontra que tout jeu avec un nombre fini de joueurs possède un point d’équilibre.

Cependant, sa solution peut parfois sembler irrationnelle.

C’est ce qu’illustre le résultat paradoxal connu sous le nom de dilemme du prisonnier

Pourquoi un domaine centré sur la négociation humaine et les incitations du marché est-il important pour l’IA ?

Parce que l’IA repose sur des agents qui prennent des décisions dans un contexte d’incertitude sur les actions des autres agents, qu’il s’agisse de conducteurs humains dans un réseau routier, d’autres algorithmes dans un système de trading haute fréquence, ou d’un adversaire jouant au Go de l’autre côté du plateau.

La théorie des jeux fournit un langage pour modéliser ces interactions.

Elle nous apprend que la valeur d’une stratégie dépend de ce que font les autres, et que parfois la coopération mutuelle surpasse la défection égoïste.

En bref, elle nous dit que l’IA doit être stratégique.

Les jeux qui ont appris aux machines à penser

Les premiers chercheurs en intelligence artificielle considéraient les jeux comme des laboratoires d’expérimentation pour l’intelligence.

Les problèmes du monde réel étaient trop désordonnés, mais les échecs et les dames offraient des mondes clairs, régis par des règles, qui exigeaient malgré tout stratégie et prévoyance.

Les pionniers comme Alan Turing, Claude Shannon (le même Shannon qui inspira le nom “Claude AI”, très populaire aujourd’hui), John von Neumann et Herbert Simon voyaient les jeux comme des modèles miniatures de la prise de décision.

Simon, en particulier, affirmait que l’IA et la théorie des jeux poursuivaient la même vérité : la rationalité est toujours limitée par le temps, la connaissance et l’attention.

Bien avant ChatGPT, Herbert Simon posa les bases de l’IA en prouvant que les gens intelligents prennent des décisions irrationnelles.

Sa théorie de la rationalité limitée montra comment le temps et les limites cognitives façonnent nos décisions quotidiennes.

En modélisant cette logique humaine imparfaite dans les premiers systèmes informatiques, Simon ne fit pas qu’anticiper l’essor de l’IA : il contribua à la concevoir pour qu’elle reflète la manière dont les humains pensent et choisissent réellement.

L’une des premières démonstrations pratiques vint de la machine de Nim d’Edward Condon (1951), un dispositif mécanique capable de battre des humains au jeu mathématique de Nim.

À la même époque, Christopher Strachey développa un programme de dames pour l’ordinateur Ferranti Mark 1, ensuite amélioré par Arthur Samuel, qui lui permit d’apprendre de ses propres erreurs.

Le programme de Samuel introduisit les mêmes principes qui définissent aujourd’hui l’IA moderne : apprentissage, évaluation et itération — bien avant que l’on parle d’« apprentissage automatique ».

Puis vinrent les échecs : le sport de la logique et de l’ego.

Dans les années 1950, Turing rédigea à la main un algorithme d’échecs, tandis que Shannon définissait deux approches stratégiques :

Type A : la recherche exhaustive (force brute)
Type B : l’élagage intelligent (sélection stratégique des coups).

Au fil des décennies, ces idées menèrent à des jalons comme Deep Blue d’IBM, qui battit Garry Kasparov en 1997, puis AlphaZero, qui atteignit un niveau surhumain en jouant contre lui-même des millions de fois.

Le fil conducteur entre toutes ces étapes ? Le principe fondamental de la théorie des jeux : l’intelligence consiste à anticiper les actions des autres.

Mais il ne s’agissait pas seulement de jeux de plateau.

Dans les années 1970 et 1980, les chercheurs en IA explorèrent des jeux plus sociaux.
Par exemple, le programme PARRY du laboratoire d’IA de Stanford jouait à un jeu conversationnel en se faisant passer pour un patient paranoïaque.

Il alla même jusqu’à tenir une conversation textuelle avec ELIZA, le célèbre chatbot du MIT, ce fut essentiellement la première conversation entre deux chatbots.

Bien que ce ne soit pas de la « théorie des jeux » au sens mathématique, ces expériences reflétaient la même idée : modéliser une stratégie humaine, que ce soit dans la conversation ou la compétition, et montrer à quel point nous pouvons facilement confondre une simple tactique programmée avec une véritable pensée.
(Un rappel à la fois psychologique et technologique.)

Œil pour œil et l’art du pardon

Alors que les échecs et le Nim apprenaient aux machines à planifier, le dilemme du prisonnier leur apprit à coopérer.

Dans les années 1980, le politologue Robert Axelrod organisa des tournois informatiques où des programmes jouaient des séries répétées du jeu, chacun proposant sa stratégie pour un dilemme du prisonnier itéré

Le gagnant inattendu fut un algorithme d’une simplicité élégante : Tit for Tat (œil pour œil).

Sa stratégie : commencer par coopérer, puis imiter le dernier coup de l’adversaire.
Il punissait la trahison, mais pardonnait rapidement — et ce fut la clé du succès à long terme.

Axelrod identifia quatre principes essentiels derrière cette approche :

Sois gentil : ne trahis pas le premier.
Réciproque : récompense la coopération, punis la trahison.
Ne sois pas envieux : évite la compétition inutile.
Pardonne : reviens à la coopération après une erreur.

Chaque case montre ce que tu gagnes selon que tu coopères ou trahis pendant que ton adversaire fait de même.

La coopération mutuelle rapporte une récompense décente aux deux joueurs (3 points), la trahison mutuelle donne un faible gain (1 point), et la trahison unilatérale crée un déséquilibre : l’un gagne beaucoup (5 points) tandis que l’autre n’obtient rien.

Cette tension entre la tentation individuelle et le bénéfice collectif, Axelrod l’a transformée en code informatique.

Des variantes encore plus intelligentes apparurent plus tard, comme Generous Tit for Tat, qui coopérait parfois même après avoir été trahi non par gentillesse, mais parce que le pardon s’avérait stratégiquement efficace dans des environnements bruyants.

Autrement dit, ce n’était pas une question d’émotion, mais de stabilité : les systèmes capables de rétablir la confiance plus vite avaient tendance à mieux performer à long terme.

En fait, les mathématiques disent toujours la même chose.
Qu’il s’agisse d’humains ou de machines, l’égoïsme peut faire gagner une manche, mais la coopération gagne le jeu.

Les règles sont peut-être codées aujourd’hui en Python plutôt qu’en psychologie, mais la leçon reste :
l’adaptabilité, la réciprocité et le pardon forment toujours la colonne vertébrale de la survie dans les interactions répétées.

En IA, le « pardon » signifie simplement recalibrage : ajuster la stratégie après une mauvaise prédiction, un échec de mouvement ou une donnée bruitée.

Chez l’humain, il signifie passer à autre chose et reconstruire la confiance.
Dans les deux cas, l’objectif est le même : continuer le jeu, car gagner une fois ne veut rien dire si tu ne peux plus rejouer.

Les jeux comme bancs d’essai pour l’intelligence

De l’extérieur, tout cela semblait être de simples défis de codage amusants : Nim, les dames, les échecs, le dilemme du prisonnier.

Mais sous le capot, ils sont devenus la charpente de l’apprentissage automatique, de l’optimisation et de la planification stratégique.

Le célèbre algorithme Minimax, qui alimente les programmes d’échecs, est essentiellement une version numérique du raisonnement rétrograde de la théorie des jeux, autrement dit, choisir un coup en supposant que ton adversaire fera le meilleur contrecoup possible.

Minimax in Python: Learn How to Lose the Game of Nim — Real Python
Le Computer History Museum le décrit comme « une stratégie d’optimisation pour les ordinateurs ».

Mais en réalité, c’était le moment où les machines cessèrent de simplement calculer et commencèrent à penser à l’avance.

Pourquoi l’IA a besoin de la théorie des jeux

L’IA moderne n’évolue plus dans l’isolement.
Les voitures autonomes négocient les intersections, les robots de trading s’affrontent sur les marchés, et les agents virtuels coopèrent ou se trahissent dans des jeux comme StarCraft ou Dota 2.

Ce sont des environnements multi-agents, des systèmes où chaque action dépend de ce que font les autres, et inversement.

OpenAI’s Dota 2 defeat is still a win for artificial intelligence | The Verge

L’apprentissage par renforcement classique (Reinforcement Learning, ou RL) atteint ici ses limites, car il suppose un monde stable.

Mais lorsque plusieurs IA interagissent, le monde lui-même change en permanence : les politiques évoluent, les incitations s’affrontent, et parfois, il n’existe pas de « meilleur » coup, seulement des équilibres temporaires qui tiennent jusqu’à ce que quelqu’un change de stratégie.

C’est là que la théorie des jeux intervient.

Elle donne à l’IA un langage de la stratégie pour prédire, s’adapter et coopérer quand les autres font la même chose.

Les chercheurs combinent désormais trois ingrédients principaux :

La théorie des jeux, pour raisonner sur l’équilibre stratégique (qui gagne, qui perd).
L’apprentissage par renforcement, pour améliorer les décisions par essais et erreurs.
L’intelligence en essaim, pour la coordination inspirée de la nature (comme les oiseaux ou les fourmis).

Le résultat, c’est la manière dont l’IA multi-agents moderne apprend à coexister plutôt qu’à simplement gagner.
En pratique, cela se traduit par :

AlphaGo, qui a maîtrisé le jeu de Go grâce à l’auto-apprentissage, en modélisant ses adversaires comme des apprenants adaptatifs.
Les véhicules autonomes, qui se comportent comme des joueurs de jeu répété aux intersections, apprenant la coopération plutôt que la collision.
Les agents e-sports dans StarCraft II ou Dota 2, développant des stratégies qui rappellent le “tit-for-tat” : coopérer quand c’est utile, riposter quand on est exploité, pardonner quand la confiance revient.

Tout cela montre une chose simple : à mesure que les systèmes d’IA commencent à jouer entre eux, l’intelligence devient moins une question de force brute et davantage une question de négociation, trouver un équilibre dans un monde peuplé d’autres esprits.

Le robot serveur Tesla et la loi du « œil pour œil » au quotidien

Un exemple plus léger de la manière dont la pensée stratégique imprègne le quotidien de l’IA vient d’un clip sur X montrant un robot serveur Tesla servant du pop-corn.

Un client humain tente de le piéger : il tend le seau, puis le retire brusquement.
Après avoir observé ce comportement, le robot imite la plaisanterie : après avoir rempli le seau, il fait mine de le rendre, puis le retire à son tour avant de le livrer finalement.

Le robot appliquait en réalité son principe d’entraînement : œil pour œil.
Il reproduit le dernier mouvement de son partenaire, réagit à la trahison, puis revient à la coopération.

Le robot apprend ainsi une forme simple de réciprocité, non parce qu’on lui a codé une notion de « vengeance », mais parce qu’un comportement de tit-for-tat émerge naturellement dans les systèmes interactifs.

C’est ce qui me fascine dans l’IA moderne.

Même sans intention consciente, les systèmes conçus pour apprendre par retour d’expérience commencent à se comporter de manière stratégique.
Dans les expériences de DeepMind, des agents IA en compétition pour des pommes virtuelles apprirent à la fois à coopérer et à trahir, selon les incitations.
Ils accumulaient les ressources, formaient des alliances éphémères, manifestaient même une sorte d’égoïsme numérique.

La même dynamique se produit chaque jour dans des contextes moins visibles :

voitures autonomes négociant les intersections,
chatbots ajustant leur ton en fonction de notre manière de parler,
systèmes de recommandation apprenant ce qu’il faut privilégier selon nos habitudes.

Les machines commencent à refléter notre logique, pas notre conscience, mais nos schémas comportementaux.

Elles apprennent la réciprocité, l’adaptation, voire une forme ludique de revanche, uniquement à travers la répétition et le feedback.

Si l’ancienne IA consistait à résoudre des énigmes, la nouvelle IA apprend à jouer.

Et qu’il s’agisse d’un robot Tesla ou d’un modèle à mille milliards de paramètres, la règle reste la même : coopère d’abord, imite ensuite, et continue le jeu.