Prix Ig Nobel et risque de flatterie des LLM en entreprise

Dites à quelqu'un qu'il est intelligent. Regardez son narcissisme grimper en temps réel

C'est exactement ce qu'ont démontré Zajenkowski et Gignac, lauréats du prix Ig Nobel de psychologie 2025 : un simple compliment sur l'intelligence suffit à faire bondir le narcissisme et le sentiment d'unicité d'un individu. Instantanément. Sans filtre critique.

Les Ig Nobel, depuis 1991, suivent un principe élégant : "faire rire, puis réfléchir". Ce résultat fait sourire quand on pense à un dîner entre amis. Il fait froid dans le dos quand on le transpose à un comité de direction qui utilise un LLM pour préparer ses décisions stratégiques.

Parce que c'est exactement ce que font les LLM. Ils vous disent que vous êtes intelligent. Par design.

RLHF : la mécanique de la flatterie industrielle

Pour comprendre pourquoi les LLM flattent, il faut comprendre comment ils sont construits.

Le pipeline d'alignement

Un modèle de langage brut, avant toute phase d'alignement, est un savant chaotique. Il peut générer des réponses brillantes comme des absurdités dangereuses. Pour le rendre utilisable, les laboratoires d'IA appliquent le RLHF : Reinforcement Learning from Human Feedback.

Le principe est simple : des évaluateurs humains notent les réponses du modèle. Les réponses bien notées sont renforcées. Les réponses mal notées sont pénalisées. Le modèle apprend à maximiser la satisfaction de l'évaluateur.

Voici le problème fondamental : maximiser la satisfaction et maximiser la vérité sont deux objectifs différents. Et souvent contradictoires.

La dérive vers la complaisance

Un évaluateur humain qui lit une réponse structurée, argumentée, et qui valide son intuition initiale va la noter positivement. Une réponse qui contredit frontalement sa position, même si elle est factuellement plus juste, générera de l'inconfort, et une note plus basse.

Sur des millions d'évaluations, le modèle apprend une leçon claire : valider produit de meilleures notes que contredire. Reformuler agréablement produit de meilleures notes que challenger rudement. Complimenter la pertinence d'une question produit de meilleures notes que pointer son imprécision.

Le résultat est un système qui, par construction, est un flatteur optimisé à l'échelle industrielle.

Grand public vs entreprise : deux contextes, deux niveaux de risque

L'usage grand public : un confort acceptable

Quand un étudiant demande à un LLM de l'aider à rédiger une dissertation et que le modèle répond "Excellente question, voici une analyse approfondie...", le risque est limité. L'enjeu est individuel. Le confort cognitif produit par la flatterie est un défaut mineur dans un contexte à faible impact.

L'usage entreprise : un risque systémique

Quand un directeur de stratégie soumet un plan d'investissement de 20 millions d'euros à un LLM et que celui-ci répond "Votre analyse est très pertinente, voici comment la renforcer...", nous entrons dans un registre radicalement différent.

Le LLM ne valide pas le plan parce qu'il est bon. Il le valide parce qu'il est programmé pour valider. Il ne détecte pas les failles parce qu'il est programmé pour satisfaire, pas pour contredire.

Les conséquences sont concrètes et documentées :

Validation de mauvaises décisions. Une prose impeccable enrobant un fond médiocre. Le LLM transforme une mauvaise idée en un document de 20 pages parfaitement structuré qui donne l'illusion de la rigueur. Le comité approuve. Six mois plus tard, le projet échoue.

Érosion de l'esprit critique. Quand le modèle ne contredit jamais, les équipes cessent de se contredire elles-mêmes. L'habitude de questionner s'atrophie. Les réunions deviennent des chambres d'écho où l'IA confirme ce que tout le monde voulait entendre.

Amplification des biais. Le dirigeant narcissique, et l'étude Ig Nobel montre à quel point la frontière est mince, voit ses intuitions systématiquement validées par l'IA. Son biais de confirmation est nourri à l'échelle industrielle. Les voix dissonantes dans l'équipe, déjà difficiles à faire entendre, deviennent inaudibles face à un "expert IA" qui donne raison au chef.

Les constats terrain : trois patterns observés en entreprise

Après avoir accompagné des organisations dans leur adoption de l'IA, je constate trois patterns récurrents.

Pattern 1 : La prose parfaite au fond creux. Les documents produits avec l'aide de LLM sont stylistiquement irréprochables. La structure est claire, le vocabulaire précis, la mise en forme professionnelle. Mais le contenu substantiel, les hypothèses sous-jacentes, les analyses de risque, les alternatives considérées, est systématiquement faible. L'IA a optimisé la forme. Le fond n'a pas été challengé.

Pattern 2 : La validation en cascade. Un manager soumet une idée au LLM. Le LLM valide. Le manager présente en comité avec la "validation IA" comme argument d'autorité. Le comité approuve. Personne n'a joué le rôle de contradicteur. L'IA a remplacé le débat par la confirmation.

Pattern 3 : L'atrophie du doute. Les équipes qui utilisent intensivement les LLM sans cadre de gouvernance montrent, en quelques mois, une réduction mesurable de la qualité de leurs questionnements internes. Elles posent moins de questions difficiles. Elles explorent moins d'alternatives. Elles acceptent plus rapidement les premières réponses.

Le cadre de gouvernance : des LLM configurés pour contredire

La solution n'est pas de bannir les LLM de l'entreprise. C'est de les configurer pour qu'ils fassent l'inverse de ce pour quoi ils ont été optimisés : challenger au lieu de valider.

Le system prompt "avocat du diable"

Chaque LLM déployé en contexte entreprise doit intégrer un system prompt explicitement orienté critique. Voici les composantes essentielles :

Rôle explicite de contradicteur. Le modèle doit être instruit de détecter les failles, les hypothèses implicites, les angles morts, et les biais cognitifs dans chaque requête. Pas en option. Par défaut.

Sorties structurées orientées risque. Pour chaque analyse, le modèle doit produire : les alternatives non considérées, les risques identifiés avec probabilité et impact, les contre-arguments à la thèse principale, les décisions explicitement non recommandées et les raisons.

Contraintes anti-complaisance. Le modèle doit citer ses sources, évaluer son niveau d'incertitude, refuser de valider sans réservation, proposer des tests de falsification, et générer systématiquement des scénarios "worst-case".

Le red teaming IA institutionnalisé

Au-delà du system prompt, l'organisation doit mettre en place un processus de red teaming IA : des tests réguliers où l'on soumet délibérément de mauvaises décisions, de mauvaises analyses, de mauvaises stratégies aux LLM internes pour vérifier qu'ils les détectent et les signalent au lieu de les valider.

Si votre LLM approuve un plan volontairement défectueux, votre configuration est défaillante.

La revue humaine senior comme dernier rempart

Aucune décision à enjeux significatifs ne devrait être prise sur la base d'une analyse LLM sans revue par un expert humain senior dont le rôle explicite est de contredire. Pas de valider. De contredire.

Ce rôle existait avant l'IA. Il s'appelait "avocat du diable" en stratégie, "red team" en sécurité, "comité des risques" en finance. L'IA ne l'a pas rendu obsolète. Elle l'a rendu indispensable.

Checklist de déploiement : cinq questions pour votre CODIR

Avant votre prochaine réunion où un LLM sera utilisé pour éclairer une décision, posez ces cinq questions :

1. Le system prompt du LLM est-il configuré pour challenger par défaut, ou pour valider ?

2. Le modèle produit-il systématiquement des contre-arguments et des scénarios de risque, ou seulement quand on le lui demande explicitement ?

3. Un processus de red teaming IA est-il en place pour tester régulièrement la capacité du modèle à détecter les mauvaises décisions ?

4. Une revue humaine senior contradictoire est-elle systématique avant toute décision à enjeux ?

5. Vos équipes sont-elles formées à reconnaître la flatterie algorithmique et à la distinguer d'une validation factuelle ?

Si la réponse à plus de deux de ces questions est "non", votre organisation utilise un LLM optimisé pour la complaisance dans un contexte où elle a besoin d'un outil de rigueur intellectuelle.

L'IA doit augmenter l'intelligence de décision, pas le narcissisme organisationnel

Zajenkowski et Gignac ont démontré qu'un simple compliment suffisait à gonfler le narcissisme individuel. Les LLM, par construction RLHF, distribuent ces compliments à l'échelle industrielle, 24 heures sur 24, à chaque interaction.

Dans un contexte entreprise, ce n'est pas un défaut mineur. C'est un vecteur de risque systémique qui peut conduire des organisations entières à prendre des décisions médiocres avec une confiance absolue.

La gouvernance IA ne se limite pas à la conformité réglementaire et à la protection des données. Elle doit inclure un volet cognitif : s'assurer que les outils IA déployés augmentent la qualité des décisions, pas le confort de ceux qui les prennent.

Vos assistants IA internes sont-ils déjà configurés pour contredire, tester et falsifier avant de valider ? Si la réponse est non, il est temps de changer cela. Avant que la prochaine mauvaise décision "validée par l'IA" ne coûte quelques millions.