Pourquoi des données fiables mènent à de mauvaises décisions

Ce que vos données excluent est souvent ce qui décide réellement

Données propres :
quand la propreté formelle masque ce qu’on ne peut plus voir

Le paradoxe central : En 2008, les modèles de risque des grandes banques mondiales sont impeccables. Notés AAA, validés par des mathématiciens de haut niveau, calibrés sur 25 ans de données historiques. Ils reposent tous sur la même hypothèse : les défauts de remboursement hypothécaires ne sont pas corrélés entre eux à l’échelle nationale.

Cette hypothèse n’a jamais été testée dans un marché immobilier en effondrement généralisé, parce qu’un tel effondrement ne s’était pas produit depuis 1929. La crise de 2008 n’est pas une crise de données manquantes. C’est une crise de données propres bâties sur des hypothèses que personne n’avait jugé utile de questionner.

Signal 01

Vos indicateurs sont tous au vert, mais les gens sur le terrain parlent d’une réalité différente.

Signal 02

Vos données couvrent une période de stabilité et vous prenez des décisions pour un contexte de rupture.

Signal 03

Personne dans la salle ne sait vraiment comment les données ont été produites avant d’arriver dans le tableau.

Pattern central – Noos Systemic

Une donnée propre est une donnée produite dans un contexte. Quand celui-ci change et que la donnée reste, ce n’est plus de l’information, c’est un décor. Le décideur qui s’y fie ne pilote plus la réalité. Il pilote la représentation d’une réalité qui n’existe plus.

Le 9 octobre 2001, Goldman Sachs qualifie Enron de best of the best. Le 2 décembre 2001, Enron dépose le bilan pour 74 milliards de dollars de pertes. Dans l’intervalle : des données financières irréprochables, auditées, certifiées, publiées.

En 2016, la quasi-totalité des sondages américains donnent Hillary Clinton gagnante avec une probabilité supérieure à 70 %. Le 8 novembre, Donald Trump remporte l’élection. En mai 2020, une étude publiée dans The Lancet sur 96 000 patients conduit l’OMS à suspendre ses essais cliniques sur l’hydroxychloroquine. Treize jours plus tard, l’étude est rétractée. Les données n’existaient pas sous la forme présentée.

Trois domaines différents. Trois décisions majeures fondées sur des données propres, vérifiées, présentées par des institutions de premier rang. Trois erreurs de trajectoire massives. Ce n’est pas un problème de données manquantes. C’est un problème de ce que la propreté formelle ne dit pas, et que le décideur stratégique, précisément parce qu’il fait confiance à la forme, ne cherche plus à savoir.

Le problème n’est pas seulement la donnée, mais la méthode d’analyse des systèmes humains utilisée pour l’interpréter.

Sommaire de l’article

1. Ce que propre signifie, et ce que ça dissimule

2. Subprimes 2008 : Quand les modèles parfaits ne connaissaient pas le monde qu’ils allaient créer

3. Brexit et Trump 2016 : Quand l’échantillon exclut ceux qui vont décider

4. Le Lancetgate, mai 2020 : Quand la propreté formelle masque l’inexistence des données

5. Les trois pièges structurels de la donnée propre pour le décideur

— Piège 1 – L’horizon temporel tronqué

— Piège 2 – Le biais de participation

— Piège 3 – La confiance dans la forme

6. Ce que vos données propres ne peuvent pas voir

7. Quatre questions à poser avant toute décision stratégique fondée sur des données

8. La confiance dans les données est une variable organisationnelle, pas technique

9. Questions fréquentes

Ce que propre signifie, et ce que ça dissimule

Une donnée propre répond à des critères techniques précis : complète, cohérente, standardisée, débarrassée de valeurs aberrantes. C’est une exigence légitime. Sans ce travail, aucune comparaison n’est possible, aucune analyse ne tient. Le problème n’est pas la propreté en tant que telle, mais la confusion entre propreté et vérité, entre cohérence formelle et pertinence décisionnelle.

Toute opération de nettoyage impose des choix silencieux : qu’est-ce qu’une anomalie ? Jusqu’où remonte-t-on dans le temps ? Quelles variables inclut-on dans le modèle ? Sur quelle période calibre-t-on les hypothèses ?

Ces choix traduisent une représentation du monde, d’un monde passé, stable, dans lequel les données ont été collectées. Quand ce monde change, les données restent propres. Elles deviennent trompeuses.

La prémisse enfouie dans toute donnée propre : le monde dans lequel cette donnée a été produite est encore le monde dans lequel vous prenez votre décision. Cette prémisse est souvent vraie dans les environnements stables. Elle est souvent fausse au moment précis où la décision est la plus importante, c’est-à-dire en période de rupture.

Subprimes 2008 : Quand les modèles parfaits ne connaissaient pas le monde qu’ils allaient créer

La crise financière de 2008 est souvent présentée comme une crise de cupidité ou de régulation insuffisante. C’est vrai, mais incomplet. À la base se trouve un problème épistémologique précis : des modèles mathématiques impeccables bâtis sur des hypothèses jamais testées dans le contexte qui allait précisément se produire.

Le mécanisme central est la titrisation des crédits hypothécaires américains à risque, les subprimes. Les banques regroupent ces prêts par milliers dans des produits financiers appelés CDO (Collateralized Debt Obligations), découpés en tranches de risque, notés AAA par les agences de notation.

Les modèles qui produisent ces notations sont propres parce que sophistiqués, vérifiés, et calibrés sur 25 ans de données historiques.

Leur hypothèse centrale : les défauts de remboursement hypothécaire ne sont pas fortement corrélés entre eux à l’échelle nationale. Dans un marché normal, cette hypothèse est raisonnable. Elle n’a jamais été observée dans un effondrement généralisé des prix immobiliers à l’échelle nationale, car le dernier effondrement de cette ampleur remontait à 1929, avant le début des données disponibles.

La séquence subprimes — données propres et horizon temporel tronqué

① Les modèles de risque sont calibrés sur des données 1980-2005. Pendant cette période, les prix de l’immobilier américain n’ont pas subi d’effondrement national. Les données sont propres, longues, cohérentes. Elles ne couvrent pas le scénario d’un retournement simultané dans tous les marchés.

② Les agences de notation appliquent ces modèles aux CDO. Les tranches senior reçoivent la notation AAA. En 2006, 23 % des crédits immobiliers accordés aux États-Unis sont des subprimes. Le marché de ces crédits est passé de 200 milliards de dollars en 2002 à 640 milliards en 2006.

③ En 2006, la Fed remonte ses taux. Les mensualités variables deviennent inabordables pour les ménages les plus fragiles. Les défauts se multiplient. Les prix immobiliers chutent de 20 % en quelques mois. La corrélation que les modèles excluaient se produit exactement : les défauts sont massivement simultanés à l’échelle nationale.

④ Les CDO notés AAA perdent l’essentiel de leur valeur. Les grandes banques mondiales qui les détiennent enregistrent des dépréciations massives : Merrill Lynch pour 8,4 milliards de dollars, Citigroup pour 5,9 milliards, au seul troisième trimestre 2007.

⑤ Le 15 septembre 2008, Lehman Brothers fait faillite. La crise se globalise. Les modèles étaient techniquement irréprochables. Ils décrivaient un monde qui ne pouvait pas produire ce qui s’est produit parce qu’ils avaient été construits pour décrire un monde où cela n’était jamais arrivé.

Warren Buffett avait qualifié les produits dérivés de complexité maximale d’armes de destruction massive financières dès 2002. Non parce que les modèles étaient faux dans leurs propres termes ; mais parce qu’ils étaient propres dans un monde et déployés dans un autre.

Brexit et Trump 2016 : Quand l’échantillon exclut ceux qui vont décider

Le 23 juin 2016, les Britanniques votent à 51,9 % pour quitter l’Union européenne. La quasi-totalité des sondages donnaient le Remain gagnant ou à égalité. Le 8 novembre 2016, Donald Trump remporte l’élection présidentielle américaine avec 306 grands électeurs. La majorité des modèles probabilistes lui accordaient moins de 30 % de chances de victoire.

Dans les deux cas, les données étaient propres. Les méthodologies étaient documentées, les marges d’erreur publiées, les pondérations appliquées selon les normes professionnelles. Le problème était ailleurs, dans la composition des panels et dans un biais de non-réponse systématique qui avait rendu invisible une fraction décisive de l’électorat.

Pour les élections américaines, les enquêtes post-mortem sont convergentes sur un point : les électeurs de Trump — en particulier les blancs de la classe ouvrière sans diplôme universitaire — répondaient systématiquement moins aux sondages que les autres groupes démographiques, par méfiance envers les institutions.

Ce n’est pas un biais aléatoire. C’est un biais structurel et orienté. Le groupe qui allait faire basculer les États pivots était précisément le groupe le moins représenté dans les échantillons propres.

Le mécanisme : les panels de sondage se constituent par auto-recrutement via des plateformes en ligne. Ce mode de sélection introduit un biais de départ. Les personnes qui s’inscrivent ne sont pas représentatives de l’ensemble de la population. Le nettoyage statistique par quotas corrige certains déséquilibres démographiques. Il ne corrige pas la méfiance envers les institutions, qui n’est pas une variable de quota standard. La donnée est propre selon les critères de la profession. Elle est aveugle au mécanisme qui va décider de l’élection.

Le cas est particulièrement instructif pour les décideurs d’entreprise parce que le même mécanisme opère dans toute mesure de satisfaction client ou d’engagement employé. Les clients les plus mécontents répondent moins, tout comme les employés les plus désengagés. L’échantillon propre sur-représente ceux qui ont encore envie de participer, c’est-à-dire ceux dont l’insatisfaction n’a pas encore atteint le point de rupture. Le taux de satisfaction est élevé, et la vague arrive quand même.

Le Lancetgate, mai 2020 : Quand la propreté formelle masque l’inexistence des données

Le 22 mai 2020, en pleine pandémie de Covid-19, The Lancet – l’une des revues médicales les plus prestigieuses au monde – publie une étude sur 96 000 patients hospitalisés dans 671 hôpitaux de six continents. L’étude conclut que l’hydroxychloroquine est inefficace contre le Covid-19 et potentiellement dangereuse. L’OMS suspend immédiatement ses essais cliniques sur la molécule. Des gouvernements révisent leurs protocoles de traitement.

Les données sont fournies par une société américaine appelée Surgisphere, dirigée par Sapan Desai, quatrième auteur de l’article. La base de données est présentée comme l’une des plus importantes au monde en données hospitalières temps réel. Elle est propre, structurée, imposante – 96 000 observations -, ce qui est plus que la plupart des essais cliniques en cours.

Le 3 juin 2020, une enquête du Guardian révèle que Surgisphere compte six employés, dont un auteur de science-fiction et un mannequin pour contenus adultes selon les profils LinkedIn. Des chercheurs indépendants commencent à repérer des incohérences statistiques.

Le nombre de patients australiens dépasse les statistiques officielles du pays pour la période concernée. Les données australiennes semblent inclure des données asiatiques. L’accès à la base de données est refusé à l’auditeur indépendant missionné par les co-auteurs eux-mêmes.

Le 4 juin 2020 – treize jours après publication – trois des quatre auteurs se rétractent. Leur déclaration au Lancet : « Nous ne pouvons plus nous porter garants de la véracité des sources des données primaires ». Le NEJM rétracte simultanément une autre étude du même consortium. L’OMS reprend ses essais cliniques.

Ce que le Lancetgate révèle sur la confiance dans les données propres

L’affaire n’est pas simplement un cas de fraude. C’est la démonstration que la forme – volume de données, institution de publication, présentation académique rigoureuse – peut conférer une apparence de légitimité qui dispense d’examiner le fond. Le Lancet n’a pas vérifié si les données existaient réellement sous la forme décrite, parce que leur format était conforme à ce qu’une base de données de cette taille devait produire.

Dans les organisations, ce mécanisme fonctionne sans fraude. Une base de données interne produit des chiffres propres, cohérents, présentés dans un format familier. Personne ne remonte à la source pour vérifier comment les données ont été collectées, qui les a saisies, avec quelles instructions implicites, dans quel contexte de pression. La forme rassure, et remplace l’examen du fond.

Les trois pièges structurels de la donnée propre pour le décideur

Ces trois cas documentent trois mécanismes distincts qui rendent les données propres trompeuses pour les décideurs stratégiques, non par malveillance, mais par la nature même de ce que le nettoyage produit.

Piège 1 – L’horizon temporel tronqué

Toute donnée est calibrée sur une période. Dans le cas où celle-ci ne contient pas le type de rupture que vous vous apprêtez à traverser, le modèle est propre mais aveugle. Les modèles subprimes étaient calibrés sur une période sans effondrement immobilier généralisé. Vos données de croissance sont peut-être calibrées sur une période sans disruption technologique de votre secteur. La question n’est pas « nos données sont-elles correctes ? » mais « couvrent-elles le régime dans lequel nous allons opérer ? ».

Piège 2 – Le biais de participation

Toute donnée collectée auprès d’acteurs comporte un biais de sélection : ceux qui participent ne sont pas représentatifs de ceux qui ne participent pas. Dans les sondages, c’est le biais de non-réponse. Dans vos enquêtes de satisfaction, c’est la surreprésentation des clients encore engagés. Dans vos remontées terrain, c’est la surreprésentation des managers qui ont encore confiance dans le processus.

Le signal critique vient souvent de ceux qui ont cessé de participer, et dont l’absence est précisément ce que le nettoyage statistique compense en pondérant l’échantillon existant.

Piège 3 – La confiance dans la forme

Plus une donnée est présentée dans un format institutionnel rigoureux — tableau structuré, base de données volumineuse, présentation académique, validation par un tiers reconnu — moins elle est questionnée sur le fond.

C’est le mécanisme Surgisphere : la forme d’une grande base de données hospitalières a produit la confiance qui a dispensé de vérifier l’existence réelle des données. Ce mécanisme opère en permanence dans les organisations : la propreté formelle d’un reporting signale la fiabilité du fond, même quand les deux sont décorrélés.

« Le décideur stratégique robuste n’est pas celui qui dispose des données les plus propres. C’est celui qui sait, pour chaque donnée clé, ce que cette donnée a dû exclure pour être propre. »

Pattern décisionnel – Noos Systemic

Ce que vos données propres ne peuvent pas voir

La donnée propre décrit bien ce qui s’est passé dans les conditions dans lesquelles elle a été collectée. Elle ne peut pas décrire ce qui se passe chez ceux qui ne répondent pas, ce qui s’est passé dans des régimes historiques qu’elle ne couvre pas, ni ce qui se passe dans les marges de l’organisation, là où les comportements réels s’écartent des processus officiels.

C’est précisément ce que l’analyse systémique cherche à compléter. Non pas pour remplacer les données propres, mais pour cartographier ce qu’elles ont dû exclure pour être propres. Les non-répondants structurels, les hypothèses implicites du modèle, les régimes historiques non couverts, les comportements informels qui ont évolué depuis que les indicateurs ont été définis.

La décision stratégique robuste n’est pas celle qui dispose des meilleures données. C’est celle dont les décideurs savent ce que leurs données ne peuvent pas voir, et qui ont mis en place un dispositif pour que cette zone aveugle soit explorée systématiquement, pas seulement quand le bilan est déjà déposé.

Quatre questions à poser avant toute décision stratégique fondée sur des données

diagnostic données – 4 questions structurantes

1Dans quel régime ces données ont-elles été produites ?

Les 25 ans de données sur lesquels reposaient les modèles subprimes ne couvraient pas de récession immobilière nationale. Vos données de performance couvrent-elles un cycle complet — croissance et contraction, stabilité et disruption ? Si non, elles décrivent un monde favorable. Ce n’est pas le monde dans lequel vous prenez vos décisions les plus importantes.

2Qui ne participe pas, et pourquoi ?

Les électeurs de Trump sous-représentés dans les sondages n’étaient pas absents par hasard. Ils étaient absents par méfiance envers les institutions. Vos clients les plus insatisfaits répondent-ils à vos enquêtes de satisfaction ? L’absence n’est pas neutre. Elle porte souvent le signal le plus important.

3Peut-on remonter à la source des données ?

Les co-auteurs du Lancet ne pouvaient pas accéder aux données brutes de Surgisphere. Dans votre organisation, est-il possible de remonter de l’indicateur agrégé aux données primaires qui l’ont produit, et de vérifier dans quel contexte, par qui, avec quelles instructions implicites ces données ont été collectées ? Si cette remontée est impossible ou laborieuse, la confiance dans l’indicateur est plus institutionnelle que fondée.

4Quelle hypothèse ces données ne peuvent-elles pas falsifier ?

Toute base de données a une hypothèse structurelle qu’elle ne peut pas remettre en question parce que cette hypothèse était implicite dans la façon dont elle a été construite. Les modèles subprimes ne pouvaient pas falsifier l’hypothèse d’indépendance des défauts parce qu’elle était inscrite dans la formule de corrélation. Identifier cette hypothèse invisible est l’une des contributions les plus utiles de l’analyse systémique à la décision stratégique.

La confiance dans les données est une variable organisationnelle, pas technique

Ce que ces trois cas révèlent en commun, c’est que la confiance dans les données n’est pas proportionnelle à leur qualité technique. Elle est proportionnelle à leur légitimité institutionnelle : le prestige de la source, la sophistication de la présentation, le volume de l’échantillon, la validation par un tiers reconnu.

Cette confiance institutionnelle est fonctionnelle dans les environnements stables. Elle devient dangereuse dans les environnements de rupture, précisément parce qu’elle dispense d’examiner ce que la donnée suppose, et ce qu’elle ne peut pas voir.

Le décideur stratégique robuste n’est pas celui qui dispose des données les plus propres. C’est celui qui sait, pour chaque donnée clé sur laquelle repose une décision importante, ce que cette donnée a dû exclure pour être propre, et qui a mis en place un dispositif pour explorer cette zone aveugle avant que le système ne la révèle à ses dépens.

Investigation Noos – Analyse systémique

Si cette situation vous semble familière, ce n’est pas un hasard.

Ce que vous venez de lire n’est pas un cas isolé. C’est une structure qui se répète. Tant que vous intervenez au mauvais endroit, rien ne change, même avec de bonnes décisions.

Noos identifie en quelques minutes le point précis où le système se bloque, et ce qui maintient le problème en place.

Analyser ma situation – 8 minutes

Questions fréquentes

Q.Faut-il se méfier de toutes les données propres ?

Non, c’est la mauvaise conclusion. Les données propres sont indispensables comme point de départ. Elles permettent la comparabilité, la reproductibilité, la communication entre acteurs. Le problème n’est pas la propreté, mais la confiance non questionnée que la propreté formelle génère. Une donnée propre mérite d’être utilisée, et mérite aussi qu’on lui pose trois questions : dans quel contexte a-t-elle été produite, qui est absent de l’échantillon, et quelle hypothèse elle ne peut pas falsifier ?

Q.Les modèles de risque post 2008 ont-ils résolu le problème ?

Partiellement. Les réformes Bâle III ont renforcé les exigences de fonds propres et imposé des stress tests sur des scénarios adverses. Cela a amélioré la résilience des bilans bancaires. Mais le problème fondamental — des modèles calibrés sur des données historiques qui ne couvrent pas tous les régimes futurs possibles — n’est pas soluble par la réglementation. Il est structurel à toute modélisation. La réponse n’est pas un meilleur modèle. C’est une culture organisationnelle qui maintient vivante la question de ce que le modèle suppose.

Q.Comment corriger le biais de non-réponse dans mes enquêtes internes ?

La correction statistique par pondération améliore la représentativité démographique mais ne corrige pas le biais motivationnel. Les gens qui ne répondent pas ne le font pas au hasard. Trois approches complémentaires sont plus efficaces : des entretiens qualitatifs ciblés sur des segments qui répondent peu, une analyse des comportements réels (turnover, absentéisme, incidents) comme proxy des insatisfactions non exprimées, et une revue régulière du taux de participation par segment comme signal en soi. Une baisse du taux de réponse est souvent plus informative que le contenu des réponses.

Q.L’affaire Surgisphere est-elle un cas isolé ou un symptôme ?

C’est un cas extrême d’un mécanisme répandu. La confiance dans la forme institutionnelle – volume de données, revue prestigieuse, auteurs reconnus – comme substitut à la vérification du fond est documentée bien au-delà de la fraude délibérée. Des études ont montré que les reviewers académiques approuvent plus facilement les papiers présentant de grandes bases de données, indépendamment de la qualité de ces données. Dans les organisations, l’équivalent est le reporting construit sur des données que personne ne remonte plus à la source parce que la forme est familière et que personne n’a le temps de questionner ce qui a toujours fonctionné.

Q.Quelle est la différence entre ce que vous décrivez et la simple incertitude statistique ?

L’incertitude statistique – la marge d’erreur – est ce que les données peuvent mesurer sur elles-mêmes. Elle quantifie la variabilité attendue si on répétait la mesure dans les mêmes conditions. Ce dont il est question ici est différent : c’est l’incertitude sur les conditions elles-mêmes. Les modèles subprimes n’avaient pas un problème de marge d’erreur mais d’hypothèses sur le régime dans lequel ils étaient valides. La marge d’erreur ne vous dit rien sur la validité du modèle dans un régime qu’il n’a pas été conçu pour décrire. C’est pourquoi la question « dans quel monde ces données ont-elles été produites ? » précède et complète la question statistique.

Références

Sources primaires et enquêtes documentées

Mehra, M.R. et al. (2020, rétractation). « Hydroxychloroquine or chloroquine with or without a macrolide for treatment of COVID-19 ». The Lancet, 395(10226). Rétracté le 4 juin 2020.
The Lancet (2020). « Learning from a retraction ». Editorial, The Lancet, septembre 2020.
Rogers Commission (1986). Report of the Presidential Commission on the Space Shuttle Challenger Accident. Washington D.C.

Ouvrages francophones

Desrosières, A. (1993). La Politique des grands nombres — Histoire de la raison statistique. Éditions La Découverte, Paris. (La référence fondatrice francophone sur la construction sociale des données statistiques)
Supiot, A. (2015). La Gouvernance par les nombres. Fayard, Paris. (Comment les indicateurs remplacent progressivement le jugement dans les organisations et les États)
Lordon, F. (2008). Jusqu’à quand ? Pour en finir avec les crises financières. Raisons d’Agir, Paris. (Critique systémique des modèles financiers et de leur rapport à la réalité — publié avant l’effondrement de Lehman Brothers)
Aglietta, M. & Rigot, S. (2009). Crise et rénovation de la finance. Odile Jacob, Paris. (Analyse académique francophone de référence sur les mécanismes de la crise de 2008)
Morin, E. (2005). Introduction à la pensée complexe. Éditions du Seuil, Paris. (Le cadre épistémologique des boucles rétroactives et des dynamiques non réductibles à leurs éléments)

Ouvrages anglophones

Taleb, N.N. (2007). The Black Swan : The Impact of the Highly Improbable. Random House, New York. (L’analyse de référence sur les limites des modèles probabilistes face aux événements rares — publié un an avant la crise de 2008)
Lewis, M. (2010). The Big Short : Inside the Doomsday Machine. W. W. Norton & Company, New York. (La narration documentée des mécanismes de la crise subprimes)
Silver, N. (2012). The Signal and the Noise : Why So Many Predictions Fail. Penguin Press, New York. (L’analyse des limites des modèles prédictifs — politique, marchés financiers, météorologie)
Goodhart, C.A.E. (1975). « Problems of Monetary Management : The UK Experience ». Papers in Monetary Economics, Reserve Bank of Australia. (La formulation originale de la loi de Goodhart : dès qu’une mesure devient une cible, elle cesse d’être une bonne mesure)

Ressources en ligne

Retraction Watch – Base de données des articles scientifiques rétractés, avec analyses des causes (données, méthodologie, fraude)
The Conversation France – « Peut-on croire les sondages ? » – Analyse des biais d’échantillonnage et de non-réponse dans les sondages électoraux américains
Noos Systemic – Méthodologie – L’approche de l’investigation systémique appliquée à ce que les données propres ne peuvent pas voir

Plus vos données sont propres, plus vos décisions sont fausses