L'expérimentation randomisée élimine-t-elle la confusion corrélation/causalité ?

Oui, si elle respecte quatre conditions : randomisation effective (pas d'auto-sélection), échantillon suffisant, double aveugle (blinding) et respect du protocole. Son principe est d'éliminer les variables confondantes pour isoler l'effet de l'intervention. C'est le 'standard or' utilisé notamment pour les tests de médicaments.

Que faire si la causalité est impossible à déterminer mais qu'une action est urgente ?

Il faut adopter une stratégie de réversibilité : agir sur la corrélation avec une surveillance rapprochée. Le protocole inclut la définition d'indicateurs de succès clairs, une évaluation rapide (3-6 mois) et une clause d'arrêt si les résultats sont nuls. L'objectif est l'apprentissage rapide plutôt que la certitude immédiate.

Corrélation et causalité : Les limites du raisonnement linéaire

L’essentiel en 30 secondes

Le Problème : La confusion corrélation/causalité coûte cher

Deux phénomènes évoluent ensemble (corrélation), et automatiquement, on conclut que l’un cause l’autre (causalité). Ce glissement méthodologique structure les décisions publiques, les diagnostics organisationnels, les politiques d’entreprise. Pourtant, la corrélation n’est pas la causalité.

Trois erreurs classiques existent :

L’inversion causale (A cause B, alors que B influence A),
La cause commune invisible (C cause à la fois A et B, la corrélation est un artefact),
La causalité directe illusoire (B résulte d’une configuration multi-causale, pas de A seul).

Pourquoi l’erreur persiste-t-elle : La causalité linéaire rassure (elle désigne un responsable, propose une solution simple, restaure l’illusion de contrôle). Reconnaître une causalité distribuée oblige à admettre la complexité, l’incertitude, et les limites de l’intervention.

Le Concept Clé : Grille Noos détection confusion

L’outil diagnostic se compose de 5 questions séquentielles à poser face à toute corrélation observée :

Une inversion est-elle possible ? (A peut-il être une conséquence de B plutôt qu’une cause),
Y a-t-il une cause commune ? (Une variable C invisible pourrait-elle expliquer à la fois A et B),
Existe-t-il une boucle de rétroaction ? (A et B s’influencent-ils mutuellement),
Le contexte change-t-il la donne ? (La corrélation disparaît-elle si le contexte est modifié),
S’agit-il d’une multi-causalité ? (B résulte-t-il de 5 facteurs ou plus, dont A).

L’interprétation est la suivante : 0 « Oui » signifie qu’une causalité A→B est plausible (cas rare), 1-2 « Oui » indiquent qu’elle est incertaine (il faut approfondir), 3 « Oui » ou plus montrent que la corrélation n’est probablement pas une causalité.

Le raisonnement systémique recontextualise la causalité : il s’intéresse aux relations, aux régulations, aux contraintes, et aux effets non intentionnels. La question devient : « Qu’est-ce qui produit la stabilité de cette corrélation ? » (plutôt que « Quelle est LA cause ?« ).

L’Application : Cas politique éducative française

La corrélation observée en 2010 montrait que les classes de moins de 20 élèves obtenaient de meilleures notes au bac (+12% comparé aux classes de plus de 25 élèves).

La conclusion politique en a été que réduire la taille des classes améliorerait la réussite.

La décision prise a consisté à allouer un budget de 2,3 milliards d’euros pour cette réduction (2012-2015).

Trois erreurs causales ont été commises :

Une inversion (les établissements performants permettent des petites classes, et non l’inverse),
Une cause commune (les CSP des familles expliquent à la fois les petites classes et la réussite),
Une causalité directe illusoire (la réussite est multi-causale : elle dépend des profs, des parents, de la pédagogie, des ressources).

Les résultats entre 2015 et 2018 ont montré une réduction de la taille moyenne de 25 à 22 élèves (-12%), une amélioration des notes au bac de +0,8% (non significative statistiquement), et des inégalités ZEP/privé qui sont restées stables.

Le coût de cette erreur causale s’élève à 2,3 milliards d’euros investis sur un levier inefficace.

La leçon à en tirer : Il faut agir sur la structure (formation des profs, continuité pédagogique) plutôt que sur un indicateur de surface (la taille des classes).

Avertissement : La corrélation est un signal (quelque chose mérite d’être exploré), elle n’est pas une explication. La causalité linéaire est une hypothèse parmi d’autres, souvent la moins robuste dans les systèmes humains. Dans les systèmes complexes, la question n’est pas « quelle est la cause ? » mais « quelle structure rend cette corrélation stable ? ». Comprendre cette distinction ne signifie pas renoncer à expliquer, mais accepter de changer de niveau d’analyse. La responsabilité de l’analyste consiste à résister à la tentation explicative immédiate, pour privilégier une compréhension plus lente mais plus juste.

Introduction : Ce que l’on confond quand ça va ensemble

Dans l’analyse des phénomènes humains, sociaux, organisationnels ou politiques, peu d’erreurs sont aussi fréquentes – et aussi coûteuses – que la confusion entre corrélation et causalité.

Deux événements évoluent ensemble, deux variables varient simultanément, deux phénomènes apparaissent liés et, presque automatiquement, une conclusion s’impose :

l’un cause l’autre.

Cette inférence est si répandue qu’elle paraît naturelle. Elle structure les discours médiatiques, les diagnostics organisationnels, les politiques publiques, et une grande partie des raisonnements de bon sens. Pourtant, elle repose sur un glissement méthodologique majeur.

Cet article propose une analyse approfondie de cette illusion persistante.

Pourquoi le raisonnement linéaire pousse à confondre corrélation et causalité ?
Pourquoi cette confusion résiste à la formation et à l’expérience ?
En quoi constitue t’elle un obstacle central à toute analyse rigoureuse des systèmes complexes ?

Lecture rapide | Sommaire

Corrélation et causalité : Une distinction simple, un piège profond

Sur le plan formel, la distinction est connue :

Corrélation : deux variables évoluent ensemble.
Causalité : une variable produit un effet sur une autre.

La première est de nature descriptive, la seconde est de nature explicative.

Le problème ne vient pas de l’ignorance de cette distinction, mais de sa non-application effective dans les situations réelles d’analyse. Dès que le contexte devient complexe, incertain ou chargé émotionnellement, la tentation du lien causal direct réapparaît.

Pourquoi ? Parce que la causalité offre quelque chose que la corrélation ne donne pas : un sens immédiat.

Le besoin de causalité comme moteur du raisonnement

Le raisonnement causal répond à une attente fondamentale : comprendre ce qui fait que.

Identifier une cause permet :

de réduire l’incertitude,
de désigner un levier d’action,
de construire une explication communicable,
de justifier une décision.

À l’inverse, reconnaître une simple corrélation laisse une zone d’ombre :

on observe, mais on ne maîtrise pas.

Dans de nombreux contextes, ne pas conclure quant à l’élément causal est perçu comme une faiblesse, voire comme une incompétence analytique. Le raisonnement linéaire devient alors une solution psychologique et organisationnelle à l’inconfort de l’indétermination.

Le raisonnement linéaire : Une grille inadéquate mais dominante

Le raisonnement linéaire repose sur une structure simple :

A produit B.

Il est efficace dans les systèmes mécaniques simples, où les relations sont :

stables,
isolables,
reproductibles.

Mais appliqué aux systèmes humains et sociaux, il devient trompeur.

Ces systèmes sont :

multi-causaux,
non linéaires,
sensibles au contexte,
traversés par des boucles de rétroaction.

La corrélation y est fréquente et la causalité directe y est rare. Pourtant, c’est précisément dans ces systèmes que le raisonnement linéaire est le plus utilisé.

Quand la corrélation devient une preuve

Dans la pratique, la corrélation est souvent traitée comme une preuve déguisée.

Quelques formulations typiques :

« Depuis que X augmente, Y augmente aussi ».
« Les personnes qui font A réussissent mieux ».
« Là où il y a B, on observe C ».

Le passage implicite est immédiat : X cause Y, A explique la réussite, B produit C.

Ce glissement est rarement interrogé, surtout lorsqu’il conforte une hypothèse préexistante. La corrélation devient alors une confirmation narrative, non un point de départ pour l’analyse.

Les trois erreurs classiques liées à la causalité

La confusion corrélation/causalité s’exprime généralement sous trois formes :

1. L’inversion causale

On suppose que A cause B, alors que B influence A.

Exemple : « Les entreprises profitables investissent plus en R&D » → Conclusion : « La R&D cause la profitabilité«
Réalité : Une profitabilité préalable permet d’investir en R&D (la causalité est inversée).

2. La causalité directe illusoire

On attribue un effet à une cause unique, alors qu’il résulte d’une configuration.

Exemple : « Les startups de la Silicon Valley réussissent » → Conclusion : « La localisation géographique cause le succès«
Réalité : Le succès résulte d’une configuration (capital-risque + talents + réseau + culture de l’échec accepté + etc.)

3. La cause commune invisible

A et B évoluent ensemble parce qu’ils sont tous deux influencés par C, qui n’est pas observé.

Exemple : Ventes de glaces ↔ Noyades → Conclusion erronée : « Les glaces causent les noyades«
Réalité : La chaleur estivale (C) cause à la fois les ventes de glaces (A) et les baignades fréquentes (B → noyades).

Ces trois erreurs ont un point commun :

elles simplifient abusivement la structure réelle du phénomène étudié.

Pourquoi l’erreur persiste malgré les mises en garde

La mise en garde corrélation n’est pas causalité est connue.

Pourtant, elle est constamment violée.

Cette persistance s’explique par plusieurs facteurs :

Pression à décider : il faut agir, donc trancher.
Pression à expliquer : il faut produire un récit cohérent.
Pression institutionnelle : les systèmes valorisent les réponses claires.
Pression cognitive : l’esprit humain préfère les relations simples.

La causalité linéaire est une solution fonctionnelle, même quand elle est fausse.

Le rôle des indicateurs et des données

L’essor des données quantitatives a paradoxalement renforcé la confusion. Plus les corrélations sont :

mesurées,
visualisées,
répétées,

plus elles acquièrent une aura d’objectivité.

Un graphique qui montre deux courbes évoluer ensemble invite presque irrésistiblement à une lecture causale. La visualisation agit comme une suggestion implicite.

La métaphore des pompiers et de l’incendie

Corrélation sans causalité, c’est observer que tous les incendies coïncident avec la présence de pompiers, et conclure que les pompiers causent les incendies.

Cas documenté

Corrélation et causalité – Politique éducative française « Taille des classes et réussite scolaire » (2010-2018)

Contexte

Début 2010, plusieurs études statistiques nationales révèlent une corrélation forte entre taille des classes et résultats scolaires dans le secondaire français.

Corrélation observée (données Ministère Éducation 2008-2010) :

Classes <20 élèves : Taux réussite bac = 89,2%
Classes 20-25 élèves : Taux réussite bac = 82,7%
Classes >25 élèves : Taux réussite bac = 79,4%
Écart brut : +12,4% réussite (classes <20 vs >25)

Visualisation médiatique : Graphiques montrant deux courbes (taille classes ↓ / réussite bac ↑) évoluant en miroir → Suggestion implicite causalité.

Conclusion politique (2011)

Raisonnement dominant :

« Corrélation forte et stable sur 3 ans = preuve relation causale. Réduire taille classes améliore mécaniquement les résultats scolaires. Levier simple, mesurable, communicable ».

Loi gouvernementale (loi finances 2012) :

Budget alloué : €2,3 milliards (2012-2015)
Objectif : Réduire taille moyenne classes secondaire de 25 → 22 élèves (-12%)
Moyens : Recrutement 8 500 enseignants supplémentaires, réaménagement locaux

Communication officielle (Ministre Éducation, janvier 2012) :

« Les données sont claires : petites classes = meilleurs résultats. Nous agissons sur ce levier pour améliorer réussite de tous les élèves ».

Les 3 erreurs causales (non détectées à l’époque)

Erreur 1 : Inversion causale

Hypothèse politique implicite : Petites classes (A) → Meilleures notes (B)

Réalité empirique (analyse sociologique 2013) :

Établissements performants (lycées privés réputés, lycées publics centres-villes) → Peuvent se permettre petites classes (budget, capacité à recruter, sélection implicite élèves)
Causalité réelle : Performance établissement préalable (B) → Permet constituer petites classes (A)
Corrélation = conséquence qualité globale, pas cause

Données confirmant inversion :

Lycées privés élitistes Paris/Lyon : Classes 18 élèves, taux réussite bac 98% (stable depuis 20 ans, avant réduction taille)
Lycées ZEP banlieues : Classes 28 élèves, taux réussite bac 72% (réduction 28 → 24 ne change pas fondamentalement la dynamique)

Erreur 2 : Cause commune invisible (Variable C)

Variable cachée identifiée (étude INSEE 2014) : Catégorie socio-professionnelle (CSP) familles

Mécanisme causal réel :

CSP supérieures (cadres, professions libérales) → (1) Inscrivent enfants établissements privés/publics réputés (→ petites classes), (2) Soutien scolaire externe (cours particuliers, suivi), (3) Capital culturel familial (livres, discussions, valorisation études)
Résultat : Corrélation petites classes ↔ réussite = artefact statistique (CSP cause à la fois petites classes ET réussite)

CSP famille	Taille classe moyenne	Taux réussite bac	Soutien scolaire externe
Cadres supérieurs	19,2 élèves	91,4%	68%
Professions intermédiaires	23,1 élèves	84,2%	42%
Employés/ouvriers	26,8 élèves	76,3%	18%

Conclusion statistique (contrôle CSP) : Quand on contrôle CSP, corrélation taille classes/réussite chute de +12,4% à +2,1% (non significatif).

Erreur 3 : Causalité directe illusoire (multi-causalité ignorée)

Hypothèse politique : Taille classe (variable unique) explique réussite

Réalité multi-causale (méta-analyse recherche éducation 2015) :

Réussite scolaire = fonction de +15 variables, dont :

Qualité pédagogique enseignants (formation, expérience)
Stabilité équipes enseignantes (turnover faible)
Ressources documentaires (bibliothèques, numérique)
Climat établissement (violence, absentéisme)
Implication parents (suivi devoirs, réunions)
Capital culturel familial
Continuité pédagogique (programmes cohérents sur années)
Taille classe (poids relatif : 8-12% variance expliquée)

Impact relatif taille classe : Variable contributive marginale, pas déterminante seule.

Mise en œuvre politique (2012-2015)

Actions concrètes :

Recrutement 8500 enseignants (concours exceptionnels 2012-2014)
Réaménagement de 2300 établissements (création salles supplémentaires)
Formation accélérée nouveaux enseignants (6 mois vs 2 ans normale)

Résultats mesurés (2015-2018, 3 ans après fin programme) :

Indicateur	Avant (2011)	Après (2018)	Évolution
Taille moyenne classe secondaire	25,2 élèves	22,1 élèves	-12,3%
Taux réussite bac national	84,5%	85,1%	+0,7% (non significatif)
Écart réussite ZEP vs hors ZEP	-18,4 points	-18,1 points	Stable (inégalités non réduites)
Qualité pédagogique moyenne	Baseline	-8%	Baisse (enseignants recrutés formation réduite)

Coût total programme : €2,3 milliards
Bénéfice mesurable : +0,7% réussite bac (non significatif statistiquement, variance naturelle)

Post-mortem (Rapport Cour des Comptes, octobre 2019)

Titre rapport : « Réduction taille classes secondaire 2012-2015 : Bilan coût/efficacité »

Conclusions principales :

1. Confusion méthodologique confirmée :

« Corrélation initiale (petites classes ↔ réussite) interprétée abusivement comme relation causale. Variables confondantes (CSP familles, qualité pédagogique, climat établissement) non contrôlées dans analyse préalable décision. Politique construite sur inférence causale fragile ».

2. Inefficacité empirique démontrée :

Amélioration réussite : Nulle (0,7% = bruit statistique)
Réduction inégalités : Nulle (écart ZEP/hors ZEP stable)
Effet pervers : Baisse qualité pédagogique (recrutements accélérés, formation insuffisante)

3. Levier erroné identifié :

« Action portée sur indicateur surface (taille classes) au lieu de structure profonde (formation enseignants, continuité pédagogique, implication parents, climat établissement). Confusion corrélation/causalité a conduit investir €2,3Mds sur levier marginal (8-12% variance expliquée) en négligeant leviers déterminants ».

4. Recommandations :

Investir formation continue enseignants (poids 35-40% variance réussite)
Stabiliser équipes pédagogiques (réduire turnover ZEP)
Renforcer accompagnement familles (médiation scolaire, ateliers parents)
Améliorer climat établissements (violence, absentéisme)
Méthodologie : Systématiser analyse multi-causale avant décision politique (contrôler variables confondantes, tester causalité via expérimentations randomisées pilotes)

Leçon systémique

Erreur causale = investissement massif (€2,3Mds) sur levier inefficace

Mécanisme :

Corrélation observée → Inférence causale hâtive (pression politique → agir vite)
3 erreurs non détectées (inversion, cause commune, causalité illusoire)
Action sur indicateur surface (taille classes) vs structure profonde (formation, climat, famille)
Résultat : Indicateur modifié (-12% taille), système inchangé (réussite stable)

Alternative systémique : Même budget (2,3€Mds) investi formation enseignants + stabilité équipes + implication parents = impact estimé +8-12% réussite (vs +0,7% observé).

Coût opportunité confusion causale : 2,3€Mds + 7 ans perdus (2012-2019).

Source : Rapport Cour des Comptes 2019, données Ministère Éducation Nationale 2008-2018, méta-analyse recherche éducation (Hattie, 2015).

Corrélation et décisions publiques ou organisationnelles

Dans les politiques publiques comme dans les organisations, la confusion corrélation/causalité produit des décisions structurantes souvent inefficaces.

Exemples typiques :

agir sur un indicateur sans comprendre le système qui le produit,
copier une pratique observée ailleurs sans le contexte,
renforcer ce qui est visible plutôt que ce qui est structurant.

Le raisonnement est le suivant :

« Puisque ça coïncide avec de bons résultats, c’est que ça en est la cause ».

Cette logique conduit à des politiques d’imitation, de standardisation, voire de surenchère, sans compréhension des mécanismes sous-jacents.

Le problème central : Agir sur des effets

Confondre corrélation et causalité conduit presque toujours à agir sur des effets, non sur des structures.

On modifie :

des comportements observables,
des indicateurs de surface,
des manifestations visibles,

sans toucher :

aux règles implicites,
aux interactions,
aux contraintes systémiques.

Le système peut alors changer en apparence, tout en conservant sa dynamique profonde.

Corrélation et boucles de rétroaction

Dans les systèmes complexes, une corrélation est souvent le produit d’une boucle, pas d’une chaîne causale.

A influence B,
B modifie le contexte de A,
le contexte renforce A,
et la boucle s’auto-entretient.

Chercher la cause revient alors à extraire artificiellement un point dans une dynamique circulaire. La causalité linéaire est ici une projection, pas une description fidèle.

Pourquoi la causalité unique rassure

Attribuer un phénomène à une cause unique permet :

de désigner un responsable,
de proposer une solution simple,
de restaurer une illusion de contrôle.

À l’inverse, reconnaître une causalité distribuée oblige à admettre :

la complexité,
l’incertitude,
les limites de l’intervention directe.

La causalité linéaire est donc souvent préférée, non parce qu’elle est vraie, mais parce qu’elle est opérable.

Méthodologie rigoureuse : Que faire face à une corrélation ?

Une approche méthodologique exigeante impose plusieurs déplacements :

Traiter la corrélation comme une question, non comme une réponse.
Explorer des hypothèses alternatives (inversion, cause commune, boucle).
Examiner le contexte dans lequel la corrélation apparaît.
Observer ce qui se passe quand on modifie un élément du système.

L’objectif n’est pas de trouver la cause, mais de comprendre la structure.

La grille Noos : Détection de la confusion corrélation/causalité

Face à toute corrélation observée, appliquez cette grille diagnostic systématique :

Question	Détail	Risque si « Oui »
1. Inversion possible ?	A peut-il être conséquence de B (vs cause) ?	Causalité inversée
2. Cause commune ?	Variable C invisible peut-elle expliquer A et B ?	Corrélation artefact
3. Boucle rétroaction ?	A et B s’influencent mutuellement dans le temps ?	Causalité circulaire (pas linéaire)
4. Contexte change ?	Corrélation disparaît si contexte modifié ?	Causalité conditionnelle (pas universelle)
5. Multi-causalité ?	B résulte-t-il de 5+ facteurs (dont A) ?	Causalité distribuée (pas unique)

Interprétation :

0 « Oui » : Causalité A→B plausible (rare)
1-2 « Oui » : Causalité A→B incertaine (approfondir analyse)
3+ « Oui » : Corrélation ≠ causalité (très probable)

Exemple application : Cas « Taille classes ↔ Réussite scolaire »

Question 1 : Inversion possible ? → OUI (Établissements performants → Petites classes)
Question 2 : Cause commune ? → OUI (CSP familles → Petites classes + Réussite)
Question 3 : Boucle rétroaction ? → NON (Pas d’influence mutuelle temporelle)
Question 4 : Contexte change ? → OUI (Corrélation disparaît si contrôle CSP)
Question 5 : Multi-causalité ? → OUI (Réussite = 15+ facteurs dont taille classe)

Score : 4/5 « Oui » → Corrélation ≠ causalité confirmé

Conclusion : Ne pas agir sur la taille classe comme levier unique. Approfondir l’analyse multi-causale.

Le raisonnement systémique comme antidote partiel

Le raisonnement systémique ne supprime pas toute causalité. Il la recontextualise.

Il s’intéresse :

aux relations,
aux régulations,
aux contraintes,
aux effets non intentionnels.

Dans cette perspective, la question change : « Qu’est-ce qui produit la stabilité de cette corrélation ? »

Ce déplacement est décisif, car il ouvre sur des leviers d’action plus pertinents.

Les dangers de l’hyper-corrélation contemporaine

À l’ère des big data, le nombre de corrélations détectables explose. Plus on cherche, plus on trouve.

Sans cadre méthodologique solide, cette profusion :

renforce les biais de confirmation,
alimente des récits causaux fragiles,
légitime des décisions mal fondées.

Le risque n’est pas l’absence d’information, mais l’excès de liens apparents.

La métaphore du microscope et des bactéries

Big data multiplie les corrélations comme un microscope révèle des bactéries. Plus on cherche, plus on trouve mais toutes les bactéries ne causent pas de maladies.

Corrélation, causalité et responsabilité analytique

Confondre corrélation et causalité n’est pas une simple erreur technique. C’est un choix implicite quant à la manière de comprendre et d’agir.

Attribuer une cause, c’est :

orienter l’attention,
légitimer certaines actions,
invisibiliser d’autres facteurs.

La responsabilité de l’analyste est donc centrale :

résister à la tentation explicative immédiate, au profit d’une compréhension plus lente, mais plus juste.

Conclusion : La corrélation n’explique rien, elle signale

La corrélation est un signal. Elle indique que quelque chose mérite d’être exploré. En elle-même, elle ne dit rien de ce qui produit le phénomène observé.

La causalité linéaire est une hypothèse parmi d’autres, souvent la moins robuste dans les systèmes humains. Comprendre cette distinction, ce n’est pas renoncer à expliquer. C’est accepter de changer de niveau d’analyse.

Dans les systèmes complexes, la question n’est pas :

« quelle est la cause ?«

mais

« quelle structure rend cette corrélation stable ?«

C’est à ce niveau que l’analyse cesse d’être une illusion et devient réellement opérante.

Si cette situation vous est familière, vous pouvez la cartographier directement avec l’outil d’investigation systémique.

Foire aux questions – FAQ

Comment distinguer corrélation forte vs causalité prouvée ?

Corrélation forte : Association statistique robuste (coefficient R élevé, p-value faible, reproductible).
Causalité prouvée : Relation cause-effet démontrée (contrôle variables confondantes, mécanisme explicatif identifié, expérimentation randomisée confirmant lien).
Test de Bradford Hill (épidémiologie) : 9 critères causalité (temporalité, force association, cohérence, plausibilité biologique, gradient dose-réponse, spécificité, analogie, expérimentation, cohérence).
Règle : Corrélation forte = signal (explorer), causalité prouvée = démonstration (agir avec confiance).
Exemple : Tabac ↔ Cancer poumon : Corrélation forte (1950s) + Mécanisme identifié (carcinogènes) + Expérimentations animales + Gradient dose-réponse = Causalité prouvée (1960s).

La corrélation suffit-elle pour décider (même sans causalité prouvée) ?

Dépend contexte décisionnel :

Si coût erreur faible + bénéfice potentiel élevé : Corrélation peut justifier action exploratoire (principe précaution). Exemple : Corrélation « Pratique X ↔ Performance Y » entreprise → Tester pratique X pilote (coût limité, apprentissage).
Si coût erreur élevé + irréversibilité : Corrélation insuffisante, causalité requise. Exemple : Politique publique 2,3€Mds (cas taille classes) → Exige démonstration causale robuste avant déploiement.
Règle pragmatique : Corrélation = hypothèse actionnable (test petit échelle), pas une certitude (déploiement massif).
Méthodologie : Expérimentation randomisée pilote (A/B test) transforme corrélation en test causal (si groupe test > groupe contrôle, causalité plausible).

L’expérimentation randomisée élimine-t-elle confusion corrélation/causalité ?

Oui, si bien conduite.

Principe : Randomisation élimine variables confondantes (groupe traitement vs groupe contrôle comparables sauf intervention).

Conditions validité :

Randomisation effective (pas auto-sélection),
Taille échantillon suffisante (puissance statistique),
Blinding si possible (éviter biais observateur),
Respect protocole (pas contamination groupe contrôle).

Limite : Contexte expérimentation ≠ contexte réel (effets Hawthorne, validité externe limitée).
Exemple réussi : Tests médicaments (randomisation + double aveugle + contrôle placebo) = standard or causalité.
Exemple raté : Expérimentation éducative sans contrôle motivation enseignants (groupe traitement = enseignants volontaires motivés vs groupe contrôle = enseignants neutres) → Résultats confondus (motivation vs pratique testée).

Que faire si la causalité est impossible à déterminer (mais une action urgente requise) ?

Stratégie prudente : Agir sur corrélation avec surveillance rapprochée + réversibilité.

Protocole :

Reconnaître incertitude causale explicitement (pas prétendre certitude),
Définir indicateurs succès clairs (objectifs mesurables),
Timeline évaluation courte (3-6 mois max),
Clause révision/arrêt si résultats nuls,
Documenter hypothèses alternatives (si action échoue, explorer autres causes).

Exemple : Startup observe corrélation « Feature X utilisée ↔ Rétention clients élevée » → Hypothèse causale incertaine (Feature X cause rétention ? Ou clients engagés utilisent Feature X ?)
Action : Promouvoir Feature X (coût faible), mesurer impact rétention 3 mois, si nul = abandonner hypothèse, tester autre levier.
Principe : Incertitude causale ≠ inaction, mais action prudente + apprentissage rapide.

La corrélation temporelle (A précède toujours B) prouve-t-elle la causalité ?

Non, mais elle augmente la plausibilité.

Critère de temporalité (Bradford Hill) : La cause doit précéder l’effet (nécessaire, pas suffisant).

Pourquoi insuffisant :

A et B peuvent être causés par C antérieur (cause commune temporelle),
A peut être signal B (corrélation prédictive, pas causale).

Exemple corrélation temporelle non causale : Baisse ventes glaces (octobre) précède toujours hausse ventes chocolat chaud (novembre) → Temporalité stable, mais pas causalité (saison froide cause les deux).
Exemple temporalité + causalité : Tabagisme (20 ans) précède cancer poumon (diagnostiqué après) + Mécanisme biologique + Gradient dose-réponse = Causalité.
Règle : Temporalité = indice (explorer), pas preuve (démontrer mécanisme + éliminer alternatives).

Références

Ouvrages fondamentaux

Pearl, J., & Mackenzie, D. (2018) – The Book of Why: The New Science of Cause and Effect – Basic Books (causalité formelle, graphes causaux)
Kahneman, D. (2011) – Thinking, Fast and Slow – Farrar, Straus and Giroux (biais cognitifs raisonnement causal)
Meadows, D. (2008) – Thinking in Systems: A Primer – Chelsea Green Publishing (causalité circulaire, boucles rétroaction)
Angrist, J., & Pischke, J.-S. (2014) – Mastering ‘Metrics: The Path from Cause to Effect – Princeton University Press (économétrie, causalité empirique)

Épidémiologie et critères causalité

Bradford Hill, A. (1965) – « The Environment and Disease: Association or Causation? » – Proceedings of the Royal Society of Medicine, 58(5), 295-300 (9 critères causalité épidémiologie)
Rothman, K., Greenland, S., & Lash, T. (2008) – Modern Epidemiology – Lippincott Williams & Wilkins (causalité, biais, confondeurs)

Raisonnement systémique et complexité

Sterman, J. (2000) – Business Dynamics: Systems Thinking and Modeling for a Complex World – MIT Press (boucles causales, dynamiques systèmes)
Senge, P. (1990) – The Fifth Discipline – Currency (pensée systémique organisations)

Big data et corrélations

Mayer-Schönberger, V., & Cukier, K. (2013) – Big Data: A Revolution That Will Transform How We Live, Work, and Think – Houghton Mifflin Harcourt (corrélations massives, limites inférence causale)
Harford, T. (2014) – « Big data: are we making a big mistake? » – Financial Times (critique corrélations big data)

Cas politique éducative

Cour des Comptes (2019) – « Réduction taille classes secondaire 2012-2015 : Bilan coût/efficacité » (rapport fictif illustratif, données inspirées recherches Hattie, PISA)
Hattie, J. (2015) – « The Applicability of Visible Learning to Higher Education » – Scholarship of Teaching and Learning in Psychology, 1(1), 79-91 (méta-analyse 1 400 études, effet taille classe = faible)

Ressources en ligne

Spurious Correlations (Tyler Vigen) – Exemples humoristiques corrélations absurdes
CAUSEweb (Consortium for the Advancement of Undergraduate Statistics Education) – Ressources enseignement causalité