Vector Research Blog : Estimation de l'effet causal à l'aide de l'apprentissage automatique

19 janvier 2024

Perspectives Recherche

Par Elham Dolatabadi, Maia Norman, Farnaz Kohankhaki, Rahul G. Krishnan, Deval Pandya, George-Kirollos Saad, Wen Xu et Joanna Yu

Accédez au dépôt GitHub du Laboratoire d'Inférence Causale ici.

Dans divers domaines, tels que les soins de santé, le commerce de détail, la finance et l'éducation, on constate un intérêt croissant pour les questions causales plutôt qu'associatives. Ce changement d'orientation reflète la reconnaissance de l'importance de la compréhension des mécanismes causaux sous-jacents qui régissent les relations observées. En développant une meilleure compréhension de la causalité, il est possible d'aller au-delà des corrélations de surface et de découvrir les facteurs et les interventions qui ont un véritable impact sur les résultats. L'analyse causale permet aux décideurs de faire des choix plus éclairés et fondés sur des données et, en fin de compte, d'apporter des changements significatifs dans leurs domaines respectifs. Nous visons à rendre les cadres d'estimation des effets causaux facilement accessibles aux développeurs, aux chercheurs et aux innovateurs en fournissant une vue d'ensemble des différents composants d'un flux de travail d'estimation des effets causaux, ainsi qu'une explication de la manière de mettre en œuvre des algorithmes et des boîtes à outils d'apprentissage machine (ML) de pointe pour résoudre une grande variété de problèmes causaux.

Ce matériel a été présenté dans le cadre d'un laboratoire pratique d'inférence causale organisé par Vector, afin d'améliorer la connaissance pratique des techniques et applications causales et de favoriser la collaboration interdisciplinaire entre les experts en la matière de divers secteurs et industries. L'objectif du laboratoire était de faciliter les applications pratiques de l'estimation de l'effet causal à divers défis, y compris l'estimation de l'effet du traitement avec des données du monde réel dans la médecine de précision, la maximisation de l'efficacité du trading algorithmique sur les marchés financiers, la prédiction du taux de désabonnement, l'optimisation de la chaîne d'approvisionnement et la tarification dynamique. L'une des principales caractéristiques de ce laboratoire interactif a été la mise en œuvre d'un flux de travail pour l'estimation de l'effet causal. Le flux de travail englobe divers aspects de l'estimation de l'effet causal, tels que l'estimation du modèle et la sélection des méthodes d'estimation appropriées à l'aide de techniques issues de recherches récentes menées par des groupes de premier plan dans le domaine.

De la "corrélation n'implique pas la causalité" à l'analyse causale

La corrélation signifie qu'il y a une association mais pas de causalité. Deux variables peuvent être statistiquement corrélées mais pas nécessairement liées par un lien de causalité. Dans ce cas, ce type d'association est confondu et les deux variables corrélées sont associées à une troisième variable, qui est une variable causale et tend à coexister avec les données que nous mesurons.1 Par exemple, supposons qu'il existe une corrélation positive entre l'augmentation des ventes de crèmes glacées et le nombre d'attaques de requins à la plage. On pourrait en déduire à tort que le fait d'acheter plus de glaces contribue à augmenter le risque d'attaques de requins ou vice versa. En réalité, la corrélation est probablement due au fait que les ventes de glaces et les attaques de requins ont tendance à augmenter pendant les mois d'été. La saisonnalité, c'est-à-dire le fait que les gens passent plus de temps à la plage par temps chaud, est le facteur commun qui influence les deux variables. Plus il y a de gens à la plage (ce qui contribue à l'augmentation des ventes de glaces), plus il y a de chances qu'une attaque de requin se produise. 


Par conséquent, toute association n'est pas nécessairement une causalité et la mesure de la causalité n'est pas aussi simple que la mesure de l'association. Les statistiques traditionnelles et le ML excellent dans l'identification des associations entre les variables et l'estimation des probabilités liées aux événements passés ou futurs. Cependant, lorsqu'il s'agit de comprendre les relations réelles de cause à effet entre les variables dans des conditions dynamiques et changeantes, elles ne sont pas à la hauteur. L'analyse causale va au-delà de l'inférence de probabilités et d'associations, mais aussi de la manière dont les probabilités évoluent lorsque les conditions changent de manière dynamique. Il peut s'agir de changements induits par des interventions externes, des traitements ou tout autre facteur influençant le système analysé.2

Comment transformer une question causale en un problème d'estimation ?

Comme nous l'avons appris plus haut, il existe une distinction entre l'analyse causale et l'analyse statistique. Dans le contexte de l'analyse causale, l'expression "identification" désigne le processus permettant de passer d'une analyse causale à une analyse statistique équivalente. Le processus de construction et d'estimation d'un effet causal, comme le montre la figure 1, est un processus en plusieurs étapes qui consiste à établir puis à identifier le modèle causal, ce qui inclut la formulation d'hypothèses pour les transformer en modèles statistiques et l'application de diverses méthodes d'estimation pour estimer les modèles causaux qui s'alignent sur la stratégie d'identification choisie. Il y a donc une augmentation remarquable de l'intérêt pour le développement de méthodologies permettant de construire des modèles causaux et d'identifier efficacement les effets causaux à partir de données d'observation. Les progrès récents en ML et en apprentissage profond ont fourni aux chercheurs des outils puissants pour naviguer dans les complexités liées à l'estimation des effets causaux.3-7 Ces techniques offrent flexibilité, automatisation et évolutivité, permettant des estimations d'effets causaux plus précises et plus perspicaces à partir de données d'observation.

Figure 1 : Le flux de travail de l'estimation de l'effet causal contient trois modules pour l'identification, l'estimation et l'évaluation de modèles causaux à partir de données d'observation du monde réel.

Il est important de noter que le travail d'équipe multidisciplinaire, y compris les experts en la matière, est essentiel au processus d'élaboration d'un modèle robuste d'estimation de l'effet causal. La collaboration entre les experts en connaissance du domaine et les ingénieurs en ML garantit que les questions de recherche sont bien définies, que la conception de l'étude est appropriée, que l'analyse tient compte des facteurs pertinents et que les résultats sont correctement interprétés dans le contexte du sujet traité.

Détails et conseils sur le flux de travail causal

Notre guide sur le flux de travail de l'estimation de l'effet causal, ci-dessous, fournit un aperçu détaillé des modules techniques inclus dans notre flux de travail d'estimation de l'effet causal résumé dans la figure 1, y compris l'utilisation d'estimateurs tels que la modélisation des résultats conditionnels, l'apprentissage par représentation et le double apprentissage automatique pour identifier, estimer et évaluer les modèles causaux à partir de données d'observation du monde réel, démontrés sur trois ensembles de données du monde réel.

Préliminaires

Dans ce travail, nous nous concentrons sur le problème de l'estimation de l'effet causal dans le cadre des résultats potentiels de Rubin-Neyman avec la non-fondation conditionnelle8. Les données observées consistent en des échantillons de variables aléatoires (𝑌, 𝑋, 𝑊, 𝑇) provenant d'une distribution inconnue, où 𝑋 représente toutes les covariables observées, 𝑇 représente l'affectation du traitement, 𝑌 représente le résultat d'intérêt et 𝑊 représente les facteurs de confusion satisfaisant au critère de la porte dérobée par rapport à 𝑇 et 𝑌 (où 𝑊 bloque tous les chemins de la porte dérobée de 𝑇 à 𝑌 et ne contient aucun descendant de 𝑇).9 Nous ne considérons que les traitements binaires 𝑇 ∈ {0, 1}. Nous avons donc deux résultats potentiels : 𝑌 (1) = 𝑌 (do(𝑇 = 1)) et 𝑌 (0) = 𝑌(do(𝑇 = 0)). Cette étude se concentre sur l'estimation de l'effet de traitement, qui est un problème d'effet causal prévalent englobant l'impact du traitement au niveau de l'individu ou de la population.

Nous désignons l'effet de traitement individuel (ETI) par 𝜏i, qui est défini mathématiquement comme suit :

                𝜏i ≘𝑌i(1) - 𝑌i(0)                    

En raison du problème fondamental de l'inférence causale, nous ne pouvons pas accéder aux effets de traitement individuels (nous ne pouvons pas observer à la fois Yi(1) et Yi(0)). Mais nous pouvons estimer l'effet de traitement moyen (ATE), 𝜏, qui est mesuré en prenant la moyenne des ITE :

                𝜏 ≘𝔼[𝑌i(1) - 𝑌i(0)] = 𝔼[𝑌i(do(𝑇 = 1)) - 𝑌i(do(𝑇 = 0))]         

In order to make the treatment effects identifiable3, 10, 11 we posit the three assumptions of Consistency (𝑌 = 𝑇.𝑌 (1)+(1−𝑇 )𝑌 (0)), Conditional Ignorability (𝑌 (0), 𝑌 (1) ㅛ𝑇|𝑊) and Overlap (0 < ℼ(𝑤) < 1, ∀ 𝑤 ∈ 𝑊):

                𝜏≘𝔼𝑤[𝔼[𝑌|𝑇 = 1, 𝑊 = 𝑤] -𝔼𝑤𝔼[𝑌|𝑇 = 0, 𝑊 =𝑤]]        

Nous notons μ(𝑤) comme un résultat potentiel attendu et π(𝑤) comme score de propension :

Estimation du modèle causal

L'estimation de modèle au sein de notre flux de travail permet de construire plusieurs groupes d'estimateurs pour les estimateurs causaux identifiés. Les deux premiers groupes d'estimateurs, la modélisation des résultats conditionnels (COM) et la modélisation des résultats conditionnels groupés (GCOM), exploitent une gamme de modèles ML linéaires et non linéaires, y compris les moindres carrés ordinaires, les forêts aléatoires et les réseaux neuronaux feed-forward. En outre, notre flux de travail comprend des implémentations d'estimateurs basés sur l'apprentissage de la représentation, tels que TARNet5et DragonNet6, qui reposent sur des techniques d'apprentissage profond. En outre, nous fournissons d'autres modèles efficaces en termes de données utilisant le cadre DoubleML4, tous accompagnés d'un pipeline dédié explicitement conçu pour le réglage des hyperparamètres. 

Modélisation des résultats conditionnels 

Les estimateurs COM12, également appelés "S-learner" ou "G-computation estimators" dans la littérature, impliquent l'ajustement d'un estimateur unique qui modélise les variables de résultat, 𝑌, en fonction de l'affectation de traitement concaténée et d'autres covariables pertinentes. Avec COM, l'objectif est d'ajuster un estimateur, 𝜇(𝘵, 𝑤), à l'espérance conditionnelle, 𝔼[𝑌 |𝑇 = 𝘵, 𝑊 = 𝑤], qui peut être un modèle statistique ou un modèle ML. Plus précisément, l'ATE est la moyenne empirique, 𝔼𝑤sur les n points de données d'observation de l'échantillon :

Le GCOM semble résoudre le problème de l'ATE zéro ; cependant, il introduit un autre inconvénient en n'utilisant pas toutes les données disponibles pour l'apprentissage du modèle.

L'un des inconvénients majeurs des estimateurs COM est qu'ils peuvent négliger la variable de traitement, en particulier dans les scénarios où les variables de confusion sont de haute dimension. Cela peut conduire à une estimation COM biaisée et à un ATE de zéro.13

Modélisation des résultats conditionnels groupés

Les estimateurs GCOM13, également appelés "T-learner", impliquent la construction de deux modèles distincts𝜇1(𝑤) et 𝜇2(𝑤 ) prédisant 𝑌 à partir de 𝑊 dans le premier groupe où 𝑇 = 1 et dans le deuxième groupe où 𝑇 = 0, respectivement. Pour le traitement binaire, l'ATE est définie comme suit :

Apprentissage de la représentation

Comme d'autres domaines, celui de l'estimation causale bénéficie également des progrès de l'apprentissage profond. Les modèles d'estimation causale ancrés dans les réseaux neuronaux profonds sont conçus pour remédier aux lacunes en apprenant des représentations non linéaires complexes des données d'observation. Intuitivement, ces modèles concilient deux objectifs : améliorer la précision de la prédiction des résultats factuels et contrefactuels tout en minimisant la distance entre la distribution de la population traitée et celle de la population de contrôle. Deux approches notables sont TARNet5 et DragonNet.6 TARNet est une architecture de réseau neuronal à deux têtes consistant en un seul réseau neuronal profond suivi de deux sous-réseaux distincts, chacun dédié à un groupe de traitement spécifique. Le réseau unique est un estimateur COM, 𝜇(𝘵, 𝑤), qui tire parti de l'ensemble de l'observation pour apprendre une représentation agnostique du traitement. Inversement, les sous-réseaux utilisent le sous-ensemble pertinent de la représentation spécifique à chaque groupe de traitement pour prédire la variable de résultat, 𝑌. DragonNet, qui s'apparente à TAR-Net, est un modèle de réseau neuronal profond qui intègre une tête supplémentaire pour l'estimation du score de propension, π(𝑤), en plus de l'estimation COM, 𝜇(𝘵, 𝑤), réalisée par les deux autres têtes. La troisième tête du réseau agit comme un régularisateur et échange la qualité de la prédiction pour obtenir une meilleure représentation du score de propension.

Double apprentissage automatique

Le concept d'apprentissage automatique double/débiaisé ou Double ML (DML), également connu sous le nom de R-learner4, est apparu comme une méthode permettant d'obtenir une estimation non biaisée des effets causaux à l'aide de modèles ML. Le DML se distingue par sa capacité à fournir des garanties d'intervalle de confiance et des taux de convergence rapides. Contrairement à TARNet5et DragonNet6, où les modèles ML de base sont généralement des réseaux neuronaux et où les traitements sont généralement binaires ou discrets, DML offre la flexibilité d'utiliser divers modèles ML et de prendre en compte les traitements continus. Dans DML, nous utilisons un processus en deux étapes pour ajuster le modèle linéaire partiel suivant.

  1. Nous ajustons deux estimateurs, un estimateur, 𝜇(𝑤), pour prédire un résultat potentiel attendu 𝑌 à partir des covariables 𝑊 et d'un autre estimateur, π(𝑤), pour prédire le traitement, 𝑇, à partir des covariables, 𝑊. Pour les deux estimations, nous pouvons utiliser la méthode ML et la raison pour laquelle on parle de double ML est que nous utilisons la méthode ML deux fois.
  2. Nous éliminons partiellement les effets des covariables en examinant les résidus des deux modèles, qui sont les différences entre les valeurs prédites et les valeurs réelles. En d'autres termes, nous confondons l'effet du traitement sur le résultat avec cette élimination partielle.

Ensuite, nous ajustons un modèle pour prédire les résidus des valeurs des résultats, ui, en utilisant les résidus des valeurs du traitement, 𝓋i pour obtenir le β1 estimé et donc l'ATE.

Sélection du modèle causal

La sélection de modèle pose un défi important dans l'estimation de l'effet causal en raison du problème fondamental de l'impossibilité d'observer directement les contrefactuels. Cette caractéristique distinctive rend la tâche de sélection de modèle dans l'estimation de l'effet causal plus complexe que dans d'autres approches ML et statistiques. Par conséquent, l'approche de validation croisée couramment utilisée n'est pas pratique.Le module de sélection de modèle de notre cadre permet de construire diverses mesures d'évaluation adaptées à trois groupes distincts d'ensembles de données, y compris des ensembles de données semi/entièrement synthétiques, des essais de contrôle randomisés et des ensembles de données d'observation du monde réel.

Métriques de précision

Deux mesures d'évaluation largement utilisées pour les contrefactuels connus et l'ATE de vérité terrain sont respectivement la précision attendue dans l'estimation des effets hétérogènes (PEHE)15 et l'erreur absolue dans l'ATE. La PEHE attendue, ∈PEHEquantifie la capacité d'un modèle à saisir l'hétérogénéité des effets causaux du traitement parmi les individus d'une population, ce qui mesure l'écart entre les effets estimés et les effets réels du traitement au niveau individuel :

L'accès limité aux effets hétérogènes du traitement au niveau individuel et la disponibilité d'une vérité de terrain pour l'ATE dans les essais contrôlés randomisés ont conduit à l'adoption de l'erreur absolue dans l'ATE, ∈ATE

Métriques basées sur l'approximation

Cette catégorie de mesures, désignée par 𝑀, construit un effet de traitement approximatif en utilisant des modèles de nuisance en l'absence de contrefactuels, ce qui fournit l'effet de traitement "réel" mais techniquement non observé. Les mesures basées sur l'approximation quantifient la disparité de l'hétérogénéité entre les effets de traitement estimés et les valeurs approximatives d'une manière analogue à la PEHE. À l'exception des estimateurs tels que Double ML, qui sont incapables d'estimer des effets de traitement hétérogènes, l'écart entre l'ATE et l'ATE approximatif peut être évalué. Une valeur plus faible indique un meilleur alignement entre les estimations et les approximations :

où 𝑀PEHE désigne la métrique basée sur l'approximation pour l'estimation des effets hétérogènes et 𝑀ATE pour l'estimation des effets moyens du traitement.

Il existe quatre approches couramment utilisées pour approximer l'effet de traitement de la vérité de terrain : l'appariement,16 la pondération,11 la modélisation,17 et la fonction d'influence.17 L'appariement consiste à trouver le voisin le plus proche (nn) du groupe de traitement opposé pour chaque échantillon de l'observation sur la base des valeurs de leurs covariables. L'effet de traitement de l'appariement est défini comme la différence entre les résultats observés parmi les échantillons les plus proches.

Une autre approche courante pour approcher l'effet de traitement de la vérité de terrain est la pondération à l'aide de la pondération de propension inverse (IPW). Cette méthode permet de construire une pseudo-population dans laquelle les distributions des résultats sont équilibrées entre les deux groupes de traitement. L'effet de traitement de la pondération est alors défini comme suit :

En outre, nous pouvons utiliser des modèles de régression comme dans les estimateurs COM (S-learner) et GCOM (T-learner), qui sont tous deux appelés méthodes PEHE enfichables17, afin d'obtenir une approximation de l'ETI de vérité au sol de la manière suivante :

Selon Alaa & Van DerSchaar17 , les méthodes de modélisation ou de PEHE enfichable ne peuvent véritablement démontrer leurs performances comparatives que lorsque les différences entre elles sont suffisamment faibles, c'est-à-dire que 𝑀~0. Dans le cas contraire, lorsque les différences sont significatives, elles ont tendance à présenter un biais en fonction du modèle utilisé. Pour surmonter cette limitation, des fonctions d'influence ont été proposées afin d'obtenir des estimations non biaisées de la PEHE et de sa variance. Ces fonctions d'influence capturent les dérivés fonctionnels de l'effet causal et fournissent des mesures plus robustes et généralisables. Dans le contexte du plug-in GCOM PEHE, un terme supplémentaire incorporant une fonction d'influence basée sur une expansion de type Taylor est défini comme suit :

Expériences

Benchmarking Datasets

Résultats factuels et contrefactuels simulés : Programme de santé et de développement de l'enfant (IHDP)

Le programme initial Infant Health and Development Program (IHDP) est une étude randomisée et contrôlée conçue pour évaluer l'effet des visites à domicile de médecins spécialistes sur les résultats des tests cognitifs des enfants prématurés. L'ensemble de données a finalement été transformé d'un modèle randomisé à un cadre d'observation et est devenu une référence largement utilisée pour l'estimation causale.15 La transformation comprenait l'induction d'un biais de sélection en supprimant des sous-ensembles non aléatoires des individus traités afin qu'ils reçoivent le traitement. En outre, les résultats ont été simulés en utilisant les covariables et les traitements originaux. L'ensemble de données de référence comprend 747 sujets et 25 variables. Le traitement consiste en des visites à domicile par des spécialistes, et les résultats d'intérêt sont les scores aux tests cognitifs. L'ensemble de données comprend jusqu'à 100 réalisations pour les résultats factuels et contrefactuels. À l'instar deHill15 , nous avons utilisé le résultat sans bruit comme résultat réel pour construire les estimateurs dans nos expériences. Nous rapportons les effets du traitement en moyenne sur 100 réalisations des résultats factuels et contrefactuels avec une répartition 80/20 entre la formation et le test.

Essai contrôlé randomisé : Emplois

L'ensemble de données sur les emplois, introduit parLaLonde18 , est une référence largement utilisée dans la communauté de l'estimation de l'effet causal. Dans cet ensemble de données, le traitement se réfère à la formation professionnelle et les résultats d'intérêt sont le statut de l'emploi après la formation. L'ensemble de données comprend 8 covariables, dont l'âge, l'éducation et les revenus antérieurs. À la suite de Shalit etal5 , nous avons combiné l'échantillon expérimental de LaLonde (297 traités, 425 témoins) avec le groupe de comparaison de la PSID (2 490 témoins).

Données d'observation du monde réel : Ensemble de données TWINS

L'ensemble de données TWINS, qui couvre les naissances de jumeaux aux États-Unis de 1989 à 1991,19 est principalement destiné à étudier l'impact du poids relatif sur le taux de mortalité des jumeaux. En tant que référence pour l'estimation de l'effet causal,11 l'ensemble de données utilise un traitement binaire artificiel, à savoir le fait d'être plus lourd à la naissance. Le résultat binaire mesure la mortalité de chaque jumeau au cours de leur première année. Étant donné que l'ensemble des données fournit des enregistrements pour les deux jumeaux, nous traitons leurs résultats comme deux résultats potentiels basés sur l'affectation du traitement, à savoir le fait d'être né plus lourd ou non. Cette configuration permet d'effectuer des analyses d'estimation de l'effet causal concernant l'effet du poids relatif sur les taux de mortalité des jumeaux. L'ensemble de données comprend 23968 échantillons (11984 traités, 11984 témoins) et 46 covariables relatives aux parents, à la grossesse et à la naissance.

Résultats

Pour chaque ensemble de données, nous présentons des évaluations englobant une gamme d'estimateurs causaux dans les tableaux 1, 2 et 3 pour IHDP, Jobs et TWINS, respectivement. Les évaluations correspondent à la moyenne et à l'écart-type des mesures de précision et d'approximation sur 10 exécutions à l'aide du module de sélection de modèles de notre cadre. À l'exception de Double ML, tous les résultats basés sur l'approximation, 𝑀PEHEprésentés dans le tableau sont associés à l'estimation d'effets de traitement hétérogènes (individuels) sur des ensembles de tests ou hors échantillon. Toutefois, les paramètres de la double ML, 𝑀ATEse rapportent aux effets de traitement moyens, et leurs valeurs ne se situent pas dans la même fourchette que celles des autres estimateurs et ne peuvent donc pas être comparées directement.

En utilisant les mesures basées sur l'approximation, nous adoptons la procédure suivante pour identifier l'estimateur optimal lorsque l'accès aux effets de traitement de la vérité de terrain n'est pas disponible : tout d'abord, pour chaque mesure dérivée des approximations, nous optons pour la valeur la plus basse présentant la moyenne la plus faible. Ensuite, les estimateurs présentant la majorité de ces valeurs inférieures seront choisis comme les meilleurs estimateurs. Les mesures en gras dans les tableaux ci-dessous sont celles qui satisfont aux conditions spécifiées.

Une observation intéressante se dégage de l'ensemble de données IHDP du tableau 1, dans lequel les mesures de performance restent alignées de manière cohérente entre tous les estimateurs, même si elles présentent des fluctuations mineures. DragonNet et Double ML se distinguent notamment par des performances supérieures à celles des autres estimateurs, avec une différence marginale toutefois. Comme nous pouvons le voir dans le tableau 2, sur l'ensemble de données Jobs, sur la base de ∈ATE en utilisant les données de vérité terrain, les moindres carrés ordinaires COM sont plus performants que les autres estimateurs. Néanmoins, en suivant notre stratégie de sélection de modèle susmentionnée basée sur des métriques approximatives, la régression par forêt aléatoire COM démontre une performance impressionnante dans l'estimation de la PEHE pour tous les modèles de nuisance. L'ensemble de données TWINS, comme le montre le tableau 3, révèle un schéma similaire à celui de l'ensemble de données IHDP. Pour tous les estimateurs, les mesures de performance affichent un niveau de cohérence remarquable. Cependant, les moindres carrés ordinaires COM ont surpassé les autres estimateurs sur la base des mesures de précision et d'approximation.

Tableau 1 : Résultats de l'ensemble de données IHDP100 sur l'ensemble de test (ou hors échantillon). Note 1 : Les valeurs des résultats ont été normalisées à l'aide d'un MinMaxScaler pour les confiner dans l'intervalle de 0 à 1. La transformation est effectuée en appliquant l'échelle suivante :
Note 2 : comme indiqué par 𝑀ATEles paramètres de Double ML se rapportent aux effets moyens du traitement, ce qui donne des fourchettes différentes de celles de 𝑀PEHE.
Tableau 2 : Résultats de l'ensemble de données Jobs sur l'ensemble de test. Note 1 : +L'ensemble de données n'a pas de résultats contrefactuels de référence, de sorte que ∈PEHE ne peut être mesuré.
Tableau 3 : Résultats de l'ensemble de données TWINS sur l'ensemble de test.

Conclusion

En conclusion, nous espérions fournir un aperçu complet de notre flux de travail d'estimation de l'effet causal en détaillant les subtilités de chaque composant et leur mise en œuvre dans le cadre de diverses expériences. Nous espérons que cela aidera les chercheurs et les innovateurs à appliquer et à mettre en œuvre efficacement les concepts de causalité et à faire progresser les applications réelles de l'estimation de l'effet causal.

Contributions et remerciements

Nous tenons à saluer les précieuses contributions techniques et théoriques des participants au Laboratoire d'inférence causale, ainsi que les contributions des personnes citées ci-dessous :

Conseillers académiques et conseillers de projet

Vahid Balazadeh Meresht1, Rahul G. Krishnan1,2+ˆ@<, Deval Pandya2+@<%, Andres

Rojas2+<%

L'équipe du projet Vector

Elham Dolatabadi1,2,3+∧&@∼<>, Amirmohammad Kazemeini2<>@%, Farnaz Kohankhaki2>, Maia Norman2,4+&@<>%, George Saad2∧&@>, Wen Xu2∧&@>, Joanna Yu2@<>

Facilitateurs de laboratoire

Dami Aremu2>, Winnie Au2<>, Asic Chen1>, Michael Cooper1>, Shaaf Farooq2>, Sedef Kocak2>, Tahniat Khan2>, Umar Khan2>, Farnam Mansouri4>, Shayaan Mehdi2>, Amirmohammad Shahbandegan2>, Ian Shi1>

Références

  1. Neal, B. : Introduction à l'inférence causale : From a machine learning perspective. Course Lect. Notes (2020)
  2. Pearl, J. : Inférence causale en statistique : An overview (2009)
  3. Battocchi, K., Dillon, E., Hei, M., Lewis, G., Oka, P., Oprescu, M., Syrgkanis, V. : Econml : Un package python pour l'estimation des effets de traitement hétérogènes basée sur le ml. Version 0. x (2019)
  4. Chernozhukov, V., Chetverikov, D., Demirer, M., Duflo, E., Hansen, C., Newey, W., Robins, J., et al : Apprentissage automatique double/débiaisé pour les paramètres de traitement et de causalité. Rapport technique (2017)
  5. Shalit, U., Johansson, F.D., Sontag, D. : Estimating individual treatment effect : generalization bounds and algorithms. In : International conference on machine learning. pp. 3076-3085. PMLR (2017)
  6. Shi, C., Blei, D., Veitch, V. : Adaptation des réseaux neuronaux pour l'estimation des effets de traitement. Advances in neural information processing systems 32 (2019)
  7. Wager, S., Athey, S. : Estimation et inférence des effets de traitement hétérogènes à l'aide de forêts aléatoires. Journal of the American Statistical Association 113(523), 1228-1242 (2018).
  8. Rubin, D.B. : Estimation des effets causaux des traitements dans les études randomisées et non randomisées. Journal of educational Psychology 66(5), 688 (1974)
  9. Pearl, J. : Inférence causale. Causality : objectives and assessment pp. 39-58 (2010)
  10. Imbens, G.W., Wooldridge, J.M. : Recent developments in the econometrics of program evaluation. Journal of economic literature 47(1), 5-86 (2009)
  11. Peters, J., Janzing, D., Sch ̈olkopf, B. : Éléments d'inférence causale : fondements et algorithmes d'apprentissage. The MIT Press (2017)
  12. Hastie, T., Tibshirani, R., Friedman, J.H., Friedman, J.H. : The elements of statistical learning : data mining, inference, and prediction, vol. 2. Springer (2009)
  13. Künzel, S.R., Sekhon, J.S., Bickel, P.J., Yu, B. : Metalearners for estimating heterogeneous treatment effects using machine learning. Proceedings of the national academy of sciences 116(10), 4156-4165 (2019).
  14. Mahajan, D., Mitliagkas, I., Neal, B., Syrgkanis, V. : Empirical analysis of model selection for heterogenous causal effect estimation. arXiv preprint arXiv:2211.01939 (2022)
  15. Hill, J.L. : Bayesian nonparametric modeling for causal inference. Journal of Computational and Graphical Statistics 20(1), 217-240 (2011)
  16. Rolling, C.A., Yang, Y. : Model selection for estimating treatment effects. Journal of the Royal Statistical Society Series B : Statistical Methodology 76(4), 749-769 (2014).
  17. Alaa, A., Van Der Schaar, M. : Validating causal inference models via influence functions. In : International Conference on Machine Learning. pp. 191-201. PMLR (2019)
  18. LaLonde, R.J. : Evaluating the econometric evaluations of training programs with experimental data. The American economic review pp. 604-620 (1986)
  19. Almond, D., Chay, K.Y., Lee, D.S. : The costs of low birth weight. The Quarterly Journal of Economics 120(3), 1031-1083 (2005).

En rapport :

Recherche
Une IA digne de confiance

Des experts de renommée mondiale en matière de confiance et de sécurité de l'IA publient un article majeur sur la gestion des risques liés à l'IA dans la revue Science

Perspectives
Grands modèles linguistiques

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques

Apprentissage automatique
Recherche

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.