图因果效应估计

less than 1 minute read

Published:

该论文发表在 AAAI 2022,介绍了近年来图因果效应估计的代表性方法,以及未来研究方向。

Learning Causality with Graphs

近年来,图被广泛应用于各种复杂场景,如社交媒体平台、协作网络、引用网络等,图上的主流学习任务为预测类(节点分类)和描述类(中心性度量),大部分工作从统计学数据的视角来进行相关任务。但除了统计学层面,我们还可以挖掘学习过程的因果关系。在因果推理中,一个重要的问题是在个体(individual)或群体水平上估计某种处理(treatment)对结果(outcome)的因果影响水平(例如使用某种药物对患者疾病治愈结果的因果影响水平),即因果效应估计(causal effect estimation)。因果效应估计的最好方式是进行随机对照试验(RCT, randomized controlled trial),即为参与者随机分配不同处理,比较不同处理下参与者结果的差异,但这种方式在现实世界很难实现,因此许多工作致力于从观测数据中估计因果效应。但绝大多数研究假设观测数据是独立同分布的,而现实生活中大量场景下的数据不符合这样的假设,例如社交网络等图结构数据,因此有必要开展图上的因果效应估计研究。

本文首先介绍了针对独立同分布数据的因果效应估计,然后介绍图因果效应估计的挑战和现有工作,最后介绍部分图因果学习工作和未来潜在研究方向。

独立同分布数据下的因果效应估计

传统方法

混杂因素(confounder)指对处理方式(treatment)和结果(outcome)均有影响的变量,如何控制混杂因素的影响是面向观测数据因果效应估计的一大挑战,如果不能有效控制混杂因素的影响,因果效应估计方法将学习到统计学依赖性而非真实的因果关系。

为了减轻混杂偏差,现有工作大多基于所有混杂因素均在观测特征中的强假设,也就是说不存在隐藏的混杂因素。

  • 回归方法

    预测潜在结果,即为个体分配某种处理,预测其结果。也就是说建模分布$P(YX,T)$,$X,T,Y$为个体特征,处理,结果。这样就将因果效应估计任务转化为带有部分标签数据的监督学习问题,根据预测的潜在结果估计因果效应。
  • 倾向评分方法

    已知结果$Y$,个体受到处理的概率为倾向评分(propensity score)

    • 倾向评分匹配(PSM, propensity score matching):

      对实验组的每个样本匹配与之倾向得分相近的对照组个体,形成样本对,对所有样本对建模。

    • 倾向评分分层(propensity score stratification):

      当处理不频繁时,将可能丢失大部分未处理样本,所以使用分层的方法,分层匹配实验组和对照组。

    • 处理权重逆概率(IPTW, inverse probability of treatment weighting):

      将个体受到处理的实际概率的倒数作为权重,由此减少或消除混杂因素的影响。

    • 基于倾向评分的调整(adjustment based on propensity score):

      使用倾向评分进行协变量调整,这种方法假设倾向评分和结果之间的性质已被正确建模,在处理变量和估计的倾向评分上进行回归。

  • 双稳健估计(DRE, doubly robust estimation):

    结合回归模型和倾向评分模型来实现更好的鲁棒性。

其他处理隐藏混杂因素的因果效应估计方法:

  • 工具变量法
  • 前门准则
  • 断点回归设计

基于表示学习的方法

随着深度学习的发展,推动了基于表示学习的因果效应估计方法。

  • TARNET

    输入个体特征,学习其混杂因素的表示,使用混杂因素表示预测潜在结果。

  • CFRNet

    使用表征平衡技术最小化实验组和对照组的混杂因素表征分布的距离,典型表征平衡技术一般基于 wasserstein-1 距离(CFR-Wass)或最大平均差异(CFR-MMD)。

  • SITE

    局部相似性保留的个体处理效应估计(local similarity preserved individual treatment effect estimation),与 CFRNet 设计类似,但通过关注每批中的几个硬样本来保留局部相似性信息并平衡数据分布。

  • CEVAE

    因果效应变分自编码器(causal effect variational autoencoder),假设可以基于深度潜变量模型推断隐藏的混杂因素。

图因果效应估计的挑战

  • 图数据的不同模式

    图数据包含实例特征和图结构

  • 隐藏混杂因素的存在

    现有工作大多通过假设忽略隐藏的混杂因素,但这不符合现实世界场景,在现实数据中,如果不控制隐藏混杂因素的影响,将导致因果效应估计偏差。

  • 图的复杂形式

    例如动态图,在现实世界中是复杂的不断发展的,需要在这种环境下控制隐藏的混杂因素,从而进行因果效应估计。

  • 网络干扰

    大部分因果效应估计的工作是基于稳定单元处理值假设(SUTVA, stable unit treatment value assumption)的,即任何个体的结果都不会受到其他个体的处理施加的影响,但在图上,个体间的干扰是普遍存在的。

  • 图结构的处理(treatment)

    针对个体的处理方式(treatment)可能是图结构的,例如药物的分子结构。

图因果效应估计方式

图上隐藏混杂因素的因果效应估计

干扰下的的因果效应估计

使用图结构处理(treatment)进行因果效应估计