简单聊聊因果揣度这个事。

Thoughtworks 曾与一家国际知名药企协作,解决患者用药依从性低(从药物医治的视点,药物依从性是指患 者对药物医治计划的履行程度)的问题。

假设仅着眼于患者本身,其不继续用药,也许是忘了,或许动力不足,看似能够简单归因并立刻着手解决。但 当咱们翻开这个问题,置身于整个别系,会发现影响患者继续用药的要素触及方方面面。

除患者个人层面,触及到的利益相关方包含患者、医院、医师、制药机构、医药代理、甚至政府机构。其间影 响要素或许有医师对患者的影响、医疗保险的报销规则、社区医疗资源分布、甚至家人的陪伴等等。多层要素 之间亦相互牵连,相互影响。

终究发现,从患者片面能动性动身所能提高的用药依从性大概只占小部分。而医师对患者的支持,以及医保的 报销比例,或许更大程度决议了患者是否继续用药。

一个本来以为从患者视点的动机或许习气问题,在深化研讨后会发现它是一个更大的体系问题,而非个人动机的问题。

这正是咱们今天的现状,咱们所面临的大部分问题是一团缠绕的纱线。因而,为了避免想当然从某个点随意牵 扯一条线而造成“死结”,咱们需求花更多的时刻与精力,来解开这团纱线。

D o n e l l a M e a d o w s 在 《 系 统 之 美 》中提到:“厘清影响问题的各个元素并了解其间的联系 , 咱们才能更好找出所谓问题的杠杆解。” 。咱们在解决问题时需求关注问题所处的上下文、体系联系,以及各个元素之间的内部因果与联系。杂乱问题之间互为因果、环环嵌套,因而有时难以剖析和挑选、聚集于某个单一问题而创造的计划,往往仅仅局部优化。为此咱们需求剖析每个问题的发生原因和影响成果,找到某个问题所相关的上下游问题。

贝叶斯提出的逆概率定理,认为概率现象也是片面信仰程度的变化和更新,让概率也失去了客观性;核算学创始人高尔顿和学生皮尔逊用相相关系替代了因果联系。至此,依据核算的科学研讨壮大开展,因果效应依据核算计量的研讨敞开。

计量经济学家格兰杰依据概率形式给出因果检测公式,论证事情发生是否存在先后的显著性。可是只能判别发生事情在时刻上的先后是否有核算显著性,并不能判别因果。

但相关性并不能精确的说明因果联系。相关性并不能替代因果性,无法处理具有共同稠浊因子的变量联系,核算数据常因果颠倒(无方向性)、造就伪相关、对数据要求也很高(iid)、泛化性、鲁棒性都很差。

那么怎么剖析因果联系以及将其用在实践中就需求借助一些更高效的东西和手段。

咱们首先来定义下什么是因果,休谟在《人类了解研讨》中提到:“咱们能够给一个因下定义说,它是先行于、接近于另一个目标的一个目标,而且在这里,凡与前一个目标相似的悉数目标都和与后的一个目标累死的那些目标处在累死的先行联系或许接近联系中。或许,换言之,假设没有前一个目标,那么后一个目标就不或许存在。”(最后那句话也是反实际的定义。)

在图灵奖得主朱迪尔珀尔(Pearl)在 2000 年的论文《 Causality: Models, Reasoning, and inference》中提出了因果阶梯论(Pearl Causal Hierarchy):

他认为,因果揣度有三个层级,

简单聊聊因果推断

最低的榜首层级是相关(association),触及的是猜测,而不触及因果联系,只评论变量之间的相关,比如公鸡打鸣与日出之间的相相关系。

第二层级是干涉(intervention),触及因果性,比如吸烟与患肺癌之间的因果联系。

第三层级是反实际(Counterfactuals),触及的是答复诸如“假设状况不是现在这样,或许会发生什么”的问题。

在论文中也提到了咱们常遇到的五个问题:

  • 给定的疗法在医治某种疾病上的有效性?
  • 是新的税收优惠导致了销量上升吗?
  • 每年的医疗费用上升是因为肥胖症人数的增多吗?
  • 招聘记录能够证明雇主的性别歧视罪吗?
  • 我应该放弃我的作业吗?

咱们常说相关性不等于因果性,但这些问题的一般特征是它们关怀的都是什么东西带来的作用,但咱们并没有很好的方法和科学的方法能够表达这样的问题,以及保证咱们的定论不出问题。实际国际中绝大多数东西咱们都很难找到精确因和果,往往都是杂乱的、环环相扣的、相互影响的。

耶日• 内曼在 1923 年发表了《On the Applications of the Theory of Probability to Agricultural Experiments》他提出了用于因果揣度的“潜在成果”(potential outcomes)的数学模型,并将它和核算揣度结合起来。

**一个或多个处理作用在个别上发生的预期作用咱们称之为潜在成果 (Potential outcome)。**之所以称为潜在成果是因为在一个个别上终究只有一个成果会呈现并被调查到,也便是和个别所接受的处理相对应的那个成果。别的的潜在成果是调查不到的,因为它们所对应的处理并没有实践作用在该个别上。因果作用的定义依赖于潜在成果,可是它并不依赖于哪一个潜在成果实践发生。

Rubin(1974)重新独登时提出了潜在成果的概念,提出了鲁宾因果模型,将潜在成果结构扩展为在调查性和试验性研讨中思考因果联系的一般结构。

简单聊聊因果推断

鲁宾因果模型是依据潜在成果的想法。例如,假设一个人上过大学,他在 40 岁时会有特定的收入,而假设他没有上过大学,他在 40 岁时会有不同的收入。为了衡量这个人上大学的因果效应,咱们需求比较同一个人在两种不同的未来中的成果。因为不或许一起看到两种潜在成果,因而总是短少其间一种潜在成果。这种窘境便是“因果推理的基本问题”。

因为因果推理的根本问题,无法直接调查到单元级别的因果效应。可是,随机试验允许估量人口水平的因果效应。随机试验将人们随机分配到对照组:大学或非大学。因为这种随机分配,各组(均匀)相等,40 岁时的收入差异可归因于大学分配,因为这是各组之间的仅有差异。然后能够经过核算处理(上大学)和对照(非上大学)样本之间的均匀值差异来获得均匀因果效应(也称为均匀处理效应)的估量值。

可是,在许多状况下,因为伦理或实践问题,随机试验是不或许的。在这种状况下,存在非随机分配机制。上大学的比如便是这种状况:人们不是随机分配上大学的。相反,人们或许会依据他们的经济状况、父母的教育等来挑选上大学。现已开发了许多用于因果揣度的核算方法,例如倾向得分匹配。这些方法企图经过寻找相似于处理单元的控制单元来纠正分配机制。

Pearl 和 Mackenzie 在《The Causal Revolution》中提出了一种因果结构模型——SCM。SCM 由三部分构成:

  1. 图模型(Graphical models)
  2. 结构化方程(Structural equations)
  3. 反实际和介入式逻辑(Counterfactual and interventional logic)

图模型最早是由 遗传学家 Sewell Wright 在 1918 年左右提出的,开始是为了揣度决议豚鼠出生体重的要素的相对重要性。他利用这种结构开展了途径剖析的方法,这种技能一般用于分层和杂乱过程的因果揣度使命,如表型遗传。

他在 1921年的论文《Correlation and Causation》就有画因果图,描述各种遗传要素与豚鼠出生体重之间联系的结构性因果模型的代表。Wright的途径追寻规则定义了一套使用一组相关联系的规则,以生成一个因果图。因果图也能够被认为是结构因果模型的 DAG 表明方法。

简单聊聊因果推断

抽烟的人简单导致肺癌,抽烟的人也简单呈现黄手指。因为抽烟这个“共因”,“黄手指”和“肺癌”发生了相关,咱们不难发现,手指黄的人很多都简单患肺癌。可是咱们不能说,黄手指会导致肺癌,它俩并没有因果联系。这个“共因”也被称之为“稠浊因子”(confounder)。在这个比如中,“抽烟”便是“黄手指”和“肺癌”的稠浊因子,它让“黄手指”和“肺癌”呈现了一种“伪相关”,这种伪相关也被称为“偏倚”(bias)。,因果推理的一大目标便是尽量消除稠浊带来的偏倚(也便是那些非因果的相关联系),找出真实的因果联系。

在因果相关领域有一个著名的规律,被称为d-别离规律。d-别离的全称是有向别离(directional separation),是一种判别变量是否条件独立的方法。

咱们能够经过后门准则来消除稠浊因子的影响。假设咱们有满足的数据能够将一切A Y 之间的后门途径悉数阻断,那么咱们就能够识别(identify)A Y 之间的因果联系。

简单来说,稠浊(confounding)便是因果变量之间的共因。而稠浊因子(confounder)便是能够阻断因果变量之间一切后门途径的变量(或许稠浊因子不止一个)。这里要特别说明的是,稠浊因子的概念是建立在因果图结构之上的,必须要指定因果图的结构,稠浊因子才有含义。在一个杂乱的因果图中,某个变量或许阻断了某两个变量之间的一切后门途径,因而它是某两个变量的稠浊因子,但它对另一个途径来说或许并不是稠浊因子。因而咱们羁绊于谁是稠浊因子没有实践含义,有含义的是,以哪个变量为条件能够消除这条途径上的稠浊。

让咱们回到实际的场景中。

传统的机器学习是猜测作业,拟合用户的特征和目标 Y 值之间的联系,但无法建模试验前后对业务目标带来的收益。而因果揣度能够拆分试验变量 T 和协变量 X(用户特征),来构建不同用户在不同试验下发生的不同行为的因果模型。

咱们能够经过公式看看。下面是一个经典的贝叶斯公式:

P(Y∣X)=P(X)P(X,Y)​=P(X)P(X∣Y)P(Y)​P(Xk​∣Y=1)=P(Y=1)P(Xk​)P(Y=1∣Xk​)​

当已知成果发生了(Y=1),相剖析引起成果的原因 Xk​。经过贝叶斯公式发现 P(Xk​) 也便是 Xk​的概率越高,Y 的概率越高,但这个概率高低是非因果的。

下面是 SCM 因果揣度的公式:

P(Y∣do(X))=u∑​P(Y∣X,u)P(u)

咱们能够发现在控制了 u 的状况下,切断了 u -> x 的后门途径,那就能够经过干涉某些有含义的变量来评估因果效应。实际中常见的场景是在有某些约束的状况下,怎么给目标客户分配适宜的权益,从而达到业务目标最大化。

咱们能够假设咱们是一个电商网站,咱们需求经过优惠券影响用户消费。那么在总成本不变下发什么样的折扣券给到什么样的用户作用最好呢?

咱们能够将不同的用户进行区分,然后对不同用户集体做 AB Test 发放不同的优惠券,从而来观测哪些用户集体的适合哪些优惠券,作用更加好。只猜测收到优惠券后发生的借款。无法区别对活动更敏感人群和天然转化人群。但经过Uplift 的增量进行建模,即优惠券而发生的收益,就能够精准找到对活动更敏感人群。

Uplift models 用于猜测一个 treatment 的增量反馈价值。举个比如来说,假设咱们想知道对一个用户展现一个广告的价值,一般的模型只能告诉咱们用户在展现广告后的购买志愿很强,但实际很有或许是他们在被展现广告之前就现已很想购买了。Uplift models 聚集于用户被展现广告后购买志愿的增量。

在一个理想的国际中咱们能够将每一个个别依据类型区分,然后找到 “persuadables” 的那一波人,也便是投资报告率最高的那一波人。关于 “sleeping dogs” 的那一波人肯定不是营销的目标人群。可是在实际生活中咱们却没有方法精确的判别一个人是属于哪种类型,因为咱们不或许对同一个用户 treated 或许 notreated。可是借助核算和机器学习的常识,咱们就能够得到相似的用户大致会怎么反应。这便是 uplift 模型的核心,每一个用户会得到一个位于 -1 到 1 的 lift score,用于指导用户人群的挑选。

用 uplift 模型能够辅佐你找到更适宜的用户进行试验。而在推荐上的具体作业像是《Causal intervention for leveraging popularity bias in recommendation》这篇论文也详解得很好,里面详细剖析了剖析怎么使用因果揣度来消除流行度偏差。

总结一下,因果揣度十分适合解决某个场景下挑选某一批用户用某个手段得到某个收益的互联网场景,但这个领域在 AI 和互联网具体场景下仍是很原始,有待开展。还有像因果发现、因果强化学习、因果揣度、与深度学习结合等等子方向还在蓬勃开展中。个人来说仍是很信任因果揣度会是个大势,或许将来会很多与机器学习、深度学习交融。在实际中干涉一个目标的已知因子、稠浊因子是十分十分多的,怎么找到适宜的因子也会成为一个大难题。