怎么用we做网站,礼品公司网站制作,网站网页制作企业,自己做网站需要什么条件目录 为什么需要关心因果关系#xff1f;
回答不同类型的问题
当关联确实是因果时 为什么需要关心因果关系#xff1f;
首先#xff0c;您可能想知道#xff1a;它对我有什么好处#xff1f;下面的文字就将围绕“它”展开#xff1a;
回答不同类型的问题
机器学习目…
目录 为什么需要关心因果关系
回答不同类型的问题
当关联确实是因果时 为什么需要关心因果关系
首先您可能想知道它对我有什么好处下面的文字就将围绕“它”展开
回答不同类型的问题
机器学习目前非常擅长回答的问题类型是预测类型。正如 Ajay Agrawal、Joshua Gans 和 Avi Goldfarb 在《预测机器》一书中所说“人工智能的新浪潮实际上并没有给我们带来智能而是智能的一个关键组成部分——预测”。我们可以用机器学习做各种美妙的事情。唯一的要求是我们将问题构建为预测问题。想从英语翻译成葡萄牙语然后构建一个 ML 模型在给定英语句子时预测葡萄牙语句子。想识别人脸然后构建一个 ML 模型该模型预测图片子部分中是否存在人脸。想造一辆自动驾驶汽车吗然后构建一个 ML 模型来预测车轮的方向以及当呈现来自汽车周围的图像和传感器时的刹车和油门压力。
然而ML 并不是万能的。它可以在非常严格的边界下创造奇迹但如果它使用的数据与模型习惯的数据略有不同它仍然会失败。再举一个来自 Prediction Machines 的例子“在许多行业中低价格与低销量有关。比如在酒店行业旅游旺季外价格低需求旺盛、酒店爆满时价格高。鉴于这些数据一个幼稚的预测可能表明提高价格会导致售出更多房间。”
ML 在这种逆因果关系类型的问题上是出了名的糟糕。这类问题要求我们回答“假设发生”这样的问题经济学家称之为反事实。假设我目前要求的商品不是这个价格而是使用另一个价格会发生什么情况假设我不采用这种低脂饮食而是采用低糖饮食会发生什么假设您在银行工作提供信贷您将必须弄清楚更改客户线会如何改变您的收入。或者假设您在当地政府工作您可能会被要求弄清楚如何改善学校教育系统。您是否应该因为数字知识时代告诉您而将平板电脑送给每个孩子或者你应该建造一个老式的图书馆
这些问题的核心是我们希望知道答案的因果调查。因果问题渗透到日常问题中例如弄清楚如何提高销售额但它们也在我们非常个人和宝贵的困境中发挥重要作用我是否必须上一所昂贵的学校才能在生活中取得成功是吗教育导致收入移民是否会降低我找到工作的机会移民是否会导致失业率上升向穷人汇款会降低犯罪率吗不管你在哪个领域很可能你已经或将不得不回答某种类型的因果问题。不幸的是对于 ML我们不能依靠相关类型预测来解决它们。
回答这类问题比大多数人想象的要困难。您的父母可能已经向您反复说过“关联不是因果关系”但实际上要解释为什么会这样却是有点困难的。这也是因果关系要讲的。至于其余部分它将致力于弄清楚如何使关联成为因果关系。
当关联确实是因果时
直觉上我们模糊地知道为什么关联不是因果关系。 如果有人告诉您为学生提供平板电脑的学校比不提供平板电脑的学校表现更好您可以很快指出那些配备平板电脑的学校可能更富有。 因此即使没有平板电脑他们的表现也会比平均水平更好。 因此我们不能得出结论说在课堂上给孩子们使用平板电脑会提高他们的学习成绩。 我们只能说学校的平板电脑与学习成绩表现好有关。
import pandas as pd
import numpy as np
from scipy.special import expit
import seaborn as sns
from matplotlib import pyplot as plt
from matplotlib import stylestyle.use(fivethirtyeight)np.random.seed(123)
n 100
tuition np.random.normal(1000, 300, n).round()
tablet np.random.binomial(1, expit((tuition - tuition.mean()) / tuition.std())).astype(bool)
enem_score np.random.normal(200 - 50 * tablet 0.7 * tuition, 200)
enem_score (enem_score - enem_score.min()) / enem_score.max()
enem_score * 1000data pd.DataFrame(dict(enem_scoreenem_score, Tuitiontuition, Tablettablet))plt.figure(figsize(6,8))
sns.boxplot(yenem_score, xTablet, datadata).set_title(ENEM score by Tablet in Class)
plt.show() 为了超越简单的直觉让我们首先建立一些符号。 这将是我们谈论因果关系的共同语言。 把它想象成我们将用来识别其他勇敢和真正的因果战士的通用语言它将在未来的许多战斗中组成我们的呼声。
表示单元i的干预量
这里的干预不需要是药物或医学领域的任何东西。 相反它只是一个术语我们将用它来表示一些我们想知道其效果的干预。 在我们的案例中治疗是给学生服用药片。 作为旁注您有时可能会看到D而不是T来表示干预。然后把称为单元i的观察结果变量。
结果是我们感兴趣的变量。 我们想知道干预是否有任何影响。 在我们的平板电脑示例中它将是学习成绩。这就是事情变得有趣的地方。 因果推断的基本问题是我们永远无法在经过处理和未经处理的情况下观察到同一个单元。 就好像我们有两条不同的道路我们只能知道我们走的那条路前面有什么。
为了解决这个问题我们将在潜在结果方面进行很多讨论。它们被成为潜在的结果是因为它们实际上并没有发生。相反它们表示在采取某些干预的情况下会发生什么。我们有时将发生的潜在结果称为事实而将未发生的潜在结果称为反事实。
至于符号我们使用了一个额外的下标是未经处理的单元i的潜在结果是相同单元i的潜在结果。而有时也表示为可以是而可以是。回到我们的例子如果学生i拿到平板电脑我们可以观察到否则我们可以观察到我们可以定义个体治疗效果-
当然由于因果推断的根本问题我们永远无法知道个体的治疗效果因为我们只观察了其中一种潜在结果。目前让我们关注一些比估计个体治疗效果更容易的事情。相反让我们关注平均处理效果其定义其中E是期望。另一个更容易估计的数量是对被干预者的平均干预效果
现在我知道我们不能看到两种潜在的结果但为了争论我们假设我们可以。假设因果推理之神对我们进行的许多统计斗争感到满意并以上帝般的力量奖励我们以查看替代的潜在结果。有了这种能力假设我们收集了 4 所学校的数据。我们知道他们是否向学生提供平板电脑以及他们在某些年度学术测试中的分数。在这里平板电脑是治疗方法所以T1如果学校向孩子们提供平板电脑Y将是测试分数。 这里的ATE将是最后一列的平均值即治疗效果的平均值ATE(-500-20050)/4 -50
这意味着平板电脑会使学生的学习成绩平均降低 50 分。 当 T1 时这里的ATT将是最后一列的平均值ATT(-20050)/2-75
也就是说对于接受治疗的学校平板电脑使学生的学习成绩平均降低了 75 分。 当然我们永远无法知道这一点。 实际上上表如下所示 您可能会说这肯定不理想但我不能仍然采用处理过的平均值并将其与未处理过的平均值进行比较吗 换句话说我不能只做ATE(600750)/2-(500600)/2125么不注意结果的不同。 那是因为你刚刚犯了将联想误认为因果关系的最严重的罪过。 要了解原因让我们来看看因果推理的主要敌人。