昭阳区建设局网站,怎么查网站的所有权,w10怎么做信任网站,厦门网络公司网站关于标准误的选择#xff0c;如是否选择稳健性标准误、是否采取聚类标准误。之前一直是困惑的#xff0c;惯用的做法是类似主题的文献做法。所以这一次#xff0c;借计量经济学课程之故#xff0c;较深入学习了标准误的选择问题。
在开始之前推荐一个知乎博主。他阅读了很…关于标准误的选择如是否选择稳健性标准误、是否采取聚类标准误。之前一直是困惑的惯用的做法是类似主题的文献做法。所以这一次借计量经济学课程之故较深入学习了标准误的选择问题。
在开始之前推荐一个知乎博主。他阅读了很多top期刊的paper然后平均以一周一更新的频率分享几乎不中断。倾佩他认真专注以及坚持分享的style~ 知乎-无宇的主页
下面是这篇博客阅读的文献和一些文章 [1] (2009,RFS) -Estimating Standard Errors in Finance Panel Data Sets Comparing Approaches [2] (JFE,2011)- Simple formulas for standard errors that cluster by both firm and time 3- Robust Inference With Multiway Clustering [4] (QJE,2023) -When should you adjust standard errors for clustering [5] [聚类稳健标准误_CSDN_celine0227] ( https://blog.csdn.net/celine0227/article/details/124405756) 这里写目录标题RFS-20091、残差项的iid2、违背残差项iid的情形下有效性违背的两种情况3、自相关情境下标准误如何受到影响4、存在公司固定效应下如何解决自相关对标准误有效性的影响5、存在时间固定效应下如何解决自相关对标准误有效性的影响6、同时存在固定的企业效应和时间效应如何解决自相关对标准误有效性的影响7、存在暂时公司效应时如何解决自相关对标准误有效性的影响8、总结JFE-20111、整体介绍2、本文探讨了何时采用双聚类偏差。3、本文探讨了数据集中公司和时间维度数量对于聚类层面的影响。5、聚类数量对标准误方差的影响6、持续共同冲击的影响7、蒙特卡洛实验的结果8、结论JBES-2011QJE-20231、论文的聚类框架2、传统聚类标准误调整的几个误解3、传统聚类框架与本文框架的区别4、结论本篇博客只是对各篇论文学习的总结
RFS-2009
摘要在公司融资和资产定价实证工作中研究人员经常面对面板数据。在这些数据集中残差可能跨公司或跨时间相关OLS标准误差可能存在偏差。从历史上看这两个文献中的研究人员对这个问题使用了不同的解决方案。本文研究了文献中使用的不同方法并解释了不同的方法何时产生相同和正确的标准误差以及何时发散。其目的是提供直觉说明为什么不同的方法有时会给出不同的答案并为研究人员提供使用指导。
1、残差项的iid
残差项在iid独立同分布意味着残差间的协方差为0残差同方差。 这种情形下估计量及其方差为
2、违背残差项iid的情形下有效性违背的两种情况
1异方差残差间的协方差为0但残差是异方差。考虑到个体差异我们默认认为残差间存在异质性所以在没有自相关的情形下常用White的稳健性标准误。 2自相关残差间的协方差不为0。 以公司-年的面板数据结构为例本篇作者讨论了两种自相关情形
公司固定效应同一公司内的不同年份观测值的自相关如A公司的创新文化在各年一直都存在B公司的激进主义在各年一直都存在时间固定效应同一年份内在不同公司观测值的自相关如今年宏观政策对所有公司产生影响使得公司间存在相关
由于我们最常规情形下也会选择稳健性标准误所以本文主要讨论的是聚类标准误的情形。
3、自相关情境下标准误如何受到影响
存在公司固定效应自相关情境下OLS的一致性还保持但有效性受到损害信息量没有充分利用。
这个时候同一公司内的残差间的协方差不为0观测值的协方差也不为0. 那么存在公司固定效应情况下真实的估计量的方差为
对比3和7如果我们不考虑公司固定效应的自相关问题而直接采用iid假设的标准误会使得标准误变小。从公式可以看出。但深层次原因是iid情况下认为的每个观测值信息是不同的。但事实上每个公司内存在一部分相同的信息并没有提供增量的部分导致没有考虑自相关下低估了标准误。这样会使得t值变大容易接受论文假设导致第二类错误存伪。
4、存在公司固定效应下如何解决自相关对标准误有效性的影响
可以采用聚类在公司层面的标准误。 1聚类标准误估算出聚类内残差的相关性
2Fama-MacBeth标准误不可以仅适用于时间固定效应不适用于公司固定效应。研究者运行T个横向回归T次估计的平均值就是系数估计值。这种方法不能够解决具有公司固定效应的自相关但是可以解决具有时间固定效应的自相关。原因是即使是分开每一年的公司估计β但是每一期估计的β夹杂了公司固定效应的信息从而导致公司固定效应的影响还在。但年份不会因为年份不重叠。
3Newey-West标准误存在低估估计同一聚类中滞后残差之间的相关性。由于方程采用对协方差的加权小于1所以标准误的估计相比聚类标准误仍然存在低估(公式7和14的对比)。
5、存在时间固定效应下如何解决自相关对标准误有效性的影响 可以采用聚类在时间的标准误和Fama-MacBeth标准误。
6、同时存在固定的企业效应和时间效应如何解决自相关对标准误有效性的影响
在面板数据集中估计标准误的最佳方法取决于数据中非独立性的来源。对于只有企业效应的面板数据集按企业聚类最好。如果数据只有时间效应当年数较少时Fama-MacBeth法比按时间聚类要好当年数足够多时两者一样好。这些方法使研究者对聚类内的相关形式不可知但代价是残差必须在各聚类之间不相关。但很多时候难以满足。也就是说同时存在固定的企业效应和时间效应的情况这种情形下如何解决
金融实证研究者解决两个相关来源的方法之一是对其中一个维度进行参数化估计例如通过加入虚拟变量。由于许多面板数据集的公司数量多于年份数量一种常见的方法是为每个时间加入虚拟变量以吸收时间效应然后按公司进行聚类。如果时间效应是固定的时间虚拟变量完全消除了同一时间段内观测值之间的相关性。在这种情况下数据中只剩下企业效应。
如果时间效应不固定那么时间虚拟变量就不能完全消除非独立性例如2008年的金融危机不仅在08年产生影响还在09年即使是按企业聚类的标准误也会有偏差。由于研究者并不总是知道非独立性的精确形式因此可能会倾向于采用不那么参数化的方法。一个解决方案是同时在两个维度上进行聚类例如公司和时间。Cameron、Gelbach和Miller(2006)以及Thompson(2006)提出了以下方差-协方差矩阵的估计
论文做了一个蒙特卡洛模拟使用10000个观测值按照10到1000个企业进行企业和时间的滑动变化。在同时存在两个效应时只按照1个维度进行聚类标准误会发生剧烈变化但是当这个维度有更多聚类时它的标准误与双重聚类一样。如1000个企业*10年的样本结构中只按照公司层面的聚类和双重的聚类的拒绝率在同等水平。
7、存在暂时公司效应时如何解决自相关对标准误有效性的影响
存在暂时公司效应的意思公司效应在时间上呈现衰弱特征
8、总结 JFE-2011
摘要在估计财务面板回归时通常的做法是调整跨公司或跨时间相关性的标准误差。只有当残差跨时间或跨公司相关时这些程序才有效但不能同时关联两者。本文表明计算标准误差非常容易这些标准误差对两个维度例如公司和时间上的同时相关性具有鲁棒性。协方差估计量等于按公司聚类的估计量加上按时间聚类的估计量减去通常的异方差稳健性普通最小二乘 OLS 协方差矩阵。任何带有聚类命令的统计包都可用于轻松计算这些标准误差。
1、整体介绍
这篇论文是在RFS-2009的基础上进一步考虑公司固定效应和时间固定效应同时存在的情形并更进一步介绍了它的实现。
2、本文探讨了何时采用双聚类偏差。
双聚类在具有以下特征的数据集中可能最有用回归误差包括重要的时间和公司成分回归变量本身包括重要的公司和时间成分公司和时间段的数量没有太大差异。因此如果回归变量随时间变化而不是随公司变化那么按时间聚类可能就足够好了而双聚类可能不会产生很大的差异。如果公司数量远远超过时间段则按时间聚类可以消除大部分偏差除非公司内部相关性远大于时间段内的相关性。
本文考虑持续共同冲击有关的特殊情况。即不同时期不同公司间的相关性。standard errors that correct for persistent common shocks will tend to be biased downward. Eliminating the bias requires a large number of time periods.
3、本文探讨了数据集中公司和时间维度数量对于聚类层面的影响。
一般的观点是在其他条件相同的情况下沿观测值较少的维度聚类更为重要。如果维度极其不平衡我们根本不需要双重聚类。。
例子如果我们有一个包含10家公司和 1000个时间段的样本那么更大的偏差减少可能来自按公司聚类。本文认为是当一个维度是固定数量但另外一个维度趋向于无穷。如果采用无穷的那个维度聚类时观测值聚类维度的数目无限大聚类内的个体会更少使得这个维度内的每个聚类内的协方差收敛于0进而等同于每个聚类就是每个随机分配的个体不存在自相关问题。
需要明确的是聚类的效果是由每个维度内的观测值数量与内部观测值之间的相关性大小之间的相互作用决定的。如果没有公司效应即给定公司的观察在各个时间段之间是不相关的那么我们不需要按公司聚类即使有 1000 个时间段并且只有十家公司。但是如果数据具有显著的公司和时间效应则沿观测值较少的维度聚类可能更为重要。
该分析表明当公司数量和时间段相差不大时双聚类最为重要。例如Fama和French2000在一个包含数千家公司和大约35年年度会计数据的小组中预测了公司层面的盈利能力。在这种情况下按时间聚类可能已经足够好了因为没有按公司聚类而导致的偏差增加可能很小。
5、聚类数量对标准误方差的影响
对于聚类标准误差标准误差估计值的方差随着聚类数量聚类维度的数量的减少而变大。聚类标准误差是通过跨聚类求平均值来估计的。较少的聚类意味着平均值中的项数量较少因此估计误差较大。
考虑一下研究人员在从单聚类标准误差到双聚类标准误差时看到非常不同的结果的情况。研究人员可能会将此作为证据证明沿着两个维度进行聚类很重要。但是如果时间维度或公司维度中的聚类太少则双聚类标准误差估计值将是噪声的。不同的结果可能是杂散的并且是由于噪声。因此只有当我们在两个维度上都有足够的聚类时双聚类才有意义。在实践中我们需要多少个集群
6、持续共同冲击的影响
关于持续共同冲击造成的偏差有两个有用事实它随着相关性的大小而增加并且随着样本变大而消失。
因此我们预计当相关性接近于零且样本量较大时这些聚类标准误差表现良好。当然如果相关性很低那么我们可以忽略它们并使用更简单的公式。这些标准误差明确首选的唯一情况是相关性显著且样本量大到足以纠正偏差。我进行蒙特卡洛斯检查看看样本需要多大。
7、蒙特卡洛实验的结果
蒙特卡洛斯通常支持使用稳健的标准误差。单聚类标准误差无法处理一个回归量具有显著时间效应而另一个回归量具有显著的公司效应的回归。如果我们愿意在 10% 大小的测试中接受高达 5% 的错误拒绝那么只要我们对公司和时间都有超过 25 个观察结果双聚类就会很好地工作换言之聚类维度数量至少要有25个。纠正持续的共同冲击需要 50 到 100 个时间段。
8、结论
本文推导出了易于计算的标准误差公式这些公式按公司和时间进行聚类。统计理论和蒙特卡洛结果都表明同时按公司和时间进行聚类会导致金融小组的推断更加准确。蒙特卡罗实验表明只要我们不允许持续的共同冲击当我们至少有25家公司和时间段时对公司和时间的聚类就足够了。但是允许持续的常见冲击需要更多的时间段。
#JBES-2011 摘要在这篇文章中我们提出了一个方差估计的OLS估计量以及非线性估计量如logit, probit和GMM。当存在非嵌套的双向或多维聚类时此方差估计器支持cluster-robust inference。方差估计量扩展了the standard cluster robust variance estimator or sandwich estimator for one-way clustering(例如Liang和Zeger 1986;Arellano 1987)并依赖于类似的相对较弱的分布假设。我们的方法很容易在统计包中实现例如Stata和SAS当存在单向聚类时它们已经提供了cluster robust的标准误差。通过对双向随机效应模型的蒙特卡罗分析证明了该方法的有效性;对安慰剂定律的蒙特卡洛分析将Bertrand, Duflo和Mullainathan(2004)的状态-年效应例子扩展到二维;并应用于实证文献中存在双向聚类的研究。
这篇文章提供了实现多维聚类的stata包并且建议当样本数量过小导致维度数量小的情况下建议对标准误差和Wald测试临界值进行调整。本文给出的最小维度标准是10与JFE有所差别。
JBES-2011
摘要在这篇文章中我们提出了一个方差估计的OLS估计量以及非线性估计量如logit, probit和GMM。当存在非嵌套的双向或多维聚类时此方差估计器支持cluster-robust inference。方差估计量扩展了the standard cluster robust variance estimator or sandwich estimator for one-way clustering(例如Liang和Zeger 1986;Arellano 1987)并依赖于类似的相对较弱的分布假设。我们的方法很容易在统计包中实现例如Stata和SAS当存在单向聚类时它们已经提供了cluster robust的标准误差。通过对双向随机效应模型的蒙特卡罗分析证明了该方法的有效性;对安慰剂定律的蒙特卡洛分析将Bertrand, Duflo和Mullainathan(2004)的状态-年效应例子扩展到二维;并应用于实证文献中存在双向聚类的研究。
这篇文章提供了实现多维聚类的stata包并且建议当样本数量过小导致维度数量小的情况下建议对标准误差和Wald测试临界值进行调整。本文给出的最小维度标准是10与JFE有所差别。
QJE-2023
摘要聚类标准误差由地理等因素定义的聚类在经济学和许多其他学科的实证研究中很普遍。从形式上讲聚类标准误差通过从具有未观察到的聚类级组件的数据生成过程中对结果变量进行采样而调整引起的相关性。然而聚类的标准计量经济学框架留下了重要的问题i为什么我们在某些方面调整聚类的标准误差而不在其他方面例如按州而不是按性别在观察性研究中而不是在完全随机的实验中ii 如果我们在总体中观察到大部分聚类聚类方差估计量是否有效iii 在哪些情况下是否以及如何分组的选择会有所不同我们使用一种新的框架来对平均处理效果进行聚类推断从而解决这些问题和其他问题。除了通用抽样组件外新框架还包含一个设计组件该组件考虑了处理分配机制在估计器上引起的变异性。我们表明当样本中的聚类数量是总体中聚类数的不可忽略的一部分时传统的聚类标准误差可能会严重膨胀并提出新的方差估计量来纠正这种偏差。
这篇文章是在以往关于聚类问题讨论上的突破使用两步的抽样设计的思路来讨论是否及何时需要使用聚类的标准误差。
1、论文的聚类框架
本文提出的聚类框架与标准框架的不同之处在于它包括一个设计部分即考虑到处理分配中的聚类间变化。本文认为这个新的设计组件是很重要的因为处理分配中的聚类间差异常常促使我们在经验研究中使用聚类标准误差。此外本文框架将关注的焦点从无限超级总体/数据生成过程的特征转移到为手头的有限但可能很大总体定义的平均处理效应。由于这种转变抽样过程和处理分配机制只决定了正确的聚类水平结果变量中聚类水平的非观察成分存在与聚类水平的选择无关。此外通过关注有限总体在数据中可能被完全或大量抽样本文获得的标准误差比那些旨在衡量无限超级总体特征不确定性的标准误差小。在本文提出的框架下推导出最小二乘法和固定效应估计的大样本方差并表明它们与稳健方差和聚类方差都有很大不同。本文提出了两个大样本方差的估计方法一个是分析性的一个是基于再抽样bootstrap方法的。对于美国收入的应用本文建议产生的标准误差比稳健标准误差大得多但比传统版本的聚类标准误差小得多。
2、传统聚类标准误调整的几个误解
本文用该框架来强调围绕聚类调整的三个常见误解。第一个误解是对聚类的需求取决于属于同一聚类单位的残差之间是否存在非零相关性。本文表明这种相关性存在并不意味着需要使用聚类调整。第二个误解是在不需要聚类调整的情况下使用聚类调整是没有坏处的其含义是如果聚类标准误差有区别就应该聚类。为了说明这两种说法都是不正确的请考虑下面这个简单例子。假设根据感兴趣总体的随机抽样用一个变量的样本平均值来估计它的总体平均值。假设总体可以被划分为多个聚类如地理单位。如果结果在聚类中是正相关的那么聚类方差将大于稳健方差。然而标准抽样理论直接意味着如果单位是从总体中随机抽样的就没有必要进行聚类。在这种情况下聚类的危害在于置信区间会不必要地保守可能会有很大的差距。第三个误解是研究人员只有两种选择要么完全调整聚类并使用聚类标准误差要么根本不调整标准误差而使用稳健标准误差。本文提出了新的方差估计器可以比稳健方差估计和聚类方差估计都大幅提高准确性。
3、传统聚类框架与本文框架的区别
在传统的基于模型的计量经济学框架中研究者对结果变量的模型误差分量结构采取了立场。例如假设按照Moulton1986 1987 的说法研究者提出了一个随机效应模型在州一级有随机效应。在这种情况下一个重复抽样的思想实验需要对每个样本从其分布中抽取不同的状态随机效应值。这种基于模型的方法意味着如果使用样本平均值来估计总体平均值即使样本是个体的随机样本而不是聚类样本也需要在州一级对标准误差进行聚类。基于模型的计量经济学框架在聚类方面的一个缺点是经验研究者需要对其模型的误差成分的结构进行表态。
计量经济学文献中经常引用的第二个聚类框架是以抽样机制为动机在第一阶段从一个无限大的总体中随机选择聚类然后在第二阶段从被抽样的聚类中随机抽出单位或保持一个聚类中的所有单位。虽然这个框架适合于其发源地——调查分析中的一些应用Kish1995 Thompson2012 但本文认为它不适合经济学家和其他社会科学家分析的许多数据集。在经济学的许多应用中研究人员从他们感兴趣的所有聚类中观察单位例如美国的所有州基于随机抽样的框架并不适用于大量聚类总体中的一小部分。
上述两种传统的聚类推理框架都没有完全纳入聚类的设计方面。缺少设计成分是使它们不适合于推断处理效应的原因。为了深入了解分配机制对处理效应估计标准误差的重要性请考虑一个环境即从总体中随机抽样的个体但处理是在聚类水平上分配的同一聚类中的所有人都有相同的处理值。假设所关注的数量是总体平均处理效应。对处理的聚类分配等同于对潜在结果的聚类抽样。由于感兴趣的参数取决于潜在结果的平均值而这些结果是以聚类方式抽样的因此在这种情况下即使个别观察值是随机抽样的也需要标准误差聚类。在这种情况下本文聚类推断框架在精神上与上一段描述的抽样框架很接近但它明确地包含了一个设计部分。
通过将注意力从结果数据生成过程的参数转移到手头总体的平均处理效应上应用本文建议的研究者不需要对结果变量模型的误差分量结构采取立场来计算标准误差。相反所有与平均处理效应有关的估计值都是由抽样机制和分配机制产生的前者从总体中提取样本后者决定哪些单位接受处理。本文认为这是该框架在难以证明特定误差成分结构情况下的内在优势。
4、结论
本文提出了一个研究框架旨在解决一个与经验实践相关的核心问题应该在什么时候以及如何对标准误差进行聚类。与Abadie等2020一样本文将注意力从对数据生成过程即无限的超级总体的估计转移到对手头有限总体的平均处理效应的估计。本文表明在这个框架中关于何时以及如何进行标准误差聚类的决定只取决于抽样和分配过程的性质而不取决于结果变量中是否存在聚类内误差成分。本文推导出在聚类抽样的情况下平均处理效应的OLS和FE估计的大样本方差表达式在这种情况下聚类中的分配是随机的分配概率在不同聚类中可能有所不同。在这种情况下本文证明稳健标准误差可能太小而传统的聚类标准误差可能不必要地大。本文提出了两个新程序即CCV和TSCB可以用来在有大聚类和聚类中处理分配有足够变化的情况下计算更精确的标准误差这样聚类中的平均处理效应可以被精确估计。虽然CCV和TSCB是为这一特定环境设计的但该框架的一般原则对其他环境和估计者仍然有效。如果抽样不是聚类的标准误差应该在处理分配水平上聚类因为感兴趣的估计值取决于潜在结果而潜在结果的抽样只由分配机制决定。当被抽样聚类的比例不可忽略而且各聚类的平均处理效应存在差异时传统聚类标准误差可能会出现偏差本文提供了一个分析框架可以用来得出适当的标准误差。当抽样和分配是随机的无论总体中各单位结果的协方差结构如何聚类标准误差都是不合适的。在这种情况下如果存在大量的处理效应异质性并且样本代表了所关注总体的很大一部分那么稳健标准误差在大样本中是保守的。这种偏差可以用Abadie等2020的方法来纠正。为本文所介绍的抽样和分配过程以外的抽样和分配过程推导出标准误差公式是未来研究的一个重要途径。Rambachan和Roth2022 是这个方向的最新贡献。此外本文将分析限制在线性估计最小二乘法和固定效应。Xu2019 使用本文的思想和框架来研究非线性估计背景下的聚类问题。