工作文件

用随机森林预测美国的政策结果

工作文件系列

下载论文


在本文中,我们使用来自机器学习的随机森林分类器(RF)的补充工具来分析Gilens数据集。

由Gilens,Page等人精心策划和分析的详细数据集涵盖了美国政府二十年的立法成果以及高收入人群,普通民众和不同利益群体的政策偏好。 (2014)。他们发现,高收入者的偏好与政策结果密切相关,而一般人群的偏好与政策结果没有显着关联,除非与高收入者的偏好联系在一起。他们的分析应用了经典的统计推断工具,尤其是逻辑回归。在本文中,我们使用来自机器学习的随机森林分类器(RF)的补充工具来分析Gilens数据集。

我们提出两个主要发现,分别涉及预测和推断: (i)可以通过仅参考第90个收入百分位的人和少数强大利益群体的偏好以及政策区域标签的模型,以大约70%的平衡精度来预测保持测试集。这些结果包括回溯,其中以1997年以前的案例训练的模型预测了“未来”(1997年之后)的案例。在这个详细但嘈杂的数据集中,准确性比基准(机会)提高20%,表明少数几个参与者在美国政策成果中具有很高的重要性,并且与大量研究一致,表明美国政府具有明显的富裕倾向。

(ii)RF模型的特征选择方法尤其可以识别利益群体(经济参与者)的显着子集。这些可用于进一步研究政府决策的动态,并提供一个RF特征选择方法在诸如此类数据集上进行推理的潜在价值的示例。