🎯 点击查看 GeoGebra 动态交互演示
统计学 · 数据分析与逻辑悖论

辛普森悖论:局部占优等于全局占优吗?

简介:分组对比中占优,总体上一定占优吗?答案是:不一定!早在 20 世纪初,当人们为探究两种因数的相关性而进行分组研究时,就发现了这种反常现象。直到1951年,英国统计学家辛普森才正式对这一现象给予理论解释。本文将带你通过严密的数学推导,揭开“辛普森悖论”的面纱。

1. 学院录取的分组迷局

假定某大学要对比男生和女生的录取情况。以下是理学院、文学院两组录取的数据反馈:

学院 男生申请(人) 男生录取(录取率) 女生申请(人) 女生录取(录取率)
理学院 50 20(40%) 30 10(33%)
文学院 40 30(75%) 70 50(71%)

从分组录取结果看,男生在理学院和文学院的录取率都优于女生:

\[ 理学院:40\% > 33\% \] \[ 文学院:75\% > 71\% \]

2. 汇总数据的反常逆转

既然男生在每个学院都表现得更好,那他们是不是在全校总体录取上“全面碾压”女生呢?我们不妨把理学院和文学院的数据汇总,算一下总计:

男生的总体录取率为:

\[ P_{男总} = \frac{20 + 30}{50 + 40} = \frac{50}{90} \approx 55.6\% \]

女生的总体录取率为:

\[ P_{女总} = \frac{10 + 50}{30 + 70} = \frac{60}{100} = 60.0\% \]

此时我们震惊地发现,汇总总计后:\( 55.6\% < 60.0\% \),在所有学院中录取率都落后的女生,全校总体录取率竟然反超了男生!

3. 数学表述与悖论真相

辛普森悖论的数学表述为,存在如下可能性:当满足局部拆分对比时,

\[ \frac{a_1}{b_1} > \frac{c_1}{d_1} \quad \text{且} \quad \frac{a_2}{b_2} > \frac{c_2}{d_2} \]

但在分子分母合并后,不等号的方向却完全发生了逆转:

\[ \frac{a_1 + a_2}{b_1 + b_2} < \frac{c_1 + c_2}{d_1 + d_2} \]

为何会产生如此不可思议的错觉?真相在于权重的分配不平衡
仔细观察数据会发现,理学院整体录取率偏低(属于“难考”学院),而文学院整体录取率高(属于“易考”学院)。
男生把大量的申请名额(50人)投入了竞争激烈、极难考取的理学院,严重拉低了平均分;而女生聪明地把大量申请名额(70人)分配到了极易考取的文学院。正是这种潜在的“干扰变量”(报考偏好),造就了总体录取率上的反超。

最终结论:辛普森悖论提醒我们,加权平均的数学特性可能会掩盖事实的真相。在数据分析时,如果只看总体的宏观汇总,而不深入剖析潜藏在内部分组中的“权重差异”与干扰因素,极有可能得出南辕北辙的错误推论!