🎯 点击查看 GeoGebra 动态交互演示
统计学 · 数据分析与逻辑悖论
辛普森悖论:局部占优等于全局占优吗?
简介:分组对比中占优,总体上一定占优吗?答案是:不一定!早在 20 世纪初,当人们为探究两种因数的相关性而进行分组研究时,就发现了这种反常现象。直到1951年,英国统计学家辛普森才正式对这一现象给予理论解释。本文将带你通过严密的数学推导,揭开“辛普森悖论”的面纱。
1. 学院录取的分组迷局
假定某大学要对比男生和女生的录取情况。以下是理学院、文学院两组录取的数据反馈:
| 学院 |
男生申请(人) |
男生录取(录取率) |
女生申请(人) |
女生录取(录取率) |
| 理学院 |
50 |
20(40%) |
30 |
10(33%) |
| 文学院 |
40 |
30(75%) |
70 |
50(71%) |
从分组录取结果看,男生在理学院和文学院的录取率都优于女生:
\[ 理学院:40\% > 33\% \]
\[ 文学院:75\% > 71\% \]
2. 汇总数据的反常逆转
既然男生在每个学院都表现得更好,那他们是不是在全校总体录取上“全面碾压”女生呢?我们不妨把理学院和文学院的数据汇总,算一下总计:
男生的总体录取率为:
\[ P_{男总} = \frac{20 + 30}{50 + 40} = \frac{50}{90} \approx 55.6\% \]
女生的总体录取率为:
\[ P_{女总} = \frac{10 + 50}{30 + 70} = \frac{60}{100} = 60.0\% \]
此时我们震惊地发现,汇总总计后:\( 55.6\% < 60.0\% \),在所有学院中录取率都落后的女生,全校总体录取率竟然反超了男生!
3. 数学表述与悖论真相
辛普森悖论的数学表述为,存在如下可能性:当满足局部拆分对比时,
\[ \frac{a_1}{b_1} > \frac{c_1}{d_1} \quad \text{且} \quad \frac{a_2}{b_2} > \frac{c_2}{d_2} \]
但在分子分母合并后,不等号的方向却完全发生了逆转:
\[ \frac{a_1 + a_2}{b_1 + b_2} < \frac{c_1 + c_2}{d_1 + d_2} \]
为何会产生如此不可思议的错觉?真相在于权重的分配不平衡:
仔细观察数据会发现,理学院整体录取率偏低(属于“难考”学院),而文学院整体录取率高(属于“易考”学院)。
男生把大量的申请名额(50人)投入了竞争激烈、极难考取的理学院,严重拉低了平均分;而女生聪明地把大量申请名额(70人)分配到了极易考取的文学院。正是这种潜在的“干扰变量”(报考偏好),造就了总体录取率上的反超。
最终结论:辛普森悖论提醒我们,加权平均的数学特性可能会掩盖事实的真相。在数据分析时,如果只看总体的宏观汇总,而不深入剖析潜藏在内部分组中的“权重差异”与干扰因素,极有可能得出南辕北辙的错误推论!