问题背景:最符合人类直觉的想法是:把截获到的这批坦克编号算一个平均数,既然编号是连续均匀分布的,那么总数应该差不多是平均数的两倍左右。
数学真相:假设真实坦克总数为 \( N \),均匀分布的总体期望(平均值)为 \( \mu = \frac{N+1}{2} \)。根据矩法估计,我们用实际抽取的样本平均数 \( \bar{x} \) 来代替总体的期望,解方程即可得到估计量:
致命缺陷:虽然公式极其简单,但在小样本抽样时,它经常会给出一个小于截获最大编号的荒谬结果。例如:你截获了编号为 10, 20, 80 的三辆坦克,平均数是 36.6,公式预测总数为 72 辆。但你明明已经亲眼看到了 80 号坦克!这在逻辑上产生了自相矛盾。
问题背景:如果不用平均数,那我们从概率的角度反推:在所有的可能性中,总数 \( N \) 等于多少时,能让“我们恰好抓到目前这 \( k \) 辆坦克”的概率达到最大?
数学真相:从 \( N \) 辆坦克中抽出特定的 \( k \) 辆,概率为 \( 1 / \binom{N}{k} \)。要让这个概率值最大,分母就必须尽可能小。而 \( N \) 的物理下限,就是我们观测到的最大编号 \( m \)。
致命缺陷:极大似然估计彻底忽略了那些未被观测到的隐藏坦克。它极其保守地认为“我看到的最大的就是敌军的全部”。这是一个严格向下有偏 (Biased) 的估计量,在实战中永远会低估敌军的真实兵力。
问题背景:我们需要一个近乎完美的公式:它既不能违背常理(预测值必须 \(\ge m\)),又能在长期抽样验证中保持零误差(无偏),并且方差还要尽可能小。
数学真相:在均匀分布模型中,样本的最大值 \( m \) 包含着关于总数 \( N \) 的全部有效信息,在统计学中这被称为“充分统计量” (Sufficient Statistic)。统计学家发现,\( m \) 总是比 \( N \) 小一个平均间隙。通过严密的数学修正,将这个缺失的“间隙”补全,就得到了极其强悍的一致最小方差无偏估计量 (UMVUE):