標本の必要なサイズについて。
国民の意識をアンケートで確認しようとしたときに、全国民にアンケートを答えてもらう必要はない。ごく一部の人だけでよい。では何人か?統計では、全国民を母集合、アンケートに答える人を標本集合とみなす。
問題を、次のようにする。「ある母集合の平均値を小数点以下 N 桁で求めたい。このとき必要な標本数はいくつか?ただし、標本は無作為に得られるものとし、信頼度は95%とする。」

これを確かめるプログラムは、下記のようになる。

for (int i = 1; i <= 3; ++i)
  Console.WriteLine("{0} {1}", i, CalcN(10, i, 0.95));

static int CalcN(double v, int dec, double rel)
{
  var t = DistributionFunction.NormInverseCDF(1 - (1 - rel) / 2);
  var x = 2 * t / Math.Pow(10, -dec);
  return (int)Math.Round(v * x * x);
}

まず、必要な標本数は、一般にある程度大きい(10以上)。このとき、標本は無作為なので、平均の分布は大数の法則からほぼ正規分布となる。従って、信頼区間はスチューデント分布から計算できるが、同じく標本数が十分大きい(1000以上)と仮定するならば、正規分布を用いてもよい。
また、正確に小数点以下N桁とすると、平均の値により必要標本数がばらつく。 (例えば、3桁欲しいときに、母集合の平均が100.1230と100.1235では何倍もの差になる)
そこで、ここでは信頼区間の幅がN桁目が1の値以下ということにする。例えば、3桁ならば、信頼区間が 0.001 以下でよいとする。これは、N桁目に誤差が1あってもよいということである。

こうすると必要標本数は、約「1.54×10^(N*2+1)*母集団の分散」である。例えば、母集団の分散が10の時に信頼度95%の信頼区間を0.1以下にしたいなら約15400個の無作為な標本が必要となる。通常母集団の分散は不明であるが、十分大きな標本集合の不偏分散を使えばいいだろう。