標本と推測——見えない母集団を推測する
レッスン4:標本と推測——見えない母集団を推測する
このレッスンで学ぶこと
- 母集団と標本の関係を整理する
- ランダムサンプリングの意味と、なぜそれが大事かを理解する
- 中心極限定理を「考え方の地図」として押さえる
- 標準誤差と標準偏差の違いを区別できる
- 信頼区間の「95%」が何の確率なのかを、正確に説明できる
レッスン 3 では、確率と確率分布の言葉を整えました。本レッスンから本格的に推測統計の中核に踏み込みます。「手元の限られたデータから、見えない全体を推測する」という、統計学の核心を考えていきます。本コース全体で最も「考え方」が鍵になる回かもしれません。数式は使わず、「同じ調査を繰り返したら何が起きるか」を想像することで、推測統計の論理を押さえていきます。
母集団と標本——統計学の基本構造
推測統計の出発点は、「母集団」と「標本」という 2 つの概念を区別することです。
母集団(population)
知りたい対象の「全体」のことです。例えば、
- 日本の働く人全員の年収
- ある製品の今年の全生産ロット
- 自社のすべての顧客の満足度
- これから新規登録するすべての見込み客の購買行動
母集団は、しばしば全部を見ることができません。コスト、時間、対象の破壊、未来の予測などの理由で、レッスン 1 で触れた全数調査の限界が立ちはだかります。
標本(sample)
母集団から取り出した「一部のデータ」のことです。
- 調査会社が選んだ 2,000 人の年収アンケート
- 製造ラインから抜き取った 50 個の検査
- 自社の中でアンケートに答えた 500 人の満足度
- 過去 1 年のキャンペーンに反応した 1 万人の購買履歴
標本のサイズ(n)は、推測の精度を大きく左右する要素です。
母集団と標本の関係を可視化
flowchart LR
A[母集団<br/>全体・見えない] --> B[標本抽出<br/>ランダムサンプリング]
B --> C[標本<br/>手元のデータ]
C --> D[推測<br/>信頼区間・検定]
D -. 不確かさ付きで戻る .-> A
推測統計は、この双方向の流れを「不確かさを伴って」整理する道具です。「標本から母集団は完全には見えないが、どのくらいの確からしさで何が言えるかは語れる」というのが、推測統計の発想の核です。
💡 ポイント 母集団は、しばしば「実在するが見えない全体」です。市場調査の対象になる「日本の生活者全員」、品質管理の対象になる「今期の製品全数」、A/B テストの対象になる「これから訪れる未来のユーザー」など、いずれも全部を観測することは現実的ではありません。だから標本から推測する、という発想が出てきます。
ランダムサンプリング——標本の質を支える
標本がどのように母集団から取り出されたかによって、推測の質は大きく変わります。最も大事なのが、ランダムサンプリング(random sampling) という考え方です。
ランダムサンプリングの定義
母集団のすべての要素が、等しい確率で標本に選ばれるような取り方です。「無作為抽出」とも訳されます。
例:日本の有権者全員から 2,000 人を選ぶとき、住民基本台帳のリストから等間隔で抜き出す(系統抽出)、地域や年代で層に分けて各層から比例で取る(層化抽出)、など。「自分で答えてくれる人」「アンケートサイトに登録している人」だけから集めると、ランダムではなくなります。
ランダムサンプリングが大事な理由
ランダムサンプリングが守られていれば、
- 標本の平均は、母集団の平均の「不偏な推定値」になる(平均的に正しい)
- 大数の法則により、標本のサイズを増やせば、推定の精度が上がる
- 中心極限定理が適用でき、後で出てくる信頼区間や検定の理論が成り立つ
ランダムでない標本(偏った標本)を使うと、サイズをいくら増やしても、推定値は母集団の真の値から系統的にズレ続けます。これを「選択バイアス(selection bias)」と呼びます。レッスン 8 で改めて扱いますが、ここでは「ランダムサンプリング = 推測統計の前提」と覚えてください。
⚠️ 注意 現実のビジネス現場で、純粋なランダムサンプリングを実現するのは難しい場面が多いです。「自社の既存顧客アンケート」「自社サイトに訪れた人の行動ログ」は、母集団から見れば偏っている可能性が高いのです。本コースで学ぶ推測統計の手法は、「ランダムサンプリングが前提」だと最初に意識すると、結論の限界を見極めやすくなります。
大数の法則——「たくさん集めれば、平均は安定する」
レッスン 3 で触れた頻度主義的確率の基礎にもなる、シンプルだが強力な定理があります。「大数の法則(law of large numbers)」です。
大数の法則は、次のように述べられます。
同じ条件で観測を繰り返すと、観測の平均値は、観測回数を増やすほど、母集団の真の平均に近づいていく。
例えば、コインを 10 回投げると表が 7 回出ることもあります(表の割合 = 0.7)が、10,000 回投げると表の割合は 0.5 にほぼ収束します。
ビジネスでも、「サンプル数が少ないと結果が安定しない」「数を増やすほど推定が正確になる」という直感は、大数の法則に基づいています。
🔰 初学者の方へ 「サンプル数が大きいほど安定する」と聞くと、「では何件あれば十分なのか」と気になるはずです。これは推測したい量や精度の要求によりますが、本レッスンの後半で扱う「標準誤差」が、その目安を考える道具になります。
中心極限定理——推測統計の心臓部
ここからが、本レッスンの山場です。中心極限定理(central limit theorem, CLT) は、推測統計のほぼすべての手法を支える、極めて重要な定理です。
中心極限定理の主旨
ざっくり言うと、こうです。
元のデータの分布が何であっても、そこからランダムに取った標本の平均は、標本サイズが十分大きければ、ほぼ正規分布に従う。
ここで起きていることは、実は「驚くべきこと」です。元のデータが正規分布でなくても、歪んでいても、二項分布でも、ポアソン分布でも、なんなら奇妙な形でも——その「標本平均」を多数考えると、その分布は正規分布に近づくのです。
想像してみてください
具体例で想像します。日本のある SaaS サービスの月間利用時間(個人ユーザー)が、極端に右に歪んだ分布になっているとします。多くのユーザーは月数時間、少数のヘビーユーザーは月数百時間。元の分布は、釣り鐘型ではなく、右に長い裾を引く形です。
ここで、1,000 人のランダムサンプルを取って平均を出します。これが「標本 1 」の平均。 次に、別の 1,000 人のランダムサンプルを取って、平均を出します。これが「標本 2 」の平均。 さらに、別の 1,000 人……というふうに、「標本平均」を 10,000 回繰り返したとします。
すると、それら 10,000 個の「標本平均」を集めたヒストグラムは、ほぼ正規分布の形になります。元の利用時間の分布が右に歪んでいても、「標本平均の分布」は釣り鐘型に揃ってくる、というのが中心極限定理の核です。
なぜこれが推測統計を支えるか
中心極限定理があるおかげで、
- 元のデータの分布が何であろうと、「標本平均」を扱う限り正規分布の発想が使える
- 信頼区間の計算ができる(正規分布の性質を利用)
- 仮説検定の論理が成り立つ
- t 検定、分散分析、回帰分析など、多くの手法が成立する
逆に言えば、中心極限定理が成り立たないような状況(標本サイズが極端に小さい、極端な外れ値が多いなど)では、推測統計の手法をそのまま使うと推定が外れる可能性があります。
💡 ポイント 中心極限定理は、推測統計の「土台の土台」です。本レッスンで「考え方の地図」を持っておくと、レッスン 5 以降の信頼区間や検定の話が、地に足のついた理解になります。
標準誤差——「標本平均の不確かさ」
標準誤差(standard error)は、初学者がよく標準偏差と混同する概念です。区別しておきます。
標準偏差と標準誤差の違い
| 用語 | 意味 |
|---|---|
| 標準偏差(standard deviation, SD) | 元のデータ 1 個 1 個のばらつき |
| 標準誤差(standard error, SE) | 標本平均の、母集団平均からのばらつき(推定の不確かさ) |
両者の関係は、おおよそ次のように覚えてください。
標準誤差 ≈ 標準偏差 ÷ √標本サイズ
つまり、標本サイズ n を大きくすると、標準誤差は小さくなります。n を 4 倍にすると、標準誤差は半分になります(√4 = 2 で割られるため)。これが「サンプル数を増やすほど推定が正確になる」の具体的なメカニズムです。
例で確認
ある SaaS の月間利用時間が、標準偏差 100 分のデータだとします。
- 標本サイズ 100 のとき:標準誤差 = 100 ÷ √100 = 10 分
- 標本サイズ 400 のとき:標準誤差 = 100 ÷ √400 = 5 分
- 標本サイズ 10,000 のとき:標準誤差 = 100 ÷ √10,000 = 1 分
つまり、標本サイズを 100 倍にしても、推定の不確かさは 10 分の 1 にしかなりません。「サンプルを増やせば増やすほど良い」ですが、増やすコストとリターンが釣り合うところで止める判断も必要、ということです。
信頼区間——「95%」の正確な意味
信頼区間(confidence interval)は、ビジネスの現場で最もよく使われる推測統計の概念の 1 つです。同時に、最も誤解されやすい概念でもあります。
信頼区間の正しい説明
ある推定値(例えば「顧客満足度の平均は 7.2 点」)に対して、95% 信頼区間が「6.9〜7.5 点」と算出されたとします。これの正しい解釈は、次のようなものです。
同じ手続きで標本を取り直し、毎回 95% 信頼区間を作る作業を多数回繰り返すと、そのうちの 95% の信頼区間は、母集団の真の平均を含む。
つまり、「95% 信頼区間」の 95% は、「区間を作る手続きの成功率」のような確率です。
信頼区間の誤った解釈
次の解釈は、頻度主義の立場では誤りです(厳密には、ベイズ統計の立場では別の解釈もありえます)。
- ❌「真の値が、この区間内にある確率が 95%」
- ❌「この区間にデータの 95% が入る」
- ❌「次に標本を取ると、95% の確率で同じ区間が得られる」
なぜ「真の値がこの区間にある確率」と言えないかというと、頻度主義では「真の値」は固定された値(変動しない)で、確率の対象は「区間を作る手続き」だからです。
⚠️ 注意 信頼区間の正確な意味は、専門家でも口にするのが難しいくらい繊細です。実務では「95% の確からしさで、真の値はおおよそこの範囲」と簡易的に伝えても、誤解を生まないケースが多いでしょう。ただし、厳密な議論や論文の文脈では、「区間を作る手続きの成功率」というニュアンスを意識する必要があります。
ビジネス現場での実用
信頼区間が最も役立つのは、「点推定値だけでは判断に迷う」場面です。
- A/B テストで「施策 B の方が平均購入額が 5% 高い」と聞いたとき、95% 信頼区間が「±2%」なら明確な差を期待できますが、「±10%」なら結論を保留すべきかもしれません
- 顧客満足度サーベイで「平均 7.0 点」と報告されたとき、信頼区間が「6.5〜7.5」なら 7 程度と言えますが、「3〜10」なら何も言えていません
信頼区間の幅が、結論の確からしさを物語ります。点推定値だけでなく、必ず信頼区間(または標準誤差)をセットで見る習慣が、推測統計の実用の基本です。
講師の現場メモ:「自社アンケートの結果は世間とは違う」と気づいた日
私(牧野)が事業会社で SaaS のグロース分析を担当していたころの話です。あるとき経営から「顧客満足度を測りたい」と要望があり、社内チームでアンケートを設計し、既存顧客全員にメール送信しました。回答率は約 20%、得られた回答 500 件で「平均満足度 8.2 点」という結果が出ました。
経営報告では「うちの顧客満足度は高い」という結論で進みかけました。私は会議直前に、ふと「この 500 人は、回答してくれた人=うちのサービスに好意的な人に偏っているのではないか」と引っかかりました。
調べてみると、過去 1 年で解約した元顧客や、利用頻度が極端に低い休眠顧客は、回答率がほぼ 0% でした。「平均満足度 8.2 点」の対象は、「ある程度満足しており、サービスを使い続けていて、かつアンケートに答える余裕がある人」たちでした。
これは、本レッスンで触れた選択バイアスの典型例です。標本がランダムではなく、特定の特徴を持つ層に偏っているため、母集団(全顧客)の真の満足度ではなく、「満足している層の中での満足度」を測っていたわけです。
私はその指摘を含めて経営報告を作り直し、「回答者の偏りを補正した推定では、平均満足度は 6.5〜7.0 点程度と考えるのが妥当」という結論に直しました。さらに「休眠・解約層をターゲットにした別調査を打って、母集団全体の像を補う」という追加施策も提案しました。
このときに痛感したのが、「サンプルサイズを 500 にしただけでは、推測は正しくならない」ということでした。500 件が母集団からランダムに取られていないと、ランダムサンプリングの前提が崩れ、推測統計の手法の効力は弱まります。本コースの読者にも、「数を集める前に、母集団との関係を確認する」発想を持ち帰ってほしいと願っています。
まとめ
このレッスンでは、以下のことを学びました。
- 推測統計の基本構造は、母集団(見えない全体)と標本(手元のデータ)の関係
- ランダムサンプリングは、推測統計の手法すべての前提。偏った標本では選択バイアスが生じる
- 大数の法則:観測を増やすほど、平均は母集団の真の値に近づく
- 中心極限定理:元のデータの分布が何であれ、標本平均は標本サイズが十分大きければ正規分布に近づく
- 標準誤差は「標本平均の不確かさ」。標準偏差 ÷ √n でおおよそ表せる
- 標本サイズ n を 4 倍にすると、標準誤差は半分になる(√n に反比例)
- 信頼区間の「95%」は「同じ手続きで区間を作る作業を多数繰り返すと、95% は真の値を含む」という意味
- 信頼区間の幅が、結論の確からしさを物語る。点推定値だけでなくセットで見るのが基本
次のレッスンでは、推測統計のもう一つの中核「仮説検定」に踏み込みます。帰無仮説、対立仮説、p 値、有意水準、第一種・第二種の過誤、効果量——よく見かけるが誤用されがちな概念を、考え方の地図として押さえていきます。
確認クイズ
このレッスンの理解度をチェックしましょう。