確率と確率分布——統計学の言葉を整える
レッスン3:確率と確率分布——統計学の言葉を整える
このレッスンで学ぶこと
- 統計学が前提とする「確率」の基本的な考え方を理解する
- 確率変数・離散分布・連続分布という統計学の語彙に親しむ
- 二項分布を「成功と失敗」のシンプルなモデルとして使えるようになる
- 正規分布の形と「68-95-99.7 ルール」を直感で押さえる
- なぜ正規分布が統計学で多用されるのかを理解する
レッスン 1〜2 では、統計学の役割と記述統計の基本指標を整理しました。本レッスンは、いよいよ推測統計に進むための「言葉」を揃える回です。確率・確率変数・確率分布・正規分布——いずれも教科書では数式から入りやすい単語ですが、本コースは「考え方の地図」として押さえます。レッスン 4 以降の標本・検定・回帰の議論で、繰り返し戻ってくる土台になります。
確率とは何か——3 つの捉え方
確率(probability)と聞いて、最初に思い浮かぶのは「サイコロで 1 の目が出る確率は 6 分の 1」のような例ではないでしょうか。確率には、実は大きく分けて 3 つの捉え方があります。本コースで詳細な哲学論争には踏み込みませんが、最初に整理しておきます。
①古典的確率(理論的確率)
すべての場合の数が同じくらい起きるとして、「目的の場合の数 ÷ 全体の場合の数」と決める考え方です。サイコロや、よくシャッフルされたトランプの例が典型例です。
②頻度主義的確率
同じ試行を非常に多く繰り返したとき、目的の結果が出る割合(頻度)が、ある値に近づいていく、と考える捉え方です。例えば「コインを 10,000 回投げたら、約 5,000 回表が出る」という発想です。実務の統計学(本コースの本筋)は、ほぼこの頻度主義の立場で進みます。
③主観確率(ベイズ的確率)
「人の信念の度合い」として確率を捉える考え方です。「明日雨が降る確率は 70%」のように、繰り返せない一回限りの事象にも確率を当てはめられる立場です。レッスン 8 で「ベイズ統計の入口」として再度触れます。
💡 ポイント 本コースの推測統計は、主に「頻度主義」の立場です。「同じ調査を何度も繰り返したら、結果はどのくらいばらつくか」を想像する発想が、レッスン 4 以降で繰り返し出てきます。ベイズ統計はまた別の道具立てですが、本コースでは入門の範囲内で軽く触れる程度にとどめます。
確率変数——「結果がいくつかありえる数」
確率変数(random variable)は、推測統計の頻出語彙です。難しそうな響きですが、考え方はシンプルです。
確率変数とは、「結果がいくつかありえて、それぞれに確率がついている数」のことです。例えば、
- サイコロの出る目(1〜6 のどれかが、6 分の 1 ずつの確率で出る)
- ある製品の不良率調査で 100 個中の不良品数(0〜100 のどれかが、ある確率で出る)
- 顧客 1 人あたりの月間購買額(0 円〜数十万円のどれかが、ある確率で出る)
これらは、観測する前は「いくつになるか確定していない」が、観測すると 1 つの値に決まる数です。確率変数は、確率分布(後述)とセットで扱うのが基本です。
🔰 初学者の方へ 「確率変数」と「観測値」は混同しやすい言葉です。確率変数は「これから観測するときに、どんな値が出うるか」のモデル。観測値は「実際に取った 1 つの数字」です。確率変数は、観測前の「ぼんやりした可能性の集合」、と捉えるとよいでしょう。
確率分布——確率の「形」を捉える
確率分布(probability distribution)は、確率変数がどの値をどれくらいの確率で取るかを、まとめて表したものです。表で書くこともできますし、グラフで書くこともできます。
確率分布は、データの種類によって 2 つに分類されます。
①離散分布(discrete distribution)
数えられる値(整数など)を取る確率変数の分布です。
例:
- サイコロの出る目(1, 2, 3, 4, 5, 6)
- ある期間に発生する不良品数(0, 1, 2, ...)
- アンケートの 1〜5 段階回答
代表的な離散分布:二項分布、ポアソン分布、幾何分布など。
②連続分布(continuous distribution)
連続的な値(小数・分数を含む)を取る確率変数の分布です。
例:
- 顧客の身長(150.3cm、165.7cm など)
- 製品の重量(98.45g、100.12g など)
- 待ち時間(3.2 分、5.8 分など)
代表的な連続分布:正規分布、t 分布、F 分布、カイ二乗分布など。
本コースでは、特に二項分布と正規分布を取り上げます。
二項分布——「成功と失敗」のシンプルなモデル
二項分布(binomial distribution)は、最も基本的な離散分布の 1 つです。
二項分布が当てはまる場面
次の条件をすべて満たす場面で使われます。
- 試行が独立に何度も繰り返される(n 回)
- 各試行の結果は「成功」または「失敗」の 2 つだけ
- 成功の確率 p は、毎回同じ
例:
- コインを 10 回投げて、表が出る回数(n = 10、p = 0.5)
- 100 個の製品を検査して、不良品の数(n = 100、p = 不良率)
- 1,000 通のメール広告で、開封される数(n = 1,000、p = 開封率)
二項分布のイメージ
二項分布の形は、p と n によって変わりますが、おおよそ「成功回数の最も起きやすいあたりにピークがあり、そこから左右に減っていく」山型になります。p = 0.5 のときは左右対称、p が 0.5 から離れると非対称になります。
n が十分大きい(目安として np と n(1-p) が両方 10 以上)になると、二項分布は正規分布で近似できます。これは、レッスン 4 で扱う中心極限定理の最も身近な例です。
📝 補足 「100 個中 95 個合格」と「1,000 個中 950 個合格」は、合格率はどちらも 95% ですが、推測統計の世界では情報量が違います。後者の方が標本数が多く、推定の幅(信頼区間)が狭くなります。二項分布は、その「不確かさの幅」を計算する出発点になります。
正規分布——統計学の主役
正規分布(normal distribution)は、統計学で最もよく使われる連続分布です。「ガウス分布」「釣り鐘型分布」とも呼ばれます。
正規分布の特徴
- 左右対称の釣り鐘型
- 中心の値(平均)が、最も起きやすい
- 中心から離れるほど、起きる確率は急速に小さくなる
- 形は「平均 μ」と「標準偏差 σ」の 2 つで完全に決まる
68-95-99.7 ルール
正規分布の最も覚えやすい性質が、この経験則です。
| 範囲 | データが入る割合 |
|---|---|
| 平均 ± 1 標準偏差(μ ± 1σ) | 約 68% |
| 平均 ± 2 標準偏差(μ ± 2σ) | 約 95% |
| 平均 ± 3 標準偏差(μ ± 3σ) | 約 99.7% |
例えば、ある製品の重量が「平均 100g、標準偏差 5g」の正規分布に従うとします。すると、
- 100g ± 5g(95g〜105g)の範囲に、約 68% の製品が入る
- 100g ± 10g(90g〜110g)の範囲に、約 95% の製品が入る
- 100g ± 15g(85g〜115g)の範囲に、約 99.7% の製品が入る
製造業の品質管理で、「3σ を超えると要注意」「6σ を超えるとほぼ起きえない」と言われるのは、この性質が背景にあります。
⚠️ 注意 68-95-99.7 ルールは、データが正規分布に従っている場合の話です。実際のビジネスデータは右に歪んでいることが多く、正規分布に従わないことも珍しくありません。「平均 ± 2 標準偏差で 95%」と機械的に当てはめると、実態と外れる場合があります。データが正規分布に近いかどうか(ヒストグラムで確認するなど)を、必ず先に見るのが大事です。
なぜ正規分布が多用されるか——3 つの理由
正規分布は、なぜ統計学でこれほど多く出てくるのでしょうか。本レッスンでは 3 つの理由を整理しておきます。
①現実のデータが正規分布に近いことがある
人の身長、製造工程の寸法、測定誤差、IQ スコアなど、多くの自然現象や測定値が、近似的に正規分布に従うことが知られています。「複数の小さな要因がランダムに加わってできる量」は、正規分布に近くなる傾向があります。
②標本平均は、正規分布に近づく(中心極限定理)
これが、推測統計で正規分布が中心的に使われる最大の理由です。元のデータが正規分布でなくても、そこから「ランダムに取った標本の平均」を多数集めると、その平均の分布は正規分布に近づいていく、という驚くべき性質があります。これを中心極限定理(central limit theorem)と呼びます。詳しくはレッスン 4 で扱います。
③数学的に扱いやすい
正規分布は、数式や確率計算が比較的扱いやすい性質を持ちます。多くの統計手法(t 検定、分散分析、回帰分析など)は、正規分布の仮定を前提に設計されています。仮定が成り立っているとき、計算と解釈がシンプルになります。
💡 ポイント 正規分布は「現実のデータがそうである」というより、「標本平均がそう振る舞う」という性質によって、推測統計の主役になっています。元のデータの分布が何であろうと、「標本の平均」を扱う限り正規分布の発想が使えるのは、推測統計の強力な武器です。
講師の現場メモ:「正規分布だと思って計算したらズレた」金融現場の話
私(牧野)が事業会社のデータサイエンス部門で、金融リスクの分析を担当していたころの話です。あるとき、株式の日次収益率(前日比のリターン)を扱う案件で、リスク指標を計算する必要がありました。
教科書的には「日次収益率は正規分布に従うと仮定する」ことが多く、私もその仮定で計算を進めていました。標準偏差を求め、「99% の確率でこの範囲内に収まる」という結論を出し、リスク管理部門に共有しました。
数か月後、市場が大きく動いた日があり、私の計算では「100 年に 1 回起きるかどうか」とされた損失水準を、実際に超えてしまいました。リスク管理部門から「計算が甘いのではないか」という指摘を受け、データを引き直しました。
調べてみると、日次収益率の実際の分布は、正規分布よりも「裾が厚い(極端な値が起きる確率が、正規分布の予測より高い)」分布だったのです。専門的には「ファットテール(fat tail)」と呼ばれる現象で、金融データではよく知られた性質でした。私はその知識を持っていながら、教科書的な「正規分布の仮定」で計算してしまっていました。
その経験から私は、新しいデータに触れるとき、「まずヒストグラムを描いて、本当に正規分布で良いかを確認する」習慣を徹底するようになりました。データが正規分布に従わない場合、t 分布の自由度を変える、ロバストな指標を使う、シミュレーションで分布を生成するなど、別の道具を選ぶ必要があります。
このときに痛感したのが、「正規分布は便利だが、当てはまるかどうかは別」ということでした。本コースの読者にも、「正規分布を仮定する前に、データの分布の形を確認する」発想を、ぜひ持ち帰っていただきたいと思います。
まとめ
このレッスンでは、以下のことを学びました。
- 確率には、古典的・頻度主義的・主観的の 3 つの捉え方がある。本コースは頻度主義が主軸
- 確率変数は「結果がいくつかありえて、それぞれに確率がついている数」
- 確率分布には離散分布(数えられる値)と連続分布(連続的な値)がある
- 二項分布は「成功と失敗」が独立に繰り返されるシーンに使う基本的な離散分布
- 正規分布は左右対称の釣り鐘型で、平均 μ と標準偏差 σ で形が決まる
- 68-95-99.7 ルール:μ±1σ で 68%、μ±2σ で 95%、μ±3σ で 99.7%
- 正規分布が多用される理由:①現実のデータが正規分布に近いことがある、②標本平均が正規分布に近づく(中心極限定理)、③数学的に扱いやすい
- ただし、データが正規分布に従わないケースも多い(ファットテール、歪んだ分布)。仮定の確認が必須
次のレッスンでは、推測統計の中核となる「標本と母集団」の関係を扱います。なぜ標本から全体を推測できるのか、中心極限定理が推測統計に何をもたらすのか、信頼区間とは何の確率なのかを、考え方の軸で押さえていきます。
確認クイズ
このレッスンの理解度をチェックしましょう。