レッスン3：確率と確率分布——統計学の言葉を整える

このレッスンで学ぶこと

統計学が前提とする「確率」の基本的な考え方を理解する
確率変数・離散分布・連続分布という統計学の語彙に親しむ
二項分布を「成功と失敗」のシンプルなモデルとして使えるようになる
正規分布の形と「68-95-99.7 ルール」を直感で押さえる
なぜ正規分布が統計学で多用されるのかを理解する

レッスン 1〜2 では、統計学の役割と記述統計の基本指標を整理しました。本レッスンは、いよいよ推測統計に進むための「言葉」を揃える回です。確率・確率変数・確率分布・正規分布——いずれも教科書では数式から入りやすい単語ですが、本コースは「考え方の地図」として押さえます。レッスン 4 以降の標本・検定・回帰の議論で、繰り返し戻ってくる土台になります。

確率とは何か——3 つの捉え方

確率（probability）と聞いて、最初に思い浮かぶのは「サイコロで 1 の目が出る確率は 6 分の 1」のような例ではないでしょうか。確率には、実は大きく分けて 3 つの捉え方があります。本コースで詳細な哲学論争には踏み込みませんが、最初に整理しておきます。

①古典的確率（理論的確率）

すべての場合の数が同じくらい起きるとして、「目的の場合の数 ÷ 全体の場合の数」と決める考え方です。サイコロや、よくシャッフルされたトランプの例が典型例です。

②頻度主義的確率

同じ試行を非常に多く繰り返したとき、目的の結果が出る割合（頻度）が、ある値に近づいていく、と考える捉え方です。例えば「コインを 10,000 回投げたら、約 5,000 回表が出る」という発想です。実務の統計学（本コースの本筋）は、ほぼこの頻度主義の立場で進みます。

③主観確率（ベイズ的確率）

「人の信念の度合い」として確率を捉える考え方です。「明日雨が降る確率は 70%」のように、繰り返せない一回限りの事象にも確率を当てはめられる立場です。レッスン 8 で「ベイズ統計の入口」として再度触れます。

💡 ポイント 本コースの推測統計は、主に「頻度主義」の立場です。「同じ調査を何度も繰り返したら、結果はどのくらいばらつくか」を想像する発想が、レッスン 4 以降で繰り返し出てきます。ベイズ統計はまた別の道具立てですが、本コースでは入門の範囲内で軽く触れる程度にとどめます。

確率変数——「結果がいくつかありえる数」

確率変数（random variable）は、推測統計の頻出語彙です。難しそうな響きですが、考え方はシンプルです。

確率変数とは、「結果がいくつかありえて、それぞれに確率がついている数」のことです。例えば、

サイコロの出る目（1〜6 のどれかが、6 分の 1 ずつの確率で出る）
ある製品の不良率調査で 100 個中の不良品数（0〜100 のどれかが、ある確率で出る）
顧客 1 人あたりの月間購買額（0 円〜数十万円のどれかが、ある確率で出る）

これらは、観測する前は「いくつになるか確定していない」が、観測すると 1 つの値に決まる数です。確率変数は、確率分布（後述）とセットで扱うのが基本です。

🔰 初学者の方へ 「確率変数」と「観測値」は混同しやすい言葉です。確率変数は「これから観測するときに、どんな値が出うるか」のモデル。観測値は「実際に取った 1 つの数字」です。確率変数は、観測前の「ぼんやりした可能性の集合」、と捉えるとよいでしょう。

確率分布——確率の「形」を捉える

確率分布（probability distribution）は、確率変数がどの値をどれくらいの確率で取るかを、まとめて表したものです。表で書くこともできますし、グラフで書くこともできます。

確率分布は、データの種類によって 2 つに分類されます。

①離散分布（discrete distribution）

数えられる値（整数など）を取る確率変数の分布です。

例：

サイコロの出る目（1, 2, 3, 4, 5, 6）
ある期間に発生する不良品数（0, 1, 2, ...）
アンケートの 1〜5 段階回答

代表的な離散分布：二項分布、ポアソン分布、幾何分布など。

②連続分布（continuous distribution）

連続的な値（小数・分数を含む）を取る確率変数の分布です。

例：

顧客の身長（150.3cm、165.7cm など）
製品の重量（98.45g、100.12g など）
待ち時間（3.2 分、5.8 分など）

代表的な連続分布：正規分布、t 分布、F 分布、カイ二乗分布など。

本コースでは、特に二項分布と正規分布を取り上げます。

二項分布——「成功と失敗」のシンプルなモデル

二項分布（binomial distribution）は、最も基本的な離散分布の 1 つです。

二項分布が当てはまる場面

次の条件をすべて満たす場面で使われます。

試行が独立に何度も繰り返される（n 回）
各試行の結果は「成功」または「失敗」の 2 つだけ
成功の確率 p は、毎回同じ

例：

コインを 10 回投げて、表が出る回数（n = 10、p = 0.5）
100 個の製品を検査して、不良品の数（n = 100、p = 不良率）
1,000 通のメール広告で、開封される数（n = 1,000、p = 開封率）

二項分布のイメージ

二項分布の形は、p と n によって変わりますが、おおよそ「成功回数の最も起きやすいあたりにピークがあり、そこから左右に減っていく」山型になります。p = 0.5 のときは左右対称、p が 0.5 から離れると非対称になります。

n が十分大きい（目安として np と n(1-p) が両方 10 以上）になると、二項分布は正規分布で近似できます。これは、レッスン 4 で扱う中心極限定理の最も身近な例です。

📝 補足 「100 個中 95 個合格」と「1,000 個中 950 個合格」は、合格率はどちらも 95% ですが、推測統計の世界では情報量が違います。後者の方が標本数が多く、推定の幅（信頼区間）が狭くなります。二項分布は、その「不確かさの幅」を計算する出発点になります。

正規分布——統計学の主役

正規分布（normal distribution）は、統計学で最もよく使われる連続分布です。「ガウス分布」「釣り鐘型分布」とも呼ばれます。

正規分布の特徴

左右対称の釣り鐘型
中心の値（平均）が、最も起きやすい
中心から離れるほど、起きる確率は急速に小さくなる
形は「平均 μ」と「標準偏差 σ」の 2 つで完全に決まる

68-95-99.7 ルール

正規分布の最も覚えやすい性質が、この経験則です。

範囲	データが入る割合
平均 ± 1 標準偏差（μ ± 1σ）	約 68%
平均 ± 2 標準偏差（μ ± 2σ）	約 95%
平均 ± 3 標準偏差（μ ± 3σ）	約 99.7%

例えば、ある製品の重量が「平均 100g、標準偏差 5g」の正規分布に従うとします。すると、

100g ± 5g（95g〜105g）の範囲に、約 68% の製品が入る
100g ± 10g（90g〜110g）の範囲に、約 95% の製品が入る
100g ± 15g（85g〜115g）の範囲に、約 99.7% の製品が入る

製造業の品質管理で、「3σ を超えると要注意」「6σ を超えるとほぼ起きえない」と言われるのは、この性質が背景にあります。

⚠️ 注意 68-95-99.7 ルールは、データが正規分布に従っている場合の話です。実際のビジネスデータは右に歪んでいることが多く、正規分布に従わないことも珍しくありません。「平均 ± 2 標準偏差で 95%」と機械的に当てはめると、実態と外れる場合があります。データが正規分布に近いかどうか（ヒストグラムで確認するなど）を、必ず先に見るのが大事です。

なぜ正規分布が多用されるか——3 つの理由

正規分布は、なぜ統計学でこれほど多く出てくるのでしょうか。本レッスンでは 3 つの理由を整理しておきます。

①現実のデータが正規分布に近いことがある

人の身長、製造工程の寸法、測定誤差、IQ スコアなど、多くの自然現象や測定値が、近似的に正規分布に従うことが知られています。「複数の小さな要因がランダムに加わってできる量」は、正規分布に近くなる傾向があります。

②標本平均は、正規分布に近づく（中心極限定理）

これが、推測統計で正規分布が中心的に使われる最大の理由です。元のデータが正規分布でなくても、そこから「ランダムに取った標本の平均」を多数集めると、その平均の分布は正規分布に近づいていく、という驚くべき性質があります。これを中心極限定理（central limit theorem）と呼びます。詳しくはレッスン 4 で扱います。

③数学的に扱いやすい

正規分布は、数式や確率計算が比較的扱いやすい性質を持ちます。多くの統計手法（t 検定、分散分析、回帰分析など）は、正規分布の仮定を前提に設計されています。仮定が成り立っているとき、計算と解釈がシンプルになります。

💡 ポイント 正規分布は「現実のデータがそうである」というより、「標本平均がそう振る舞う」という性質によって、推測統計の主役になっています。元のデータの分布が何であろうと、「標本の平均」を扱う限り正規分布の発想が使えるのは、推測統計の強力な武器です。

講師の現場メモ：「正規分布だと思って計算したらズレた」金融現場の話

私（牧野）が事業会社のデータサイエンス部門で、金融リスクの分析を担当していたころの話です。あるとき、株式の日次収益率（前日比のリターン）を扱う案件で、リスク指標を計算する必要がありました。

教科書的には「日次収益率は正規分布に従うと仮定する」ことが多く、私もその仮定で計算を進めていました。標準偏差を求め、「99% の確率でこの範囲内に収まる」という結論を出し、リスク管理部門に共有しました。

数か月後、市場が大きく動いた日があり、私の計算では「100 年に 1 回起きるかどうか」とされた損失水準を、実際に超えてしまいました。リスク管理部門から「計算が甘いのではないか」という指摘を受け、データを引き直しました。

調べてみると、日次収益率の実際の分布は、正規分布よりも「裾が厚い（極端な値が起きる確率が、正規分布の予測より高い）」分布だったのです。専門的には「ファットテール（fat tail）」と呼ばれる現象で、金融データではよく知られた性質でした。私はその知識を持っていながら、教科書的な「正規分布の仮定」で計算してしまっていました。

その経験から私は、新しいデータに触れるとき、「まずヒストグラムを描いて、本当に正規分布で良いかを確認する」習慣を徹底するようになりました。データが正規分布に従わない場合、t 分布の自由度を変える、ロバストな指標を使う、シミュレーションで分布を生成するなど、別の道具を選ぶ必要があります。

このときに痛感したのが、「正規分布は便利だが、当てはまるかどうかは別」ということでした。本コースの読者にも、「正規分布を仮定する前に、データの分布の形を確認する」発想を、ぜひ持ち帰っていただきたいと思います。

まとめ

このレッスンでは、以下のことを学びました。

確率には、古典的・頻度主義的・主観的の 3 つの捉え方がある。本コースは頻度主義が主軸
確率変数は「結果がいくつかありえて、それぞれに確率がついている数」
確率分布には離散分布（数えられる値）と連続分布（連続的な値）がある
二項分布は「成功と失敗」が独立に繰り返されるシーンに使う基本的な離散分布
正規分布は左右対称の釣り鐘型で、平均 μ と標準偏差 σ で形が決まる
68-95-99.7 ルール：μ±1σ で 68%、μ±2σ で 95%、μ±3σ で 99.7%
正規分布が多用される理由：①現実のデータが正規分布に近いことがある、②標本平均が正規分布に近づく（中心極限定理）、③数学的に扱いやすい
ただし、データが正規分布に従わないケースも多い（ファットテール、歪んだ分布）。仮定の確認が必須

次のレッスンでは、推測統計の中核となる「標本と母集団」の関係を扱います。なぜ標本から全体を推測できるのか、中心極限定理が推測統計に何をもたらすのか、信頼区間とは何の確率なのかを、考え方の軸で押さえていきます。

確認クイズ

このレッスンの理解度をチェックしましょう。