本文へスキップ
スキルアップカレッジ

確率と確率分布——統計学の言葉を整える

レッスン3:確率確率分布——統計学の言葉を整える

このレッスンで学ぶこと

  • 統計学が前提とする「確率」の基本的な考え方を理解する
  • 確率変数離散分布連続分布という統計学の語彙に親しむ
  • 二項分布を「成功と失敗」のシンプルなモデルとして使えるようになる
  • 正規分布の形と「68-95-99.7 ルール」を直感で押さえる
  • なぜ正規分布が統計学で多用されるのかを理解する

レッスン 1〜2 では、統計学の役割と記述統計の基本指標を整理しました。本レッスンは、いよいよ推測統計に進むための「言葉」を揃える回です。確率・確率変数・確率分布・正規分布——いずれも教科書では数式から入りやすい単語ですが、本コースは「考え方の地図」として押さえます。レッスン 4 以降の標本・検定・回帰の議論で、繰り返し戻ってくる土台になります。

確率とは何か——3 つの捉え方

確率(probability)と聞いて、最初に思い浮かぶのは「サイコロで 1 の目が出る確率は 6 分の 1」のような例ではないでしょうか。確率には、実は大きく分けて 3 つの捉え方があります。本コースで詳細な哲学論争には踏み込みませんが、最初に整理しておきます。

古典的確率(理論的確率)

すべての場合の数が同じくらい起きるとして、「目的の場合の数 ÷ 全体の場合の数」と決める考え方です。サイコロや、よくシャッフルされたトランプの例が典型例です。

頻度主義的確率

同じ試行を非常に多く繰り返したとき、目的の結果が出る割合(頻度)が、ある値に近づいていく、と考える捉え方です。例えば「コインを 10,000 回投げたら、約 5,000 回表が出る」という発想です。実務の統計学(本コースの本筋)は、ほぼこの頻度主義の立場で進みます。

主観確率(ベイズ的確率)

「人の信念の度合い」として確率を捉える考え方です。「明日雨が降る確率は 70%」のように、繰り返せない一回限りの事象にも確率を当てはめられる立場です。レッスン 8 で「ベイズ統計の入口」として再度触れます。

💡 ポイント 本コースの推測統計は、主に「頻度主義」の立場です。「同じ調査を何度も繰り返したら、結果はどのくらいばらつくか」を想像する発想が、レッスン 4 以降で繰り返し出てきます。ベイズ統計はまた別の道具立てですが、本コースでは入門の範囲内で軽く触れる程度にとどめます。

確率変数——「結果がいくつかありえる数」

確率変数(random variable)は、推測統計の頻出語彙です。難しそうな響きですが、考え方はシンプルです。

確率変数とは、「結果がいくつかありえて、それぞれに確率がついている数」のことです。例えば、

  • サイコロの出る目(1〜6 のどれかが、6 分の 1 ずつの確率で出る)
  • ある製品の不良率調査で 100 個中の不良品数(0〜100 のどれかが、ある確率で出る)
  • 顧客 1 人あたりの月間購買額(0 円〜数十万円のどれかが、ある確率で出る)

これらは、観測する前は「いくつになるか確定していない」が、観測すると 1 つの値に決まる数です。確率変数は、確率分布(後述)とセットで扱うのが基本です。

🔰 初学者の方へ 「確率変数」と「観測値」は混同しやすい言葉です。確率変数は「これから観測するときに、どんな値が出うるか」のモデル。観測値は「実際に取った 1 つの数字」です。確率変数は、観測前の「ぼんやりした可能性の集合」、と捉えるとよいでしょう。

確率分布——確率の「形」を捉える

確率分布(probability distribution)は、確率変数がどの値をどれくらいの確率で取るかを、まとめて表したものです。表で書くこともできますし、グラフで書くこともできます。

確率分布は、データの種類によって 2 つに分類されます。

①離散分布(discrete distribution)

数えられる値(整数など)を取る確率変数の分布です。

例:

  • サイコロの出る目(1, 2, 3, 4, 5, 6)
  • ある期間に発生する不良品数(0, 1, 2, ...)
  • アンケートの 1〜5 段階回答

代表的な離散分布:二項分布、ポアソン分布、幾何分布など。

②連続分布(continuous distribution)

連続的な値(小数・分数を含む)を取る確率変数の分布です。

例:

  • 顧客の身長(150.3cm、165.7cm など)
  • 製品の重量(98.45g、100.12g など)
  • 待ち時間(3.2 分、5.8 分など)

代表的な連続分布:正規分布、t 分布、F 分布、カイ二乗分布など。

本コースでは、特に二項分布と正規分布を取り上げます。

二項分布——「成功と失敗」のシンプルなモデル

二項分布(binomial distribution)は、最も基本的な離散分布の 1 つです。

二項分布が当てはまる場面

次の条件をすべて満たす場面で使われます。

  • 試行が独立に何度も繰り返される(n 回)
  • 各試行の結果は「成功」または「失敗」の 2 つだけ
  • 成功の確率 p は、毎回同じ

例:

  • コインを 10 回投げて、表が出る回数(n = 10、p = 0.5)
  • 100 個の製品を検査して、不良品の数(n = 100、p = 不良率)
  • 1,000 通のメール広告で、開封される数(n = 1,000、p = 開封率)

二項分布のイメージ

二項分布の形は、p と n によって変わりますが、おおよそ「成功回数の最も起きやすいあたりにピークがあり、そこから左右に減っていく」山型になります。p = 0.5 のときは左右対称、p が 0.5 から離れると非対称になります。

n が十分大きい(目安として np と n(1-p) が両方 10 以上)になると、二項分布は正規分布で近似できます。これは、レッスン 4 で扱う中心極限定理の最も身近な例です。

📝 補足 「100 個中 95 個合格」と「1,000 個中 950 個合格」は、合格率はどちらも 95% ですが、推測統計の世界では情報量が違います。後者の方が標本数が多く、推定の幅(信頼区間)が狭くなります。二項分布は、その「不確かさの幅」を計算する出発点になります。

正規分布——統計学の主役

正規分布(normal distribution)は、統計学で最もよく使われる連続分布です。「ガウス分布」「釣り鐘型分布」とも呼ばれます。

正規分布の特徴

  • 左右対称の釣り鐘型
  • 中心の値(平均)が、最も起きやすい
  • 中心から離れるほど、起きる確率は急速に小さくなる
  • 形は「平均 μ」と「標準偏差 σ」の 2 つで完全に決まる

68-95-99.7 ルール

正規分布の最も覚えやすい性質が、この経験則です。

範囲 データが入る割合
平均 ± 1 標準偏差(μ ± 1σ) 約 68%
平均 ± 2 標準偏差(μ ± 2σ) 約 95%
平均 ± 3 標準偏差(μ ± 3σ) 約 99.7%

例えば、ある製品の重量が「平均 100g、標準偏差 5g」の正規分布に従うとします。すると、

  • 100g ± 5g(95g〜105g)の範囲に、約 68% の製品が入る
  • 100g ± 10g(90g〜110g)の範囲に、約 95% の製品が入る
  • 100g ± 15g(85g〜115g)の範囲に、約 99.7% の製品が入る

製造業の品質管理で、「3σ を超えると要注意」「6σ を超えるとほぼ起きえない」と言われるのは、この性質が背景にあります。

⚠️ 注意 68-95-99.7 ルールは、データが正規分布に従っている場合の話です。実際のビジネスデータは右に歪んでいることが多く、正規分布に従わないことも珍しくありません。「平均 ± 2 標準偏差で 95%」と機械的に当てはめると、実態と外れる場合があります。データが正規分布に近いかどうか(ヒストグラムで確認するなど)を、必ず先に見るのが大事です。

なぜ正規分布が多用されるか——3 つの理由

正規分布は、なぜ統計学でこれほど多く出てくるのでしょうか。本レッスンでは 3 つの理由を整理しておきます。

①現実のデータが正規分布に近いことがある

人の身長、製造工程の寸法、測定誤差、IQ スコアなど、多くの自然現象や測定値が、近似的に正規分布に従うことが知られています。「複数の小さな要因がランダムに加わってできる量」は、正規分布に近くなる傾向があります。

標本平均は、正規分布に近づく(中心極限定理)

これが、推測統計で正規分布が中心的に使われる最大の理由です。元のデータが正規分布でなくても、そこから「ランダムに取った標本の平均」を多数集めると、その平均の分布は正規分布に近づいていく、という驚くべき性質があります。これを中心極限定理(central limit theorem)と呼びます。詳しくはレッスン 4 で扱います。

③数学的に扱いやすい

正規分布は、数式や確率計算が比較的扱いやすい性質を持ちます。多くの統計手法(t 検定、分散分析、回帰分析など)は、正規分布の仮定を前提に設計されています。仮定が成り立っているとき、計算と解釈がシンプルになります。

💡 ポイント 正規分布は「現実のデータがそうである」というより、「標本平均がそう振る舞う」という性質によって、推測統計の主役になっています。元のデータの分布が何であろうと、「標本の平均」を扱う限り正規分布の発想が使えるのは、推測統計の強力な武器です。

講師の現場メモ:「正規分布だと思って計算したらズレた」金融現場の話

私(牧野)が事業会社のデータサイエンス部門で、金融リスクの分析を担当していたころの話です。あるとき、株式の日次収益率(前日比のリターン)を扱う案件で、リスク指標を計算する必要がありました。

教科書的には「日次収益率は正規分布に従うと仮定する」ことが多く、私もその仮定で計算を進めていました。標準偏差を求め、「99% の確率でこの範囲内に収まる」という結論を出し、リスク管理部門に共有しました。

数か月後、市場が大きく動いた日があり、私の計算では「100 年に 1 回起きるかどうか」とされた損失水準を、実際に超えてしまいました。リスク管理部門から「計算が甘いのではないか」という指摘を受け、データを引き直しました。

調べてみると、日次収益率の実際の分布は、正規分布よりも「裾が厚い(極端な値が起きる確率が、正規分布の予測より高い)」分布だったのです。専門的には「ファットテール(fat tail)」と呼ばれる現象で、金融データではよく知られた性質でした。私はその知識を持っていながら、教科書的な「正規分布の仮定」で計算してしまっていました。

その経験から私は、新しいデータに触れるとき、「まずヒストグラムを描いて、本当に正規分布で良いかを確認する」習慣を徹底するようになりました。データが正規分布に従わない場合、t 分布の自由度を変える、ロバストな指標を使う、シミュレーションで分布を生成するなど、別の道具を選ぶ必要があります。

このときに痛感したのが、「正規分布は便利だが、当てはまるかどうかは別」ということでした。本コースの読者にも、「正規分布を仮定する前に、データの分布の形を確認する」発想を、ぜひ持ち帰っていただきたいと思います。

まとめ

このレッスンでは、以下のことを学びました。

  • 確率には、古典的・頻度主義的・主観的の 3 つの捉え方がある。本コースは頻度主義が主軸
  • 確率変数は「結果がいくつかありえて、それぞれに確率がついている数」
  • 確率分布には離散分布(数えられる値)と連続分布(連続的な値)がある
  • 二項分布は「成功と失敗」が独立に繰り返されるシーンに使う基本的な離散分布
  • 正規分布は左右対称の釣り鐘型で、平均 μ と標準偏差 σ で形が決まる
  • 68-95-99.7 ルール:μ±1σ で 68%、μ±2σ で 95%、μ±3σ で 99.7%
  • 正規分布が多用される理由:①現実のデータが正規分布に近いことがある、②標本平均が正規分布に近づく(中心極限定理)、③数学的に扱いやすい
  • ただし、データが正規分布に従わないケースも多い(ファットテール、歪んだ分布)。仮定の確認が必須

次のレッスンでは、推測統計の中核となる「標本と母集団」の関係を扱います。なぜ標本から全体を推測できるのか、中心極限定理が推測統計に何をもたらすのか、信頼区間とは何の確率なのかを、考え方の軸で押さえていきます。


確認クイズ

このレッスンの理解度をチェックしましょう。