本文へスキップ
スキルアップカレッジ

統計学とは何か——記述統計と推測統計、何を支える学問か

レッスン1:統計学とは何か——記述統計と推測統計、何を支える学問か

このレッスンで学ぶこと

  • 統計学を「数字の不確かさを扱う学問」として捉え直す
  • 統計学の 2 つの役割(記述統計と推測統計)を区別できる
  • なぜビジネスで推測統計が必要かを理解する
  • 本コースの守備範囲と扱わない範囲を知る
  • 数式に身構えなくてよい理由を理解する

「統計学」と聞いて、最初に頭に浮かぶものは何でしょうか。教科書のシグマ記号、確率分布の難しい数式、p 値、t 値、検定——どれも、人によっては苦手意識を呼ぶ言葉だと思います。本コースは、その苦手意識を解くことを最初の目的にしました。統計学は、数式ではなく考え方で理解できる学問です。むしろ、考え方を理解しないまま数式だけ覚えると、現場では誤用しやすくなります。本レッスンでは、まず「統計学とは何のための道具か」を整理することから始めます。

統計学は「不確かさを扱う」道具

統計学を一言で表すなら、「数字の不確かさをどう扱うかを考える学問」です。

世の中の意思決定はほぼすべて、不確かさを抱えています。ある広告キャンペーンが本当に売上に効いたのか、ある研修が本当に従業員の生産性を上げたのか、ある製品の不良率が許容範囲内なのか——どれも、「絶対に正しい」と言い切れる答えはありません。手元のデータは「全体の一部」だったり、「観測の誤差」を含んでいたり、「偶然のばらつき」を伴ったりします。

このような不確かさの中で、

  • 何を「ありそうな結論」とし、
  • 何を「偶然のばらつき」とし、
  • どこまで自信を持って言えるかを、

整理する道具が統計学です。

💡 ポイント 統計学は「数字を出すための公式集」ではなく、「数字の不確かさを定量的に語るための言葉」です。本コース全体を通じて、この発想に何度も戻ります。

統計学の 2 つの役割——記述統計と推測統計

統計学には大きく分けて 2 つの役割があります。本コースで最も繰り返す区別なので、最初に整理しておきます。

①記述統計(descriptive statistics)

手元のデータを「要約して説明する」役割です。膨大な数字を、いくつかの代表値・ばらつきの指標・グラフに要約して、データの特徴を把握できる形に直します。

例えば、ある月の店舗の日次売上 30 日分をすべて並べるのではなく、「平均は 50 万円、中央値は 48 万円、最小は 28 万円、最大は 92 万円、標準偏差は 12 万円」と要約すると、データの様子がつかみやすくなります。

代表的な道具:平均・中央値・最頻値分散・標準偏差・四分位範囲・ヒストグラム・箱ひげ図散布図など。

②推測統計(inferential statistics)

手元の限られたデータ(標本)から、その背後にある「より大きな全体(母集団)」について推測する役割です。記述統計が「手元のデータを語る」のに対し、推測統計は「手元のデータからまだ見ていない世界を語る」道具です。

例えば、1,000 人の顧客アンケートから日本の全顧客の傾向を推測する、A/B テストの数百サンプルから今後すべての訪問者で本当に効果が出るかを判断する、製造ラインから抜き取った 50 個の検査から今日のロット全体の品質を判断する——どれも推測統計の典型例です。

代表的な道具:信頼区間・仮説検定(t 検定・カイ二乗検定分散分析)・回帰分析・効果量・p 値など。

2 つの違いを掴むために

両者の違いを別の角度で表現すると、こうも言えます。

記述統計 推測統計
対象 手元のデータそのもの 手元のデータから推測する「大きな全体」
問い このデータはどんな形をしているか このデータから何を「もっともらしい」と言えるか
出力 平均・分散・グラフなどの要約 信頼区間・p 値・効果量・回帰係数など
不確かさの扱い 含まないことが多い 中心的に扱う

本コースの主軸は、後者の推測統計です。記述統計はレッスン 2 で本コースの言葉で整理し直しますが、深掘りはレッスン 3 以降の推測統計に時間を割きます。

📝 補足 「データを集めて、平均を出して、グラフを描いて報告する」までは記述統計の領域です。多くのビジネス現場で「データ分析」と呼ばれている作業は、この記述統計までで終わっていることがよくあります。推測統計に踏み込むと、「で、それは本当に意味のある差なのか」「偶然のばらつきの範囲を超えているのか」を語れるようになります。

なぜ「推測」が必要か——全数調査の限界

「全部のデータを見れば、推測なんてしなくていいんじゃないか」という疑問は、最初に多くの方が抱くものです。実際、データが全部見られるなら推測は不要です。問題は、ほとんどの現場で「全部」を見ることができない、という現実にあります。

全数調査ができない 4 つの理由

①コストが大きすぎる

国民全員、顧客全員、製品の全製造ロット——どれもサンプルを取らずに全数を調べるとなると、時間とコストが膨大になります。国勢調査のような全数調査は、国家規模の投資があってようやく成り立ちます。

②調べる対象が破壊される

製品の強度試験や寿命試験は、調べると製品が壊れます。「全製品を試験する」と全製品が売り物にならなくなります。一部の抜き取り検査で全体の品質を推測する必要があります。

③対象がまだ存在しない(未来予測)

「次の四半期の売上」「これから訪れる新規顧客」「来月の不良率」——どれも、まだ起きていない出来事です。過去のデータから未来を推測するには、推測統計の発想が要ります。

④対象が動き続けている

顧客の好み、市場の動向、品質工程の状態は、刻一刻と変化します。「ある時点で見たデータ」は、その瞬間の標本でしかなく、全体を捉えきっているとは限りません。

これら 4 つの理由から、ビジネスの現場では「一部のデータから全体を推測する」が日常的に求められます。だから推測統計が必要なのです。

🔰 初学者の方へ 「サンプルから全体を推測する」と聞くと、「それで本当に大丈夫なのか」と不安に感じる方は多いです。実は、推測統計の中心テーマがまさにこの不安——「どれくらいの自信を持ってそう言えるか」を、数字で語れるようにすることです。レッスン 4 以降で、その仕組みを少しずつ解きほぐしていきます。

統計学が支える 3 つの場面——ビジネスでの典型

統計学が実際にビジネスでどう使われるか、典型例を 3 つ挙げておきます。本コース全体を通じて、これらの場面を意識しながら学んでいただくと、知識が「使えるもの」として定着しやすくなります。

①意思決定の根拠を持つ

「広告 A と広告 B、どちらが効くか」「新しい価格設定で売上は本当に伸びるか」「新研修プログラムは離職率を下げるか」——どれも、データに基づいて意思決定したい場面です。推測統計は、こうした問いに「偶然のばらつきを超えた効果と言えるか」を答える道具を提供します。

②他人の主張を吟味する

「この新商品で売上が 20% 伸びた」「この施策で満足度が大きく改善した」「相関係数 0.8 だから因果関係がある」——日常で耳にする数値主張のうち、十分な裏付けがないものも少なくありません。統計学を学ぶと、「その数字、そう言い切れるのか」を吟味できるようになります。

③不確かさを共有する

ビジネスでは「絶対に儲かる施策」「確実に効く処方」は存在しません。それでも、「どれくらいの確からしさでそう言えるのか」を、関係者と共有することはできます。信頼区間や効果量は、結論の「確からしさの幅」を言葉にする道具です。

⚠️ 注意 統計学は「正解を出す機械」ではありません。同じデータでも、問いの立て方や検定の選び方で結論が変わることがあります。本コースでは、「どの場面でどの道具を選ぶか」「結論をどこまで言えてどこから言えないか」を区別する発想を、繰り返し扱っていきます。

本コースの守備範囲と限界

本コースで扱う範囲と扱わない範囲を、最初に整理しておきます。

扱う範囲

  • 記述統計の基本指標(レッスン 2)
  • 確率と確率分布(レッスン 3)
  • 標本と推測の関係、中心極限定理、信頼区間(レッスン 4)
  • 仮説検定の考え方、p 値、有意水準過誤、効果量(レッスン 5)
  • 主要な検定の使い分け(t 検定・カイ二乗・分散分析)(レッスン 6)
  • 相関と回帰、相関と因果の区別(レッスン 7)
  • 統計の誤用と倫理、再現性危機、ベイズ統計の入口(レッスン 8)

扱わない範囲

  • 数式の証明・導出(考え方の図と比喩で代替)
  • 統計ソフト(R・Python・SPSS など)の操作方法(コースの目的は概念理解)
  • 機械学習の本格的なモデル(軽くレッスン 8 で触れる程度)
  • 高度なベイズ統計・階層モデル・時系列分析(入門の範囲外)
  • 特定業界の専門的な統計手法(医療統計のみ・金融工学のみなど)

スタンス

本コースは、統計学を「数式の体系」ではなく「意思決定の質を上げる道具」として扱います。完璧な理解を目指すと挫折しやすいので、「考え方の地図」を持って現場で迷わなくなる、というレベルを目標に置きます。深掘りしたい方は、レッスン 8 の最後に外部の書籍を案内します。

数式に身構えなくてよい理由

最後に、本コースの「数式の扱い方」について触れておきます。

統計学の教科書は、たいてい数式から入ります。「分散の定義は……」「正規分布の確率密度関数は……」と書かれると、それだけで身構えてしまう方が多いはずです。本コースは、その入口を変えます。

数式は「考え方を厳密に書く言語」ですが、考え方そのものは数式なしでも語れます。例えば、

  • 「分散 = 平均からのずれの 2 乗を平均したもの」
  • 「信頼区間 = この推定値の周りに、95% の確からしさで真の値が入る幅」
  • 「p 値 = 帰無仮説が正しいと仮定したとき、観測結果以上に極端なデータが出る確率」

このように、日本語の文で表現できます。数式で表現すれば短く厳密になりますが、ビジネスの現場で他人に説明するときは、むしろ日本語の文の方が伝わります。本コースは、日本語の文と図・表・直感的な例を中心に進めます。

💡 ポイント 数式を「使えるようになりたい」方は、本コースで考え方を掴んだあと、専門書で数式に進むのが最短ルートです。逆に「数式から入って挫折した」経験がある方は、本コースで考え方の地図を作り直すと、数式に戻ったときに腹落ちしやすくなります。

講師の現場メモ:「統計的に有意です」だけでは動かないチーム

私(牧野)が事業会社のデータサイエンス部門に入って 1 年目のころの話です。新人だった私は、マーケティング部から「A/B テストの結果を分析してほしい」と依頼を受けました。

データを処理し、検定をかけた結果、p 値は 0.03 で「統計的に有意な差」が出ていました。私は意気揚々と「統計的に有意です。施策 B が有効です」と報告書を提出しました。マーケティングの責任者は、報告書を見て「で、これでビジネスはどうなる?」と一言。私は固まりました。

責任者の問いの核心は、「p 値が小さい」と「ビジネスにとって意味がある」は別物だ、ということでした。確かに統計的には差があるが、その差は売上にして月数十万円程度。施策 B を全店舗展開するには、システム改修コストが数千万円かかる見積もりでした。「統計的に有意」だけでは投資判断には足りなかったのです。

そのときに上司から教わったのが、「効果量を見る」「実用的有意性を考える」という発想でした。「差があるか」だけでなく「どれくらいの大きさの差か」「ビジネスとして意味のある差か」を、検定の結論と一緒に伝える必要がある、と。

その経験は私のキャリアを決めました。データサイエンティストは「p 値を計算する人」ではなく「数字の不確かさをビジネス言語に翻訳する人」だと、強く思うようになりました。本コースでも、p 値や検定の話に入る際、必ず「実用的な意味」「効果量」「結論をどこまで言えるか」をセットで扱います。

独立してアドバイザーになった今も、クライアントから「検定で有意でした」とだけ報告されると、必ず「効果量はどれくらいですか」「業務インパクトはどうですか」と返すようにしています。本コースの読者にも、そのスタンスを持ち帰ってほしいと願っています。

まとめ

このレッスンでは、以下のことを学びました。

  • 統計学は「数字の不確かさを扱うための言葉」
  • 統計学には記述統計と推測統計の 2 つの役割がある
  • 記述統計は「手元のデータを語る」、推測統計は「手元のデータからまだ見ていない世界を語る」
  • ビジネスでは、コスト・破壊・未来・変化の理由で「全数調査」ができないことが多く、推測統計が必要
  • 統計学が支える典型場面:①意思決定の根拠、②他人の主張の吟味、③不確かさの共有
  • 本コースは数式を最小限に抑え、「考え方・直感・誤用の避け方」を中心に進める
  • 「p < 0.05 で有意」だけでなく「効果量」「実用的有意性」をセットで考える発想を貫く

次のレッスンでは、記述統計を本コースの言葉でまとめ直します。平均・中央値・最頻値の使い分け、分散・標準偏差・四分位範囲の意味、外れ値や歪んだ分布の見抜き方を学びます。データ分析入門コースで触れた内容と重なる部分もありますが、推測統計に進む土台として、本コースの言葉でもう一度整理します。


確認クイズ

このレッスンの理解度をチェックしましょう。