本文へスキップ
スキルアップカレッジ

データのばらつきを捉える——記述統計のまとめ直し

レッスン2:データのばらつきを捉える——記述統計のまとめ直し

このレッスンで学ぶこと

  • 「中心」を表す 3 つの指標(平均・中央値最頻値)の使い分けを身につける
  • 「ばらつき」を表す代表的な指標(分散標準偏差・四分位範囲)の意味を理解する
  • 外れ値や歪んだ分布を見抜くための観点を持つ
  • 箱ひげ図の構造を読み解けるようになる
  • 「平均だけ見るのは危険」が、なぜ起きるかを直感で説明できる

レッスン 1 では、統計学の核を「数字の不確かさを扱う」と置き、記述統計と推測統計の役割の違いを整理しました。本レッスンでは、推測統計に進む前に記述統計の基本指標を本コースの言葉で再整理します。データ分析入門コースで触れた話と重なる部分もありますが、レッスン 3 以降の推測統計の土台になる発想を、もう一度押さえ直すのが目的です。

データを「数字 1 つ」で要約する難しさ

データを誰かに伝えようとするとき、私たちはよく「だいたい平均でこれくらいです」と言います。月次売上、顧客の年齢、社員の評価点、品質工程の寸法——どれも、最初に「平均」が出てきます。

ところが平均には、たった 1 つの数字が背景の多様性を覆い隠してしまう、という限界があります。例えば、5 店舗の月次売上が「30 万、40 万、50 万、60 万、70 万」のときと、「10 万、10 万、50 万、90 万、90 万」のときでは、平均はどちらも 50 万ですが、店舗ごとの「ばらつき方」はまったく違います。

記述統計は、平均という 1 つの数字だけでは伝えきれない「データの様子」を、いくつかの指標とグラフで補う道具です。

💡 ポイント 記述統計の出発点は、「平均だけ見るな、ばらつきも見ろ」というシンプルな発想です。本コースは、平均(中心)と、分散・標準偏差(ばらつき)を、必ずセットで扱う姿勢で進めます。

中心を表す 3 つの指標

データの「真ん中あたり」を捉える指標は、大きく 3 つあります。

①平均(mean)

すべての数字を足して、データの個数で割ったものです。最もよく使われる「中心」の指標です。

例:30, 40, 50, 60, 70 の平均 → (30+40+50+60+70) ÷ 5 = 50

平均の長所は、すべてのデータを反映していることです。短所は、外れ値(極端に大きい/小さい数字)に強く引きずられることです。

②中央値(median)

データを小さい順に並べたときに、真ん中に来る数字です。

例:30, 40, 50, 60, 70 の中央値 → 50(3 番目) 例:30, 40, 50, 60, 1000 の中央値 → 50(外れ値があっても変わらない)

中央値の長所は、外れ値に強いことです。短所は、すべてのデータを反映しているわけではないことです。

③最頻値(mode)

データの中で最も多く出てくる値です。

例:30, 40, 40, 50, 70 の最頻値 → 40

最頻値の長所は、「典型的な値」を直感的に捉えやすいことです。短所は、すべてのデータが 1 回ずつしか出てこない連続値の場合、ほぼ意味を持たないことです。

使い分けの原則

場面 推奨される指標
データに外れ値がなく、ほぼ左右対称 平均
データに外れ値がある/分布が歪んでいる 中央値
カテゴリーや離散的な値の「典型」を知りたい 最頻値
全体像を伝えたい 平均と中央値を両方示す

⚠️ 注意 年収・売上・株価・住宅価格などの分布は、外れ値があり、しばしば右に歪んでいます(少数の極端に大きい値が、平均を引き上げる構造)。こうしたデータで「平均年収」だけを伝えると、実態とずれた印象を与えます。中央値を併記するか、中央値だけで伝える方が、誤解が少ないことが多いです。

ばらつきを表す指標

「中心」と並んで重要なのが、「ばらつき」を表す指標です。

①分散(variance)

「平均からのずれの 2 乗を平均したもの」と本コースでは表現します。式に直すと長くなりますが、考え方はこれだけです。

なぜ 2 乗するのか。平均からのずれをそのまま足すと、プラスとマイナスが打ち消し合って 0 になってしまうため、2 乗してプラスに揃えています。

例:30, 40, 50, 60, 70 の平均は 50。

  • 30 のずれは -20、2 乗で 400
  • 40 のずれは -10、2 乗で 100
  • 50 のずれは 0、2 乗で 0
  • 60 のずれは +10、2 乗で 100
  • 70 のずれは +20、2 乗で 400
  • 平均 = (400+100+0+100+400) ÷ 5 = 200

この 200 が分散です。

②標準偏差(standard deviation)

分散の平方根です。「平均からのずれの典型的な大きさ」と覚えると直感的です。

例:上の分散 200 の平方根 ≈ 14.14。標準偏差は約 14.14。

なぜ平方根を取るのか。分散は「2 乗の世界」の数字なので、元のデータと単位が違います(元が「万円」なら、分散は「万円²」)。平方根を取ると、元のデータと同じ単位になり、直感的に解釈しやすくなります。

💡 ポイント 分散と標準偏差は、ほぼ同じ情報を持っています。実務で「ばらつき」を語るときは、ほぼ標準偏差を使います。分散は「定義のため」「数式の途中で出てくるもの」と覚えておくと十分です。

③四分位範囲(interquartile range, IQR)

データを小さい順に並べ、4 等分したときの「第 1 四分位点(下から 25%)」から「第 3 四分位点(下から 75%)」までの幅です。中央 50% のデータが含まれる幅、と言い換えてもよいでしょう。

例:30, 40, 50, 60, 70 では、第 1 四分位は 40、第 3 四分位は 60、IQR = 60 - 40 = 20。

IQR の長所は、外れ値に強いことです。極端に大きい/小さい値があっても、中央 50% の幅は変わりません。データが歪んでいるとき、または外れ値が含まれるときは、標準偏差より IQR の方が「ばらつきの実態」を捉えやすくなります。

ばらつき指標の使い分け

場面 推奨される指標
データに外れ値がなく、ほぼ左右対称 標準偏差
データに外れ値がある/分布が歪んでいる 四分位範囲(IQR)
推測統計(信頼区間・検定)で使いたい 標準偏差(数学的に扱いやすい)
ビジネス報告で「ばらつきの実態」を伝えたい 標準偏差と IQR を両方示す

外れ値と歪んだ分布の見抜き方

ここまでで、「中心」と「ばらつき」の指標が整理できました。次に問題になるのが、「自分のデータが外れ値を含むか、歪んでいるか、どう判断するか」です。

外れ値の典型的なサイン

  • 平均と中央値が大きく違う(差が標準偏差の 2 倍以上、など)
  • 最大値が、第 3 四分位の 3 倍以上ある
  • ヒストグラムを描くと、一部だけ離れた山がある
  • 業務上「ありえない」と感じる値がある(人の身長 250cm、年齢 200 歳など)

歪んだ分布の典型例

ビジネスの数字は、左右対称な「釣り鐘型」より、右に裾を引いた「歪んだ分布」の方が多い印象があります。代表例:

  • 個人の年収・売上・取引額(少数の大型取引が平均を引き上げる)
  • ウェブサイトの 1 ユーザーあたり滞在時間(多くは数秒、少数が数時間)
  • メーカーの製品寿命(多くは平均近辺だが、一部が極端に長持ち/早期故障)
  • 顧客の購買回数(多くは 1〜2 回、少数のリピーターが高頻度購入)

これらに対して、平均だけを見ると実態を見誤ります。中央値や四分位範囲を併用しないと、意思決定の根拠としては危ういのです。

🔰 初学者の方へ 「うちの平均顧客単価は◯◯円です」「平均月収は◯◯万円です」のような表現を見かけたとき、「中央値はいくつだろう」と心の中で問うてみてください。多くの場合、中央値の方が「典型的な顧客/社員」の像に近い数字になります。

箱ひげ図——「中心」と「ばらつき」を一目で

中心とばらつきと外れ値を、1 つの図で示せるのが箱ひげ図(box plot)です。本コースで Mermaid で箱ひげ図そのものは描けないので、構造を言葉で説明します。

箱ひげ図は、横向きまたは縦向きの 1 本の軸上に、次の要素を表現します。

要素 意味
箱の下端 第 1 四分位点(下から 25%)
箱の中の線 中央値(下から 50%)
箱の上端 第 3 四分位点(下から 75%)
箱の下から伸びるひげ 通常、下側の「外れ値ではない最小値」
箱の上から伸びるひげ 通常、上側の「外れ値ではない最大値」
ひげの外側の点 外れ値

外れ値の判定はソフトや慣習で違いますが、「第 1 四分位 - 1.5 × IQR より下」「第 3 四分位 + 1.5 × IQR より上」を外れ値とする「テューキー(Tukey)の方法」がよく使われます。

📝 補足 箱ひげ図は、グループ間の比較に特に強い図です。例えば、部署別の評価点分布や、店舗別の客単価分布を並べて描くと、「中心が違うのか、ばらつきが違うのか、外れ値があるのか」が一目でわかります。本コースのレッスン後半で実例を扱う際にも、箱ひげ図のイメージを念頭に置いておくとよいでしょう。

「平均だけ見るな」の具体例

最後に、本レッスンの実用的な教訓として、「平均だけ見ると判断を誤る」場面を 3 つ挙げます。

例 1:給与の議論

「うちの会社の平均年収は 800 万円です」と言われると、多くの社員が 800 万円もらっていそうに聞こえます。しかし、高給な役員数名が平均を引き上げており、中央値は 550 万円ということもあります。社内議論では、中央値や四分位範囲も併記するのが誠実です。

例 2:顧客満足度サーベイ

「平均満足度 7.0 点(10 点満点)」と聞くと、おおむね満足してもらっていそうですが、実は「10 点を付けた人と 3 点を付けた人に分割しており、平均が 7」というケースもあります。中央値・分散・回答分布を見ると、「全体に満足」と「両極端に割れている」の違いが見えます。

例 3:A/B テストの結果

「施策 B の方が平均購入額が 5% 高い」と言われても、ばらつきが大きく一部のヘビーユーザーが平均を押し上げている可能性があります。標準偏差・中央値・分布の形を見ないと、「本当に全体が改善している」とは言い切れません。

💡 ポイント 統計学を学んだ人とそうでない人の最も大きな差の 1 つは、「平均を見たら、必ずばらつきも見るか」です。これは、推測統計に進む前の、基本姿勢として身につけてほしい習慣です。

講師の現場メモ:「平均」を信じきった経営会議の話

私(牧野)が事業会社のデータサイエンス部門で、SaaS のグロース分析を担当していたころの話です。あるとき経営会議で、「うちの平均利用時間が前月比 20% 伸びた」というスライドが提示されました。経営層は喜び、当該プロダクトの責任者が表彰されそうな雰囲気でした。

私は会議後、ローデータを引き直して分析しました。結果、「平均が伸びた」のは事実でしたが、構造は次のようなものでした。

  • アクティブユーザー全体の利用時間は、前月とほぼ同じ(中央値はむしろわずかに低下)
  • 一部の超ヘビーユーザー(上位 1%)が、前月の数倍の利用時間を記録
  • 結果として、平均だけが大幅に伸びていた

「全体が伸びた」のではなく、「一部のヘビーユーザーがさらに濃く使っただけ」だったのです。中央値・四分位範囲・分布の形を見れば、ほぼ即座に気づける話でした。

その分析を持って責任者に確認に行くと、本人もデータの構造を正確に把握しておらず、「平均が伸びたから報告に上げた」と率直に話してくれました。経営会議には改めて修正版を提出し、表彰は見送りになりました。代わりに、「上位 1% を伸ばす施策がなぜ効いたか」「中央値を伸ばすには別の施策が必要」という議論に進化しました。

このときに痛感したのが、「平均だけを見て意思決定すると、しばしばコストが大きく出る」ということでした。本コースの読者にも、「平均を見たら必ず中央値とばらつきも見る」という習慣を、職場に持ち帰っていただきたいと感じています。

まとめ

このレッスンでは、以下のことを学びました。

  • データを「中心の指標」(平均・中央値・最頻値)と「ばらつきの指標」(分散・標準偏差・IQR)の両輪で捉える
  • 平均は外れ値に弱い。中央値は外れ値に強い。最頻値は典型値を直感的に伝える
  • 分散は「平均からのずれの 2 乗の平均」、標準偏差はその平方根で「ばらつきの典型的な大きさ」
  • 四分位範囲(IQR)は中央 50% の幅で、外れ値や歪んだ分布に強い
  • ビジネスの数字は右に歪んでいることが多く、平均だけを見ると実態を見誤りやすい
  • 箱ひげ図は中心・ばらつき・外れ値を 1 図で示せる、グループ比較に強い道具
  • 「平均だけ見るな、必ず中央値とばらつきも見ろ」が、本コースを通じての基本姿勢

次のレッスンでは、推測統計の準備として「確率確率分布」を扱います。確率変数離散分布連続分布二項分布、正規分布、そして「なぜ正規分布が多用されるか」を、考え方の軸で押さえていきます。


確認クイズ

このレッスンの理解度をチェックしましょう。