データのばらつきを捉える——記述統計のまとめ直し
レッスン2:データのばらつきを捉える——記述統計のまとめ直し
このレッスンで学ぶこと
- 「中心」を表す 3 つの指標(平均・中央値・最頻値)の使い分けを身につける
- 「ばらつき」を表す代表的な指標(分散・標準偏差・四分位範囲)の意味を理解する
- 外れ値や歪んだ分布を見抜くための観点を持つ
- 箱ひげ図の構造を読み解けるようになる
- 「平均だけ見るのは危険」が、なぜ起きるかを直感で説明できる
レッスン 1 では、統計学の核を「数字の不確かさを扱う」と置き、記述統計と推測統計の役割の違いを整理しました。本レッスンでは、推測統計に進む前に記述統計の基本指標を本コースの言葉で再整理します。データ分析入門コースで触れた話と重なる部分もありますが、レッスン 3 以降の推測統計の土台になる発想を、もう一度押さえ直すのが目的です。
データを「数字 1 つ」で要約する難しさ
データを誰かに伝えようとするとき、私たちはよく「だいたい平均でこれくらいです」と言います。月次売上、顧客の年齢、社員の評価点、品質工程の寸法——どれも、最初に「平均」が出てきます。
ところが平均には、たった 1 つの数字が背景の多様性を覆い隠してしまう、という限界があります。例えば、5 店舗の月次売上が「30 万、40 万、50 万、60 万、70 万」のときと、「10 万、10 万、50 万、90 万、90 万」のときでは、平均はどちらも 50 万ですが、店舗ごとの「ばらつき方」はまったく違います。
記述統計は、平均という 1 つの数字だけでは伝えきれない「データの様子」を、いくつかの指標とグラフで補う道具です。
💡 ポイント 記述統計の出発点は、「平均だけ見るな、ばらつきも見ろ」というシンプルな発想です。本コースは、平均(中心)と、分散・標準偏差(ばらつき)を、必ずセットで扱う姿勢で進めます。
中心を表す 3 つの指標
データの「真ん中あたり」を捉える指標は、大きく 3 つあります。
①平均(mean)
すべての数字を足して、データの個数で割ったものです。最もよく使われる「中心」の指標です。
例:30, 40, 50, 60, 70 の平均 → (30+40+50+60+70) ÷ 5 = 50
平均の長所は、すべてのデータを反映していることです。短所は、外れ値(極端に大きい/小さい数字)に強く引きずられることです。
②中央値(median)
データを小さい順に並べたときに、真ん中に来る数字です。
例:30, 40, 50, 60, 70 の中央値 → 50(3 番目) 例:30, 40, 50, 60, 1000 の中央値 → 50(外れ値があっても変わらない)
中央値の長所は、外れ値に強いことです。短所は、すべてのデータを反映しているわけではないことです。
③最頻値(mode)
データの中で最も多く出てくる値です。
例:30, 40, 40, 50, 70 の最頻値 → 40
最頻値の長所は、「典型的な値」を直感的に捉えやすいことです。短所は、すべてのデータが 1 回ずつしか出てこない連続値の場合、ほぼ意味を持たないことです。
使い分けの原則
| 場面 | 推奨される指標 |
|---|---|
| データに外れ値がなく、ほぼ左右対称 | 平均 |
| データに外れ値がある/分布が歪んでいる | 中央値 |
| カテゴリーや離散的な値の「典型」を知りたい | 最頻値 |
| 全体像を伝えたい | 平均と中央値を両方示す |
⚠️ 注意 年収・売上・株価・住宅価格などの分布は、外れ値があり、しばしば右に歪んでいます(少数の極端に大きい値が、平均を引き上げる構造)。こうしたデータで「平均年収」だけを伝えると、実態とずれた印象を与えます。中央値を併記するか、中央値だけで伝える方が、誤解が少ないことが多いです。
ばらつきを表す指標
「中心」と並んで重要なのが、「ばらつき」を表す指標です。
①分散(variance)
「平均からのずれの 2 乗を平均したもの」と本コースでは表現します。式に直すと長くなりますが、考え方はこれだけです。
なぜ 2 乗するのか。平均からのずれをそのまま足すと、プラスとマイナスが打ち消し合って 0 になってしまうため、2 乗してプラスに揃えています。
例:30, 40, 50, 60, 70 の平均は 50。
- 30 のずれは -20、2 乗で 400
- 40 のずれは -10、2 乗で 100
- 50 のずれは 0、2 乗で 0
- 60 のずれは +10、2 乗で 100
- 70 のずれは +20、2 乗で 400
- 平均 = (400+100+0+100+400) ÷ 5 = 200
この 200 が分散です。
②標準偏差(standard deviation)
分散の平方根です。「平均からのずれの典型的な大きさ」と覚えると直感的です。
例:上の分散 200 の平方根 ≈ 14.14。標準偏差は約 14.14。
なぜ平方根を取るのか。分散は「2 乗の世界」の数字なので、元のデータと単位が違います(元が「万円」なら、分散は「万円²」)。平方根を取ると、元のデータと同じ単位になり、直感的に解釈しやすくなります。
💡 ポイント 分散と標準偏差は、ほぼ同じ情報を持っています。実務で「ばらつき」を語るときは、ほぼ標準偏差を使います。分散は「定義のため」「数式の途中で出てくるもの」と覚えておくと十分です。
③四分位範囲(interquartile range, IQR)
データを小さい順に並べ、4 等分したときの「第 1 四分位点(下から 25%)」から「第 3 四分位点(下から 75%)」までの幅です。中央 50% のデータが含まれる幅、と言い換えてもよいでしょう。
例:30, 40, 50, 60, 70 では、第 1 四分位は 40、第 3 四分位は 60、IQR = 60 - 40 = 20。
IQR の長所は、外れ値に強いことです。極端に大きい/小さい値があっても、中央 50% の幅は変わりません。データが歪んでいるとき、または外れ値が含まれるときは、標準偏差より IQR の方が「ばらつきの実態」を捉えやすくなります。
ばらつき指標の使い分け
| 場面 | 推奨される指標 |
|---|---|
| データに外れ値がなく、ほぼ左右対称 | 標準偏差 |
| データに外れ値がある/分布が歪んでいる | 四分位範囲(IQR) |
| 推測統計(信頼区間・検定)で使いたい | 標準偏差(数学的に扱いやすい) |
| ビジネス報告で「ばらつきの実態」を伝えたい | 標準偏差と IQR を両方示す |
外れ値と歪んだ分布の見抜き方
ここまでで、「中心」と「ばらつき」の指標が整理できました。次に問題になるのが、「自分のデータが外れ値を含むか、歪んでいるか、どう判断するか」です。
外れ値の典型的なサイン
- 平均と中央値が大きく違う(差が標準偏差の 2 倍以上、など)
- 最大値が、第 3 四分位の 3 倍以上ある
- ヒストグラムを描くと、一部だけ離れた山がある
- 業務上「ありえない」と感じる値がある(人の身長 250cm、年齢 200 歳など)
歪んだ分布の典型例
ビジネスの数字は、左右対称な「釣り鐘型」より、右に裾を引いた「歪んだ分布」の方が多い印象があります。代表例:
- 個人の年収・売上・取引額(少数の大型取引が平均を引き上げる)
- ウェブサイトの 1 ユーザーあたり滞在時間(多くは数秒、少数が数時間)
- メーカーの製品寿命(多くは平均近辺だが、一部が極端に長持ち/早期故障)
- 顧客の購買回数(多くは 1〜2 回、少数のリピーターが高頻度購入)
これらに対して、平均だけを見ると実態を見誤ります。中央値や四分位範囲を併用しないと、意思決定の根拠としては危ういのです。
🔰 初学者の方へ 「うちの平均顧客単価は◯◯円です」「平均月収は◯◯万円です」のような表現を見かけたとき、「中央値はいくつだろう」と心の中で問うてみてください。多くの場合、中央値の方が「典型的な顧客/社員」の像に近い数字になります。
箱ひげ図——「中心」と「ばらつき」を一目で
中心とばらつきと外れ値を、1 つの図で示せるのが箱ひげ図(box plot)です。本コースで Mermaid で箱ひげ図そのものは描けないので、構造を言葉で説明します。
箱ひげ図は、横向きまたは縦向きの 1 本の軸上に、次の要素を表現します。
| 要素 | 意味 |
|---|---|
| 箱の下端 | 第 1 四分位点(下から 25%) |
| 箱の中の線 | 中央値(下から 50%) |
| 箱の上端 | 第 3 四分位点(下から 75%) |
| 箱の下から伸びるひげ | 通常、下側の「外れ値ではない最小値」 |
| 箱の上から伸びるひげ | 通常、上側の「外れ値ではない最大値」 |
| ひげの外側の点 | 外れ値 |
外れ値の判定はソフトや慣習で違いますが、「第 1 四分位 - 1.5 × IQR より下」「第 3 四分位 + 1.5 × IQR より上」を外れ値とする「テューキー(Tukey)の方法」がよく使われます。
📝 補足 箱ひげ図は、グループ間の比較に特に強い図です。例えば、部署別の評価点分布や、店舗別の客単価分布を並べて描くと、「中心が違うのか、ばらつきが違うのか、外れ値があるのか」が一目でわかります。本コースのレッスン後半で実例を扱う際にも、箱ひげ図のイメージを念頭に置いておくとよいでしょう。
「平均だけ見るな」の具体例
最後に、本レッスンの実用的な教訓として、「平均だけ見ると判断を誤る」場面を 3 つ挙げます。
例 1:給与の議論
「うちの会社の平均年収は 800 万円です」と言われると、多くの社員が 800 万円もらっていそうに聞こえます。しかし、高給な役員数名が平均を引き上げており、中央値は 550 万円ということもあります。社内議論では、中央値や四分位範囲も併記するのが誠実です。
例 2:顧客満足度サーベイ
「平均満足度 7.0 点(10 点満点)」と聞くと、おおむね満足してもらっていそうですが、実は「10 点を付けた人と 3 点を付けた人に分割しており、平均が 7」というケースもあります。中央値・分散・回答分布を見ると、「全体に満足」と「両極端に割れている」の違いが見えます。
例 3:A/B テストの結果
「施策 B の方が平均購入額が 5% 高い」と言われても、ばらつきが大きく一部のヘビーユーザーが平均を押し上げている可能性があります。標準偏差・中央値・分布の形を見ないと、「本当に全体が改善している」とは言い切れません。
💡 ポイント 統計学を学んだ人とそうでない人の最も大きな差の 1 つは、「平均を見たら、必ずばらつきも見るか」です。これは、推測統計に進む前の、基本姿勢として身につけてほしい習慣です。
講師の現場メモ:「平均」を信じきった経営会議の話
私(牧野)が事業会社のデータサイエンス部門で、SaaS のグロース分析を担当していたころの話です。あるとき経営会議で、「うちの平均利用時間が前月比 20% 伸びた」というスライドが提示されました。経営層は喜び、当該プロダクトの責任者が表彰されそうな雰囲気でした。
私は会議後、ローデータを引き直して分析しました。結果、「平均が伸びた」のは事実でしたが、構造は次のようなものでした。
- アクティブユーザー全体の利用時間は、前月とほぼ同じ(中央値はむしろわずかに低下)
- 一部の超ヘビーユーザー(上位 1%)が、前月の数倍の利用時間を記録
- 結果として、平均だけが大幅に伸びていた
「全体が伸びた」のではなく、「一部のヘビーユーザーがさらに濃く使っただけ」だったのです。中央値・四分位範囲・分布の形を見れば、ほぼ即座に気づける話でした。
その分析を持って責任者に確認に行くと、本人もデータの構造を正確に把握しておらず、「平均が伸びたから報告に上げた」と率直に話してくれました。経営会議には改めて修正版を提出し、表彰は見送りになりました。代わりに、「上位 1% を伸ばす施策がなぜ効いたか」「中央値を伸ばすには別の施策が必要」という議論に進化しました。
このときに痛感したのが、「平均だけを見て意思決定すると、しばしばコストが大きく出る」ということでした。本コースの読者にも、「平均を見たら必ず中央値とばらつきも見る」という習慣を、職場に持ち帰っていただきたいと感じています。
まとめ
このレッスンでは、以下のことを学びました。
- データを「中心の指標」(平均・中央値・最頻値)と「ばらつきの指標」(分散・標準偏差・IQR)の両輪で捉える
- 平均は外れ値に弱い。中央値は外れ値に強い。最頻値は典型値を直感的に伝える
- 分散は「平均からのずれの 2 乗の平均」、標準偏差はその平方根で「ばらつきの典型的な大きさ」
- 四分位範囲(IQR)は中央 50% の幅で、外れ値や歪んだ分布に強い
- ビジネスの数字は右に歪んでいることが多く、平均だけを見ると実態を見誤りやすい
- 箱ひげ図は中心・ばらつき・外れ値を 1 図で示せる、グループ比較に強い道具
- 「平均だけ見るな、必ず中央値とばらつきも見ろ」が、本コースを通じての基本姿勢
次のレッスンでは、推測統計の準備として「確率と確率分布」を扱います。確率変数、離散分布と連続分布、二項分布、正規分布、そして「なぜ正規分布が多用されるか」を、考え方の軸で押さえていきます。
確認クイズ
このレッスンの理解度をチェックしましょう。