記述統計の基本——平均・中央値・標準偏差で全体像をつかむ
レッスン3:記述統計の基本——平均・中央値・標準偏差で全体像をつかむ
このレッスンで学ぶこと
- 代表値(平均・中央値・最頻値)の意味と使い分けを理解する
- ばらつきの指標(分散・標準偏差)が何を測っているかを説明できる
- 四分位数と箱ひげ図の考え方を知る
- ExcelやGoogleスプレッドシートで主要な値を出せる関数を知る
レッスン2では、データの種類を見分けることを学びました。このレッスンでは、量的データを扱うときに必ず登場する「記述統計」の基本を学びます。記述統計とは、データの全体像を要約する技術のことで、データ分析で最初に行うことの多い作業です。
記述統計とは
記述統計は、たくさんあるデータを少数の数字や図に要約して、全体の特徴をつかむための技術です。例えば1,000人の顧客アンケートの結果を一人ひとり見ていくのは大変ですが、「平均満足度3.8」「年齢層は20〜60代に幅広く分布」のように要約すれば、全体像が一瞬で見えます。
記述統計で扱う代表的な観点は2つあります。
- 代表値:データを1つの数字でまとめると、どこに集まっているか(中心はどこか)
- ばらつき:データがどのくらい広がっているか
この2つを押さえると、データの全体像が見えてきます。
代表値1:平均(mean)
最もよく使われる代表値が「平均」です。すべての値を足してデータの個数で割る、というおなじみの計算です。
平均 = (値の合計) ÷ (データの個数)
例:3人の顧客が払った金額が「1,000円・2,000円・3,000円」なら、平均は (1,000 + 2,000 + 3,000) ÷ 3 = 2,000円。
平均は計算しやすく、合計を共有しやすい便利な指標です。一方、極端な値(外れ値)に引きずられやすいという弱点もあります。
💡 ポイント 「平均年収」が話題になるとき、よく「平均は実態とずれている」と言われます。極端に高い人が少数いると、平均が大きく上振れしてしまうためです。次に紹介する中央値の方が、実感に近いことが多いのです。
代表値2:中央値(median)
中央値は、データを小さい順に並べたとき、ちょうど真ん中に来る値のことです。
例:1,000円・2,000円・3,000円・4,000円・100,000円という5つの金額があるとき、平均は (1,000 + 2,000 + 3,000 + 4,000 + 100,000) ÷ 5 = 22,000円。 一方、中央値は真ん中の「3,000円」です。
100,000円という外れ値があると、平均は大きく上振れしますが、中央値は影響を受けません。極端な値の影響を受けにくいのが中央値の特徴です。
💡 ポイント 年収・売上・住宅価格・SNSのフォロワー数など、極端な値が混じりやすいデータでは、平均より中央値のほうが実態を表すことが多いです。「平均と中央値が大きくずれているデータ」は、分布が偏っている可能性があります。
代表値3:最頻値(mode)
最頻値は、最も多く出現する値のことです。
例:あるカフェで売れた商品の数が「ラテ50杯・モカ30杯・カプチーノ40杯・エスプレッソ10杯」だったとき、最頻値は「ラテ」です。
質的データ(カテゴリ)の代表値としては、最頻値が最もよく使われます。「一番売れた商品」「一番多い回答」など、ビジネスで自然に使う発想です。
平均・中央値・最頻値の使い分け
3つの代表値は、扱うデータと目的に応じて使い分けます。
| 代表値 | 向いている場面 |
|---|---|
| 平均 | 量的データの全体傾向を1つの数字で表したい。極端な値が少ないとき |
| 中央値 | 量的データで、極端な値の影響を受けたくないとき |
| 最頻値 | 質的データの代表的なカテゴリを示したいとき、または「最も多く起きること」を強調したいとき |
⚠️ 注意 「平均だけ見て判断する」と、データの実態を見誤ることがあります。可能なら、平均・中央値の両方を出し、ずれが大きい場合は分布をグラフで確認するクセをつけましょう。可視化はレッスン4で扱います。
ばらつき1:分散と標準偏差
代表値だけでは、データの全体像はつかめません。例えば、次の2つのクラスのテスト結果を考えてみてください。
- クラスA:60点、60点、60点、60点、60点 → 平均60点
- クラスB:20点、40点、60点、80点、100点 → 平均60点
どちらも平均は60点ですが、データの広がりはまるで違います。クラスAは全員同じ点数、クラスBは大きくばらついています。この「ばらつき」を測るのが「分散」と「標準偏差」です。
分散(variance)
分散は、各値と平均の差を二乗して、その平均を取ったものです。「平均からの距離の二乗」の平均なので、データのばらつきが大きいほど分散も大きくなります。
ただし、二乗しているため、元のデータと単位が違ってしまうのが扱いにくい点です。「点数の分散」と言われても、単位は「点の二乗」になってしまいます。
標準偏差(standard deviation)
標準偏差は、分散の平方根を取ったものです。これによって、元のデータと同じ単位に戻せます。
標準偏差 = √分散
クラスAは標準偏差0(全員同じ点数)、クラスBは標準偏差約28点(大きくばらついている)、と表せます。標準偏差が大きいほどばらつきが大きい、小さいほどそろっている、と読み取れます。
🔰 初学者の方へ 数式の意味を完全に理解する必要はありません。「標準偏差は、データのばらつきの大きさを元の単位で表した数字」とだけ覚えておけば実用上十分です。値が大きい=ばらつきが大きい、値が小さい=そろっている、というイメージです。
標準偏差の感覚をつかむ
標準偏差を実務で使うときの目安をいくつか紹介します。
データが正規分布(平均周辺に山ができる左右対称の形)に近いとき、次のような目安があります。
- 平均±1標準偏差の範囲に、約68%のデータが収まる
- 平均±2標準偏差の範囲に、約95%のデータが収まる
- 平均±3標準偏差の範囲に、約99.7%のデータが収まる
例えば、テストの平均が60点・標準偏差が10点なら、約95%の生徒が40点〜80点の範囲に収まる、という見方ができます。
実務のデータが必ず正規分布になるわけではありませんが、おおまかな目安として知っておくと便利です。
ばらつきの別の表現:四分位数
データのばらつきを別の角度から見るのが「四分位数」です。
データを小さい順に並べて、4等分にする位置の値を四分位数と呼びます。
- 第1四分位数(Q1):下から25%の位置
- 第2四分位数(Q2):下から50%の位置 → これが中央値
- 第3四分位数(Q3):下から75%の位置
「第3四分位数−第1四分位数」を四分位範囲(IQR)と呼び、これは「真ん中半分のデータがどのくらいの範囲に収まっているか」を表します。
四分位数の良いところは、外れ値の影響を受けにくい点です。標準偏差は極端な値に引きずられますが、四分位範囲はそうした影響を抑えてばらつきを表せます。
📝 補足 四分位数を視覚的に表したものに「箱ひげ図」があります。中央値を中心に、Q1〜Q3を箱で示し、最小値・最大値をひげで表します。ばらつきや外れ値の有無を一目で確認できる便利なグラフで、データ分析の現場でよく使われます。レッスン4で可視化を扱う際にもう一度触れます。
ExcelやGoogleスプレッドシートで計算する
ここまでの代表値・ばらつきを、ExcelやGoogleスプレッドシートで出すための関数を紹介します。
| 値 | Excel関数 | Googleスプレッドシート関数 |
|---|---|---|
| 平均 | =AVERAGE(範囲) |
=AVERAGE(範囲) |
| 中央値 | =MEDIAN(範囲) |
=MEDIAN(範囲) |
| 最頻値 | =MODE.SNGL(範囲) |
=MODE(範囲) |
| 分散(標本) | =VAR.S(範囲) |
=VAR(範囲) |
| 標準偏差(標本) | =STDEV.S(範囲) |
=STDEV(範囲) |
| 第1四分位数 | =QUARTILE.INC(範囲, 1) |
=QUARTILE(範囲, 1) |
例えば、A2〜A100セルに売上データが入っているとき、=AVERAGE(A2:A100) で平均が、=STDEV.S(A2:A100) で標準偏差が出せます。
💡 ポイント 関数名は微妙にツール間で違いますが、本コースの段階では「こういう関数で出せる」と知っておけば十分です。実際に使うときは、お使いのツールのヘルプで関数名を確認してください。
実例:3つの店舗の売上を読み解く
最後に、実例で読み取り方を練習しましょう。3つの店舗の月別売上(10か月分)から、次のような記述統計が得られたとします。
| 店舗 | 平均 | 中央値 | 標準偏差 |
|---|---|---|---|
| A店 | 100万円 | 100万円 | 5万円 |
| B店 | 100万円 | 95万円 | 30万円 |
| C店 | 100万円 | 100万円 | 0万円 |
どの店舗も平均は100万円ですが、ばらつきと中央値は大きく違います。
- A店:平均と中央値が一致しており、標準偏差も小さい。安定して100万円前後の売上が出ている
- B店:平均は100万円だが、中央値は95万円で、標準偏差が大きい。月によって大きく振れている。たまに大きな売上が出て平均を押し上げている可能性
- C店:標準偏差が0。10か月とも常にぴったり100万円。むしろ不自然で、データの誤りや計上の特殊な事情を疑うべき
このように、平均だけでなく中央値と標準偏差を組み合わせることで、データの実態が見えてきます。
💡 ポイント 標準偏差が「不自然なほど小さい・大きい」場合、データの収集や入力に問題がある可能性も考えるべきです。記述統計はデータの異常に気づくための第一歩でもあります。
まとめ
このレッスンでは、以下のことを学びました。
- 記述統計は、データの全体像を要約する技術
- 代表値(平均・中央値・最頻値)は、データの中心を表す
- 平均は計算しやすいが外れ値に弱く、中央値は外れ値の影響を受けにくい
- ばらつきは分散・標準偏差で測る。標準偏差は元のデータと同じ単位
- 正規分布に近いデータでは、平均±2標準偏差で約95%が収まる
- 四分位数と箱ひげ図で、外れ値に強いばらつきの把握ができる
- ExcelやGoogleスプレッドシートには記述統計用の関数が一通り揃っている
次のレッスンでは、ここで学んだ数字をグラフで「見える化」する方法を学びます。グラフの種類と選び方、そして誤解を招くグラフの避け方を身につけましょう。
確認クイズ
このレッスンの理解度をチェックしましょう。