本文へスキップ
スキルアップカレッジ

記述統計の基本——平均・中央値・標準偏差で全体像をつかむ

レッスン3:記述統計の基本——平均中央値標準偏差で全体像をつかむ

このレッスンで学ぶこと

  • 代表値(平均・中央値・最頻値)の意味と使い分けを理解する
  • ばらつきの指標(分散・標準偏差)が何を測っているかを説明できる
  • 四分位数と箱ひげ図の考え方を知る
  • ExcelやGoogleスプレッドシートで主要な値を出せる関数を知る

レッスン2では、データの種類を見分けることを学びました。このレッスンでは、量的データを扱うときに必ず登場する「記述統計」の基本を学びます。記述統計とは、データの全体像を要約する技術のことで、データ分析で最初に行うことの多い作業です。

記述統計とは

記述統計は、たくさんあるデータを少数の数字や図に要約して、全体の特徴をつかむための技術です。例えば1,000人の顧客アンケートの結果を一人ひとり見ていくのは大変ですが、「平均満足度3.8」「年齢層は20〜60代に幅広く分布」のように要約すれば、全体像が一瞬で見えます。

記述統計で扱う代表的な観点は2つあります。

  1. 代表値:データを1つの数字でまとめると、どこに集まっているか(中心はどこか)
  2. ばらつき:データがどのくらい広がっているか

この2つを押さえると、データの全体像が見えてきます。

代表値1:平均(mean)

最もよく使われる代表値が「平均」です。すべての値を足してデータの個数で割る、というおなじみの計算です。

平均 = (値の合計) ÷ (データの個数)

例:3人の顧客が払った金額が「1,000円・2,000円・3,000円」なら、平均は (1,000 + 2,000 + 3,000) ÷ 3 = 2,000円。

平均は計算しやすく、合計を共有しやすい便利な指標です。一方、極端な値(外れ値)に引きずられやすいという弱点もあります。

💡 ポイント 「平均年収」が話題になるとき、よく「平均は実態とずれている」と言われます。極端に高い人が少数いると、平均が大きく上振れしてしまうためです。次に紹介する中央値の方が、実感に近いことが多いのです。

代表値2:中央値(median)

中央値は、データを小さい順に並べたとき、ちょうど真ん中に来る値のことです。

例:1,000円・2,000円・3,000円・4,000円・100,000円という5つの金額があるとき、平均は (1,000 + 2,000 + 3,000 + 4,000 + 100,000) ÷ 5 = 22,000円。 一方、中央値は真ん中の「3,000円」です。

100,000円という外れ値があると、平均は大きく上振れしますが、中央値は影響を受けません。極端な値の影響を受けにくいのが中央値の特徴です。

💡 ポイント 年収・売上・住宅価格・SNSのフォロワー数など、極端な値が混じりやすいデータでは、平均より中央値のほうが実態を表すことが多いです。「平均と中央値が大きくずれているデータ」は、分布が偏っている可能性があります。

代表値3:最頻値(mode)

最頻値は、最も多く出現する値のことです。

例:あるカフェで売れた商品の数が「ラテ50杯・モカ30杯・カプチーノ40杯・エスプレッソ10杯」だったとき、最頻値は「ラテ」です。

質的データ(カテゴリ)の代表値としては、最頻値が最もよく使われます。「一番売れた商品」「一番多い回答」など、ビジネスで自然に使う発想です。

平均・中央値・最頻値の使い分け

3つの代表値は、扱うデータと目的に応じて使い分けます。

代表値 向いている場面
平均 量的データの全体傾向を1つの数字で表したい。極端な値が少ないとき
中央値 量的データで、極端な値の影響を受けたくないとき
最頻値 質的データの代表的なカテゴリを示したいとき、または「最も多く起きること」を強調したいとき

⚠️ 注意 「平均だけ見て判断する」と、データの実態を見誤ることがあります。可能なら、平均・中央値の両方を出し、ずれが大きい場合は分布をグラフで確認するクセをつけましょう。可視化はレッスン4で扱います。

ばらつき1:分散と標準偏差

代表値だけでは、データの全体像はつかめません。例えば、次の2つのクラスのテスト結果を考えてみてください。

  • クラスA:60点、60点、60点、60点、60点 → 平均60点
  • クラスB:20点、40点、60点、80点、100点 → 平均60点

どちらも平均は60点ですが、データの広がりはまるで違います。クラスAは全員同じ点数、クラスBは大きくばらついています。この「ばらつき」を測るのが「分散」と「標準偏差」です。

分散(variance)

分散は、各値と平均の差を二乗して、その平均を取ったものです。「平均からの距離の二乗」の平均なので、データのばらつきが大きいほど分散も大きくなります。

ただし、二乗しているため、元のデータと単位が違ってしまうのが扱いにくい点です。「点数の分散」と言われても、単位は「点の二乗」になってしまいます。

標準偏差(standard deviation)

標準偏差は、分散の平方根を取ったものです。これによって、元のデータと同じ単位に戻せます。

標準偏差 = √分散

クラスAは標準偏差0(全員同じ点数)、クラスBは標準偏差約28点(大きくばらついている)、と表せます。標準偏差が大きいほどばらつきが大きい、小さいほどそろっている、と読み取れます。

🔰 初学者の方へ 数式の意味を完全に理解する必要はありません。「標準偏差は、データのばらつきの大きさを元の単位で表した数字」とだけ覚えておけば実用上十分です。値が大きい=ばらつきが大きい、値が小さい=そろっている、というイメージです。

標準偏差の感覚をつかむ

標準偏差を実務で使うときの目安をいくつか紹介します。

データが正規分布(平均周辺に山ができる左右対称の形)に近いとき、次のような目安があります。

  • 平均±1標準偏差の範囲に、約68%のデータが収まる
  • 平均±2標準偏差の範囲に、約95%のデータが収まる
  • 平均±3標準偏差の範囲に、約99.7%のデータが収まる

例えば、テストの平均が60点・標準偏差が10点なら、約95%の生徒が40点〜80点の範囲に収まる、という見方ができます。

実務のデータが必ず正規分布になるわけではありませんが、おおまかな目安として知っておくと便利です。

ばらつきの別の表現:四分位数

データのばらつきを別の角度から見るのが「四分位数」です。

データを小さい順に並べて、4等分にする位置の値を四分位数と呼びます。

  • 第1四分位数(Q1):下から25%の位置
  • 第2四分位数(Q2):下から50%の位置 → これが中央値
  • 第3四分位数(Q3):下から75%の位置

「第3四分位数−第1四分位数」を四分位範囲(IQR)と呼び、これは「真ん中半分のデータがどのくらいの範囲に収まっているか」を表します。

四分位数の良いところは、外れ値の影響を受けにくい点です。標準偏差は極端な値に引きずられますが、四分位範囲はそうした影響を抑えてばらつきを表せます。

📝 補足 四分位数を視覚的に表したものに「箱ひげ図」があります。中央値を中心に、Q1〜Q3を箱で示し、最小値・最大値をひげで表します。ばらつきや外れ値の有無を一目で確認できる便利なグラフで、データ分析の現場でよく使われます。レッスン4で可視化を扱う際にもう一度触れます。

ExcelやGoogleスプレッドシートで計算する

ここまでの代表値・ばらつきを、ExcelやGoogleスプレッドシートで出すための関数を紹介します。

Excel関数 Googleスプレッドシート関数
平均 =AVERAGE(範囲) =AVERAGE(範囲)
中央値 =MEDIAN(範囲) =MEDIAN(範囲)
最頻値 =MODE.SNGL(範囲) =MODE(範囲)
分散(標本) =VAR.S(範囲) =VAR(範囲)
標準偏差(標本) =STDEV.S(範囲) =STDEV(範囲)
第1四分位数 =QUARTILE.INC(範囲, 1) =QUARTILE(範囲, 1)

例えば、A2〜A100セルに売上データが入っているとき、=AVERAGE(A2:A100) で平均が、=STDEV.S(A2:A100) で標準偏差が出せます。

💡 ポイント 関数名は微妙にツール間で違いますが、本コースの段階では「こういう関数で出せる」と知っておけば十分です。実際に使うときは、お使いのツールのヘルプで関数名を確認してください。

実例:3つの店舗の売上を読み解く

最後に、実例で読み取り方を練習しましょう。3つの店舗の月別売上(10か月分)から、次のような記述統計が得られたとします。

店舗 平均 中央値 標準偏差
A店 100万円 100万円 5万円
B店 100万円 95万円 30万円
C店 100万円 100万円 0万円

どの店舗も平均は100万円ですが、ばらつきと中央値は大きく違います。

  • A店:平均と中央値が一致しており、標準偏差も小さい。安定して100万円前後の売上が出ている
  • B店:平均は100万円だが、中央値は95万円で、標準偏差が大きい。月によって大きく振れている。たまに大きな売上が出て平均を押し上げている可能性
  • C店:標準偏差が0。10か月とも常にぴったり100万円。むしろ不自然で、データの誤りや計上の特殊な事情を疑うべき

このように、平均だけでなく中央値と標準偏差を組み合わせることで、データの実態が見えてきます。

💡 ポイント 標準偏差が「不自然なほど小さい・大きい」場合、データの収集や入力に問題がある可能性も考えるべきです。記述統計はデータの異常に気づくための第一歩でもあります。

まとめ

このレッスンでは、以下のことを学びました。

  • 記述統計は、データの全体像を要約する技術
  • 代表値(平均・中央値・最頻値)は、データの中心を表す
  • 平均は計算しやすいが外れ値に弱く、中央値は外れ値の影響を受けにくい
  • ばらつきは分散・標準偏差で測る。標準偏差は元のデータと同じ単位
  • 正規分布に近いデータでは、平均±2標準偏差で約95%が収まる
  • 四分位数と箱ひげ図で、外れ値に強いばらつきの把握ができる
  • ExcelやGoogleスプレッドシートには記述統計用の関数が一通り揃っている

次のレッスンでは、ここで学んだ数字をグラフで「見える化」する方法を学びます。グラフの種類と選び方、そして誤解を招くグラフの避け方を身につけましょう。


確認クイズ

このレッスンの理解度をチェックしましょう。