レッスン3：記述統計の基本——平均・中央値・標準偏差で全体像をつかむ

このレッスンで学ぶこと

代表値（平均・中央値・最頻値）の意味と使い分けを理解する
ばらつきの指標（分散・標準偏差）が何を測っているかを説明できる
四分位数と箱ひげ図の考え方を知る
ExcelやGoogleスプレッドシートで主要な値を出せる関数を知る

レッスン2では、データの種類を見分けることを学びました。このレッスンでは、量的データを扱うときに必ず登場する「記述統計」の基本を学びます。記述統計とは、データの全体像を要約する技術のことで、データ分析で最初に行うことの多い作業です。

記述統計とは

記述統計は、たくさんあるデータを少数の数字や図に要約して、全体の特徴をつかむための技術です。例えば1,000人の顧客アンケートの結果を一人ひとり見ていくのは大変ですが、「平均満足度3.8」「年齢層は20〜60代に幅広く分布」のように要約すれば、全体像が一瞬で見えます。

記述統計で扱う代表的な観点は2つあります。

代表値：データを1つの数字でまとめると、どこに集まっているか（中心はどこか）
ばらつき：データがどのくらい広がっているか

この2つを押さえると、データの全体像が見えてきます。

代表値1：平均（mean）

最もよく使われる代表値が「平均」です。すべての値を足してデータの個数で割る、というおなじみの計算です。

平均 = (値の合計) ÷ (データの個数)

例：3人の顧客が払った金額が「1,000円・2,000円・3,000円」なら、平均は (1,000 + 2,000 + 3,000) ÷ 3 = 2,000円。

平均は計算しやすく、合計を共有しやすい便利な指標です。一方、極端な値（外れ値）に引きずられやすいという弱点もあります。

💡 ポイント 「平均年収」が話題になるとき、よく「平均は実態とずれている」と言われます。極端に高い人が少数いると、平均が大きく上振れしてしまうためです。次に紹介する中央値の方が、実感に近いことが多いのです。

代表値2：中央値（median）

中央値は、データを小さい順に並べたとき、ちょうど真ん中に来る値のことです。

例：1,000円・2,000円・3,000円・4,000円・100,000円という5つの金額があるとき、平均は (1,000 + 2,000 + 3,000 + 4,000 + 100,000) ÷ 5 = 22,000円。一方、中央値は真ん中の「3,000円」です。

100,000円という外れ値があると、平均は大きく上振れしますが、中央値は影響を受けません。極端な値の影響を受けにくいのが中央値の特徴です。

💡 ポイント 年収・売上・住宅価格・SNSのフォロワー数など、極端な値が混じりやすいデータでは、平均より中央値のほうが実態を表すことが多いです。「平均と中央値が大きくずれているデータ」は、分布が偏っている可能性があります。

代表値3：最頻値（mode）

最頻値は、最も多く出現する値のことです。

例：あるカフェで売れた商品の数が「ラテ50杯・モカ30杯・カプチーノ40杯・エスプレッソ10杯」だったとき、最頻値は「ラテ」です。

質的データ（カテゴリ）の代表値としては、最頻値が最もよく使われます。「一番売れた商品」「一番多い回答」など、ビジネスで自然に使う発想です。

平均・中央値・最頻値の使い分け

3つの代表値は、扱うデータと目的に応じて使い分けます。

代表値	向いている場面
平均	量的データの全体傾向を1つの数字で表したい。極端な値が少ないとき
中央値	量的データで、極端な値の影響を受けたくないとき
最頻値	質的データの代表的なカテゴリを示したいとき、または「最も多く起きること」を強調したいとき

⚠️ 注意 「平均だけ見て判断する」と、データの実態を見誤ることがあります。可能なら、平均・中央値の両方を出し、ずれが大きい場合は分布をグラフで確認するクセをつけましょう。可視化はレッスン4で扱います。

ばらつき1：分散と標準偏差

代表値だけでは、データの全体像はつかめません。例えば、次の2つのクラスのテスト結果を考えてみてください。

クラスA：60点、60点、60点、60点、60点 → 平均60点
クラスB：20点、40点、60点、80点、100点 → 平均60点

どちらも平均は60点ですが、データの広がりはまるで違います。クラスAは全員同じ点数、クラスBは大きくばらついています。この「ばらつき」を測るのが「分散」と「標準偏差」です。

分散（variance）

分散は、各値と平均の差を二乗して、その平均を取ったものです。「平均からの距離の二乗」の平均なので、データのばらつきが大きいほど分散も大きくなります。

ただし、二乗しているため、元のデータと単位が違ってしまうのが扱いにくい点です。「点数の分散」と言われても、単位は「点の二乗」になってしまいます。

標準偏差（standard deviation）

標準偏差は、分散の平方根を取ったものです。これによって、元のデータと同じ単位に戻せます。

標準偏差 = √分散

クラスAは標準偏差0（全員同じ点数）、クラスBは標準偏差約28点（大きくばらついている）、と表せます。標準偏差が大きいほどばらつきが大きい、小さいほどそろっている、と読み取れます。

🔰 初学者の方へ 数式の意味を完全に理解する必要はありません。「標準偏差は、データのばらつきの大きさを元の単位で表した数字」とだけ覚えておけば実用上十分です。値が大きい＝ばらつきが大きい、値が小さい＝そろっている、というイメージです。

標準偏差の感覚をつかむ

標準偏差を実務で使うときの目安をいくつか紹介します。

データが正規分布（平均周辺に山ができる左右対称の形）に近いとき、次のような目安があります。

平均±1標準偏差の範囲に、約68%のデータが収まる
平均±2標準偏差の範囲に、約95%のデータが収まる
平均±3標準偏差の範囲に、約99.7%のデータが収まる

例えば、テストの平均が60点・標準偏差が10点なら、約95%の生徒が40点〜80点の範囲に収まる、という見方ができます。

実務のデータが必ず正規分布になるわけではありませんが、おおまかな目安として知っておくと便利です。

ばらつきの別の表現：四分位数

データのばらつきを別の角度から見るのが「四分位数」です。

データを小さい順に並べて、4等分にする位置の値を四分位数と呼びます。

第1四分位数（Q1）：下から25%の位置
第2四分位数（Q2）：下から50%の位置 → これが中央値
第3四分位数（Q3）：下から75%の位置

「第3四分位数−第1四分位数」を四分位範囲（IQR）と呼び、これは「真ん中半分のデータがどのくらいの範囲に収まっているか」を表します。

四分位数の良いところは、外れ値の影響を受けにくい点です。標準偏差は極端な値に引きずられますが、四分位範囲はそうした影響を抑えてばらつきを表せます。

📝 補足 四分位数を視覚的に表したものに「箱ひげ図」があります。中央値を中心に、Q1〜Q3を箱で示し、最小値・最大値をひげで表します。ばらつきや外れ値の有無を一目で確認できる便利なグラフで、データ分析の現場でよく使われます。レッスン4で可視化を扱う際にもう一度触れます。

ExcelやGoogleスプレッドシートで計算する

ここまでの代表値・ばらつきを、ExcelやGoogleスプレッドシートで出すための関数を紹介します。

値	Excel関数	Googleスプレッドシート関数
平均	`=AVERAGE(範囲)`	`=AVERAGE(範囲)`
中央値	`=MEDIAN(範囲)`	`=MEDIAN(範囲)`
最頻値	`=MODE.SNGL(範囲)`	`=MODE(範囲)`
分散（標本）	`=VAR.S(範囲)`	`=VAR(範囲)`
標準偏差（標本）	`=STDEV.S(範囲)`	`=STDEV(範囲)`
第1四分位数	`=QUARTILE.INC(範囲, 1)`	`=QUARTILE(範囲, 1)`

例えば、A2〜A100セルに売上データが入っているとき、=AVERAGE(A2:A100) で平均が、=STDEV.S(A2:A100) で標準偏差が出せます。

💡 ポイント 関数名は微妙にツール間で違いますが、本コースの段階では「こういう関数で出せる」と知っておけば十分です。実際に使うときは、お使いのツールのヘルプで関数名を確認してください。

実例：3つの店舗の売上を読み解く

最後に、実例で読み取り方を練習しましょう。3つの店舗の月別売上（10か月分）から、次のような記述統計が得られたとします。

店舗	平均	中央値	標準偏差
A店	100万円	100万円	5万円
B店	100万円	95万円	30万円
C店	100万円	100万円	0万円

どの店舗も平均は100万円ですが、ばらつきと中央値は大きく違います。

A店：平均と中央値が一致しており、標準偏差も小さい。安定して100万円前後の売上が出ている
B店：平均は100万円だが、中央値は95万円で、標準偏差が大きい。月によって大きく振れている。たまに大きな売上が出て平均を押し上げている可能性
C店：標準偏差が0。10か月とも常にぴったり100万円。むしろ不自然で、データの誤りや計上の特殊な事情を疑うべき

このように、平均だけでなく中央値と標準偏差を組み合わせることで、データの実態が見えてきます。

💡 ポイント 標準偏差が「不自然なほど小さい・大きい」場合、データの収集や入力に問題がある可能性も考えるべきです。記述統計はデータの異常に気づくための第一歩でもあります。

まとめ

このレッスンでは、以下のことを学びました。

記述統計は、データの全体像を要約する技術
代表値（平均・中央値・最頻値）は、データの中心を表す
平均は計算しやすいが外れ値に弱く、中央値は外れ値の影響を受けにくい
ばらつきは分散・標準偏差で測る。標準偏差は元のデータと同じ単位
正規分布に近いデータでは、平均±2標準偏差で約95%が収まる
四分位数と箱ひげ図で、外れ値に強いばらつきの把握ができる
ExcelやGoogleスプレッドシートには記述統計用の関数が一通り揃っている

次のレッスンでは、ここで学んだ数字をグラフで「見える化」する方法を学びます。グラフの種類と選び方、そして誤解を招くグラフの避け方を身につけましょう。

確認クイズ

このレッスンの理解度をチェックしましょう。