本文へスキップ
スキルアップカレッジ

主要な検定の使い分け——t 検定、カイ二乗、分散分析

レッスン6:主要な検定の使い分け——t 検定、カイ二乗、分散分析

このレッスンで学ぶこと

  • 検定を「変数の種類」と「群の数」から選ぶ発想を身につける
  • t 検定の 3 つのバリエーション(1 標本、2 標本、対応のある t 検定)を区別できる
  • カイ二乗検定(適合度・独立性)が、カテゴリーデータに使う検定であることを理解する
  • 一元配置分散分析を「3 群以上の平均比較」の道具として位置づけられる
  • A/B テストとの結び付けを意識して、現場で使う場面を持ち帰る

レッスン 5 で仮説検定の論理を整理しました。本レッスンは、実際にビジネスで使う代表的な検定の「選び方」を、フローチャート形式で押さえる回です。本コースは数式に踏み込まないので、「どの場面でどの検定を選ぶか」の地図を持ち帰ることを目標にします。検定の計算は統計ソフト(Excel、R、Python など)が引き受けてくれるので、現場で重要なのは「何を選ぶか」と「結果をどう読むか」です。

検定を選ぶ 2 つの軸

検定の使い分けは、ほぼ次の 2 つの軸で決まります。

①変数の種類

比較したい変数が「連続値」か「カテゴリー」かで、検定が変わります。

  • 連続値(数値で、間に細かい段階がある):売上、購買額、利用時間、評価点、寸法、温度など
  • カテゴリー(離散的なラベル):性別、購入有無、製品種別、アンケートの選択肢など

②群の数

比較したい「グループ」がいくつあるかで、検定が変わります。

  • 1 群(手元のデータが、基準値と比べてどうか)
  • 2 群(A と B、施策あり/なし、男女など)
  • 3 群以上(A・B・C、3 つの店舗、3 つの広告クリエイティブなど)

検定選びのフローチャート

具体的なフローを図にまとめると、こうなります。

flowchart TD
  A[何を比較したいか] --> B{変数の種類}
  B -->|連続値の平均| C{群の数}
  B -->|カテゴリの比率| D[カイ二乗検定]
  C -->|1 群と基準値| E[1 標本 t 検定]
  C -->|独立した 2 群| F[2 標本 t 検定]
  C -->|対応のある 2 群| G[対応のある t 検定]
  C -->|3 群以上| H[一元配置分散分析]

これが現場で迷わないための「地図」です。本レッスンの残りで、各検定を順に整理していきます。

💡 ポイント 検定の選び方は、教科書だけ読むと膨大なバリエーションがあるように見えます。本コースでは、まずこのフローチャートで主要なものだけ押さえます。実務で 80% のケースはこの中で対処でき、残り 20% の特殊な状況(時系列、ノンパラ、複数要因など)は、必要になった段階で個別に学ぶのが現実的です。

t 検定の 3 つのバリエーション

t 検定(t-test)は、連続値の平均を比較するときに使う代表的な検定です。1908 年に、ウィリアム・シーリー・ゴセット(William Sealy Gosset)が、当時勤めていたギネス・ビール工場で品質管理のために考案したことから、論文ペンネーム「Student(学生)」を取って「スチューデントの t 検定」とも呼ばれます。

①1 標本 t 検定

手元のデータの平均が、ある基準値と比べて違うかを判断します。

例:

  • 自社製品の重量の平均は、仕様書の基準値「100g」と違うか
  • 顧客満足度の平均は、業界平均の「7.0 点」と違うか
  • 製造工程の不良品の長さの平均は、規定値「50mm」と違うか

帰無仮説:母集団の平均 = 基準値 対立仮説:母集団の平均 ≠ 基準値(または、片側で「大きい/小さい」)

②2 標本 t 検定(独立 2 群)

別々に取った 2 つの群の平均が違うかを判断します。両群は、独立であることが前提です。

例:

  • 男性と女性で顧客単価の平均は違うか
  • 関東と関西で店舗平均売上は違うか
  • 施策 A を見た人と施策 B を見た人で、購入率は違うか(A/B テストの定番)

帰無仮説:群 A の平均 = 群 B の平均 対立仮説:群 A の平均 ≠ 群 B の平均

注意点:2 群の分散(ばらつき)が等しいかどうかで、計算式がやや変わります(Welch の t 検定など)。実務では、Welch 流を使うのが安全とされ、統計ソフトの多くがそれをデフォルトにしています。

③対応のある t 検定(ペア t 検定)

同じ対象を 2 回観測して、その差を判断します。「ビフォーアフター」のような構造です。

例:

  • 研修の前後で、同じ社員の評価点は変わったか
  • 改善前と改善後で、同じ工程の不良率は変わったか
  • 広告 A と広告 B を、同じユーザーに順に見せて、購入意向は変わったか

帰無仮説:個人ごとの差の平均 = 0 対立仮説:個人ごとの差の平均 ≠ 0

対応のある t 検定は、個人差の影響を取り除けるため、独立 2 群の t 検定より検出力が高くなる傾向があります。「同じ対象を 2 回見られる」場面では、こちらを選ぶ方が効率的です。

🔰 初学者の方へ 「2 標本 t 検定」と「対応のある t 検定」の選び分けは、実務でよく混乱します。判別の鍵は「測定対象が同じか別か」です。同じ人を 2 回測ったなら対応あり、別々の人を 1 回ずつ測ったなら独立 2 群、と覚えると判断しやすくなります。

カイ二乗検定——カテゴリーの世界の検定

カイ二乗検定(chi-squared test)は、カテゴリーデータ(性別、選択肢、有無など)の比率や独立性を扱う検定です。代表的なバリエーションが 2 つあります。

適合度検定(goodness-of-fit test)

観測された分布が、想定した理論的な分布と一致しているかを判断します。

例:

  • サイコロが「公平か」(1〜6 がそれぞれ 1/6 ずつ出るか)
  • アンケートの回答比率が、過去の比率と変わったか
  • 来店者の年代構成が、想定したターゲット構成と一致するか

帰無仮説:観測分布 = 想定分布 対立仮説:観測分布 ≠ 想定分布

独立性検定(test of independence)

2 つのカテゴリ変数が独立か(互いに関係ないか)を判断します。

例:

  • 性別と購入有無は独立か(性別によって購入率が違うか)
  • 居住地域と利用プランは独立か
  • 部署と退職意向は独立か

これは、A/B テストの「購入有無」の分析でも使われます。ただし、A/B テストで「コンバージョン率の差」を扱う場合は、2 標本 t 検定(割合の検定)でも、カイ二乗検定でも、両者は同等に近い結果になります。実務的にはどちらでも構いません。

帰無仮説:2 変数は独立 対立仮説:2 変数は独立でない(関連がある)

⚠️ 注意 カイ二乗検定には、データの度数(観測数)が小さいと、結果が不安定になるという制限があります。慣習的に、「期待度数がすべて 5 以上」「クロス表のどのセルも度数が極端に小さくない」が条件です。少数しか観測されないカテゴリは、フィッシャーの直接確率法(Fisher's exact test)を使うことがあります。

分散分析——3 群以上の平均を一度に比較する

分散分析(analysis of variance, ANOVA)は、3 群以上の連続値の平均を比較するときに使う検定です。ロナルド・A・フィッシャー(Ronald A. Fisher)が 1920 年代に開発しました。

なぜ「t 検定を繰り返す」ではダメか

「3 つの群(A・B・C)を比較するなら、t 検定を 3 回(A 対 B、A 対 C、B 対 C)すればいいのでは?」と思うかもしれません。実はこれは推奨されません。

理由は、検定を繰り返すと「第一種の過誤(差がないのに差があると誤判定する確率)」が累積するためです。1 回の t 検定で α = 0.05 でも、3 回繰り返すと「少なくとも 1 つで偽陽性が出る確率」は約 14% になります。10 回繰り返せば 40% を超えます。これを「多重比較問題(multiple comparisons problem)」と呼びます。

分散分析は、「3 群以上の平均に差があるか」をひとつの検定で答える設計になっており、多重比較問題を回避します。

一元配置分散分析(one-way ANOVA)

最も基本的な分散分析です。1 つの要因(例:店舗・広告・部署)の水準ごとに、連続値の平均を比較します。

例:

  • 3 つの店舗で平均客単価に差があるか
  • 4 種類の広告クリエイティブで購入率に差があるか
  • 5 つの部署で平均評価点に差があるか

帰無仮説:すべての群の平均が等しい 対立仮説:少なくとも 1 つの群の平均が他と違う

分散分析の結果と「事後検定」

分散分析で「差がある」とわかったあと、「具体的にどの群とどの群の差か」を知るには、事後検定(post-hoc test)が必要です。代表的な手法に Tukey の HSD、Bonferroni 法、Scheffé 法などがあります。本コースでは深入りしませんが、「分散分析で全体に差があるとわかったあと、事後検定で個別の差を見る」という流れがあることだけ押さえてください。

📝 補足 分散分析の「分散」という名前は、データのばらつきを「群の間(要因の効果)」と「群の中(誤差)」に分解する発想から来ています。「群の間のばらつき」が「群の中のばらつき」より十分大きいとき、「群によって平均が違う」と判断します。これが分散分析の基本ロジックです。

A/B テストと検定——実務上の典型場面

ビジネスで検定を最もよく使う場面の 1 つが、A/B テストです。実務上の典型をまとめておきます。

コンバージョン率の差(カテゴリ:購入した/しない)

施策 A の購入率 3.5%、施策 B の購入率 3.8%。この差は偶然か?

  • カイ二乗検定(独立性)または 2 標本の比率の検定で扱う
  • 統計ソフト・A/B テストツールでは「カイ二乗検定」「Z 検定」「Fisher 検定」のいずれかが使われる

平均購入額の差(連続値)

施策 A の購入額平均 5,200 円、施策 B の購入額平均 5,500 円。この差は偶然か?

  • 2 標本 t 検定(Welch 流)で扱う
  • ただし、購入額は右に歪んだ分布になることが多いため、中央値で見る・対数変換するなど工夫することも

繰り返し検定の罠

A/B テストでは、「テスト期間中に何度も中間結果を見て、有意になったら早期終了」が誘惑になります。これは多重比較問題を引き起こし、第一種の過誤が膨らみます。「事前に決めた標本サイズに達するまで結果を見ない」のが原則ですが、「逐次検定」「ベイズ A/B テスト」など、繰り返し見ることを前提とした手法も実務で使われています。

⚠️ 注意 A/B テストでよくある失敗:①標本サイズを事前に決めない、②p < 0.05 になった時点で早期終了、③テスト終了後に「セグメント別に分けてみる」と再分析(これは HARKing と呼ばれる、レッスン 8 で扱う問題)。これらは検定の前提を崩します。「設計を先、解析を後」の順序を守るのが運用の基本です。

「検定の前提」を意識する

最後に、本レッスンで触れた検定の多くが、いくつかの「前提」を置いていることを意識しておきましょう。

  • t 検定:データが正規分布に近い、観測が独立(中心極限定理により、標本が十分大きければ正規性は緩い)
  • カイ二乗検定:期待度数が小さすぎない、観測が独立
  • 分散分析:データが正規分布に近い、群ごとの分散が等しい、観測が独立

前提が大きく崩れていると、検定の結論は信頼できません。実務では、ヒストグラムや箱ひげ図でデータの形を確認したり、ノンパラメトリック検定(Mann-Whitney U 検定、Kruskal-Wallis 検定など)の使用を検討したりします。本コースでは詳細に立ち入りませんが、「検定には前提がある」ことだけ覚えておくと、誤用が減ります。

講師の現場メモ:「3 群比較を t 検定 3 回でやろうとした」社内分析の話

私(牧野)が事業会社の小売 KPI 設計を担当していたころの話です。あるとき、別部署のデータ担当者から「3 つの店舗の客単価を比較したい。t 検定を 3 回(A 対 B、A 対 C、B 対 C)でいいですよね」と相談を受けました。

私は「それだと多重比較問題が起きますよ」と返し、分散分析を勧めました。担当者は「t 検定の方が馴染みがあって、上司にも説明しやすいので、t 検定でやらせてもらえないか」と粘りました。

私は、シミュレーションで実証してみせることにしました。「もし 3 店舗の真の客単価がすべて同じ(差がない)」という前提でランダムデータを生成し、t 検定を 3 回繰り返す手続きを 10,000 回シミュレーションしてみたのです。

結果は、「3 回のうち少なくとも 1 つで p < 0.05 が出る確率」が約 14% でした。本来は「差がないので、どの比較も有意にならないはず」なのに、実際には 7 件に 1 件は偶然「有意」が出てしまうことを、数字で見せました。

担当者は驚き、「これは怖いですね。やはり分散分析にします」と納得してくれました。さらに「分散分析で差があるとわかったあと、Tukey の HSD で個別の差を見る」流れも一緒に押さえました。

このときに、改めて「教科書の論理は、シミュレーションで見せると腹落ちする」と感じました。多重比較問題は、抽象論として聞くとピンとこなくても、「14% の偽陽性」という数字を見せると、ぐっと納得しやすくなります。本コースの読者にも、「検定の選び方の地図」を持ち帰っていただくと、職場での誤用が一つ減らせるはずです。

まとめ

このレッスンでは、以下のことを学びました。

  • 検定は「変数の種類(連続値/カテゴリ)」と「群の数(1/2/3 以上)」で選ぶ
  • t 検定(William Gosset、1908 年、ギネス工場で開発):連続値の平均比較。1 標本/独立 2 群/対応のある t 検定の 3 種類
  • カイ二乗検定:カテゴリーデータの比率や独立性の検定。適合度検定と独立性検定の 2 種類
  • 分散分析(Ronald A. Fisher、1920 年代):3 群以上の連続値の平均を一度に比較。多重比較問題を回避する設計
  • t 検定を繰り返すと多重比較問題(第一種の過誤の累積)が起きるので、3 群以上は分散分析を使う
  • A/B テストの実務:コンバージョン率はカイ二乗、購入額は t 検定。繰り返し検定や事後分析の罠に注意
  • 検定には前提(正規性・独立性・等分散性など)があり、大きく崩れていると結論が信頼できない

次のレッスンでは、変数の関係を扱います。相関係数の意味と限界、相関と因果の区別、単回帰分析、決定係数、多変数回帰の入口、多重共線性。検定とは別の角度から「数字の関係」を読み解く道具を学びます。


確認クイズ

このレッスンの理解度をチェックしましょう。