レッスン6：主要な検定の使い分け——t 検定、カイ二乗、分散分析

このレッスンで学ぶこと

検定を「変数の種類」と「群の数」から選ぶ発想を身につける
t 検定の 3 つのバリエーション（1 標本、2 標本、対応のある t 検定）を区別できる
カイ二乗検定（適合度・独立性）が、カテゴリーデータに使う検定であることを理解する
一元配置分散分析を「3 群以上の平均比較」の道具として位置づけられる
A/B テストとの結び付けを意識して、現場で使う場面を持ち帰る

レッスン 5 で仮説検定の論理を整理しました。本レッスンは、実際にビジネスで使う代表的な検定の「選び方」を、フローチャート形式で押さえる回です。本コースは数式に踏み込まないので、「どの場面でどの検定を選ぶか」の地図を持ち帰ることを目標にします。検定の計算は統計ソフト（Excel、R、Python など）が引き受けてくれるので、現場で重要なのは「何を選ぶか」と「結果をどう読むか」です。

検定を選ぶ 2 つの軸

検定の使い分けは、ほぼ次の 2 つの軸で決まります。

①変数の種類

比較したい変数が「連続値」か「カテゴリー」かで、検定が変わります。

連続値（数値で、間に細かい段階がある）：売上、購買額、利用時間、評価点、寸法、温度など
カテゴリー（離散的なラベル）：性別、購入有無、製品種別、アンケートの選択肢など

②群の数

比較したい「グループ」がいくつあるかで、検定が変わります。

1 群（手元のデータが、基準値と比べてどうか）
2 群（A と B、施策あり／なし、男女など）
3 群以上（A・B・C、3 つの店舗、3 つの広告クリエイティブなど）

検定選びのフローチャート

具体的なフローを図にまとめると、こうなります。

flowchart TD
  A[何を比較したいか] --> B{変数の種類}
  B -->|連続値の平均| C{群の数}
  B -->|カテゴリの比率| D[カイ二乗検定]
  C -->|1 群と基準値| E[1 標本 t 検定]
  C -->|独立した 2 群| F[2 標本 t 検定]
  C -->|対応のある 2 群| G[対応のある t 検定]
  C -->|3 群以上| H[一元配置分散分析]

これが現場で迷わないための「地図」です。本レッスンの残りで、各検定を順に整理していきます。

💡 ポイント 検定の選び方は、教科書だけ読むと膨大なバリエーションがあるように見えます。本コースでは、まずこのフローチャートで主要なものだけ押さえます。実務で 80% のケースはこの中で対処でき、残り 20% の特殊な状況（時系列、ノンパラ、複数要因など）は、必要になった段階で個別に学ぶのが現実的です。

t 検定の 3 つのバリエーション

t 検定（t-test）は、連続値の平均を比較するときに使う代表的な検定です。1908 年に、ウィリアム・シーリー・ゴセット（William Sealy Gosset）が、当時勤めていたギネス・ビール工場で品質管理のために考案したことから、論文ペンネーム「Student（学生）」を取って「スチューデントの t 検定」とも呼ばれます。

①1 標本 t 検定

手元のデータの平均が、ある基準値と比べて違うかを判断します。

例：

自社製品の重量の平均は、仕様書の基準値「100g」と違うか
顧客満足度の平均は、業界平均の「7.0 点」と違うか
製造工程の不良品の長さの平均は、規定値「50mm」と違うか

帰無仮説：母集団の平均 = 基準値対立仮説：母集団の平均 ≠ 基準値（または、片側で「大きい／小さい」）

②2 標本 t 検定（独立 2 群）

別々に取った 2 つの群の平均が違うかを判断します。両群は、独立であることが前提です。

例：

男性と女性で顧客単価の平均は違うか
関東と関西で店舗平均売上は違うか
施策 A を見た人と施策 B を見た人で、購入率は違うか（A/B テストの定番）

帰無仮説：群 A の平均 = 群 B の平均対立仮説：群 A の平均 ≠ 群 B の平均

注意点：2 群の分散（ばらつき）が等しいかどうかで、計算式がやや変わります（Welch の t 検定など）。実務では、Welch 流を使うのが安全とされ、統計ソフトの多くがそれをデフォルトにしています。

③対応のある t 検定（ペア t 検定）

同じ対象を 2 回観測して、その差を判断します。「ビフォーアフター」のような構造です。

例：

研修の前後で、同じ社員の評価点は変わったか
改善前と改善後で、同じ工程の不良率は変わったか
広告 A と広告 B を、同じユーザーに順に見せて、購入意向は変わったか

帰無仮説：個人ごとの差の平均 = 0 対立仮説：個人ごとの差の平均 ≠ 0

対応のある t 検定は、個人差の影響を取り除けるため、独立 2 群の t 検定より検出力が高くなる傾向があります。「同じ対象を 2 回見られる」場面では、こちらを選ぶ方が効率的です。

🔰 初学者の方へ 「2 標本 t 検定」と「対応のある t 検定」の選び分けは、実務でよく混乱します。判別の鍵は「測定対象が同じか別か」です。同じ人を 2 回測ったなら対応あり、別々の人を 1 回ずつ測ったなら独立 2 群、と覚えると判断しやすくなります。

カイ二乗検定——カテゴリーの世界の検定

カイ二乗検定（chi-squared test）は、カテゴリーデータ（性別、選択肢、有無など）の比率や独立性を扱う検定です。代表的なバリエーションが 2 つあります。

①適合度検定（goodness-of-fit test）

観測された分布が、想定した理論的な分布と一致しているかを判断します。

例：

サイコロが「公平か」（1〜6 がそれぞれ 1/6 ずつ出るか）
アンケートの回答比率が、過去の比率と変わったか
来店者の年代構成が、想定したターゲット構成と一致するか

帰無仮説：観測分布 = 想定分布対立仮説：観測分布 ≠ 想定分布

②独立性検定（test of independence）

2 つのカテゴリ変数が独立か（互いに関係ないか）を判断します。

例：

性別と購入有無は独立か（性別によって購入率が違うか）
居住地域と利用プランは独立か
部署と退職意向は独立か

これは、A/B テストの「購入有無」の分析でも使われます。ただし、A/B テストで「コンバージョン率の差」を扱う場合は、2 標本 t 検定（割合の検定）でも、カイ二乗検定でも、両者は同等に近い結果になります。実務的にはどちらでも構いません。

帰無仮説：2 変数は独立対立仮説：2 変数は独立でない（関連がある）

⚠️ 注意 カイ二乗検定には、データの度数（観測数）が小さいと、結果が不安定になるという制限があります。慣習的に、「期待度数がすべて 5 以上」「クロス表のどのセルも度数が極端に小さくない」が条件です。少数しか観測されないカテゴリは、フィッシャーの直接確率法（Fisher's exact test）を使うことがあります。

分散分析——3 群以上の平均を一度に比較する

分散分析（analysis of variance, ANOVA）は、3 群以上の連続値の平均を比較するときに使う検定です。ロナルド・A・フィッシャー（Ronald A. Fisher）が 1920 年代に開発しました。

なぜ「t 検定を繰り返す」ではダメか

「3 つの群（A・B・C）を比較するなら、t 検定を 3 回（A 対 B、A 対 C、B 対 C）すればいいのでは？」と思うかもしれません。実はこれは推奨されません。

理由は、検定を繰り返すと「第一種の過誤（差がないのに差があると誤判定する確率）」が累積するためです。1 回の t 検定で α = 0.05 でも、3 回繰り返すと「少なくとも 1 つで偽陽性が出る確率」は約 14% になります。10 回繰り返せば 40% を超えます。これを「多重比較問題（multiple comparisons problem）」と呼びます。

分散分析は、「3 群以上の平均に差があるか」をひとつの検定で答える設計になっており、多重比較問題を回避します。

一元配置分散分析（one-way ANOVA）

最も基本的な分散分析です。1 つの要因（例：店舗・広告・部署）の水準ごとに、連続値の平均を比較します。

例：

3 つの店舗で平均客単価に差があるか
4 種類の広告クリエイティブで購入率に差があるか
5 つの部署で平均評価点に差があるか

帰無仮説：すべての群の平均が等しい対立仮説：少なくとも 1 つの群の平均が他と違う

分散分析の結果と「事後検定」

分散分析で「差がある」とわかったあと、「具体的にどの群とどの群の差か」を知るには、事後検定（post-hoc test）が必要です。代表的な手法に Tukey の HSD、Bonferroni 法、Scheffé 法などがあります。本コースでは深入りしませんが、「分散分析で全体に差があるとわかったあと、事後検定で個別の差を見る」という流れがあることだけ押さえてください。

📝 補足 分散分析の「分散」という名前は、データのばらつきを「群の間（要因の効果）」と「群の中（誤差）」に分解する発想から来ています。「群の間のばらつき」が「群の中のばらつき」より十分大きいとき、「群によって平均が違う」と判断します。これが分散分析の基本ロジックです。

A/B テストと検定——実務上の典型場面

ビジネスで検定を最もよく使う場面の 1 つが、A/B テストです。実務上の典型をまとめておきます。

コンバージョン率の差（カテゴリ：購入した／しない）

施策 A の購入率 3.5%、施策 B の購入率 3.8%。この差は偶然か？

カイ二乗検定（独立性）または 2 標本の比率の検定で扱う
統計ソフト・A/B テストツールでは「カイ二乗検定」「Z 検定」「Fisher 検定」のいずれかが使われる

平均購入額の差（連続値）

施策 A の購入額平均 5,200 円、施策 B の購入額平均 5,500 円。この差は偶然か？

2 標本 t 検定（Welch 流）で扱う
ただし、購入額は右に歪んだ分布になることが多いため、中央値で見る・対数変換するなど工夫することも

繰り返し検定の罠

A/B テストでは、「テスト期間中に何度も中間結果を見て、有意になったら早期終了」が誘惑になります。これは多重比較問題を引き起こし、第一種の過誤が膨らみます。「事前に決めた標本サイズに達するまで結果を見ない」のが原則ですが、「逐次検定」「ベイズ A/B テスト」など、繰り返し見ることを前提とした手法も実務で使われています。

⚠️ 注意 A/B テストでよくある失敗：①標本サイズを事前に決めない、②p < 0.05 になった時点で早期終了、③テスト終了後に「セグメント別に分けてみる」と再分析（これは HARKing と呼ばれる、レッスン 8 で扱う問題）。これらは検定の前提を崩します。「設計を先、解析を後」の順序を守るのが運用の基本です。

「検定の前提」を意識する

最後に、本レッスンで触れた検定の多くが、いくつかの「前提」を置いていることを意識しておきましょう。

t 検定：データが正規分布に近い、観測が独立（中心極限定理により、標本が十分大きければ正規性は緩い）
カイ二乗検定：期待度数が小さすぎない、観測が独立
分散分析：データが正規分布に近い、群ごとの分散が等しい、観測が独立

前提が大きく崩れていると、検定の結論は信頼できません。実務では、ヒストグラムや箱ひげ図でデータの形を確認したり、ノンパラメトリック検定（Mann-Whitney U 検定、Kruskal-Wallis 検定など）の使用を検討したりします。本コースでは詳細に立ち入りませんが、「検定には前提がある」ことだけ覚えておくと、誤用が減ります。

講師の現場メモ：「3 群比較を t 検定 3 回でやろうとした」社内分析の話

私（牧野）が事業会社の小売 KPI 設計を担当していたころの話です。あるとき、別部署のデータ担当者から「3 つの店舗の客単価を比較したい。t 検定を 3 回（A 対 B、A 対 C、B 対 C）でいいですよね」と相談を受けました。

私は「それだと多重比較問題が起きますよ」と返し、分散分析を勧めました。担当者は「t 検定の方が馴染みがあって、上司にも説明しやすいので、t 検定でやらせてもらえないか」と粘りました。

私は、シミュレーションで実証してみせることにしました。「もし 3 店舗の真の客単価がすべて同じ（差がない）」という前提でランダムデータを生成し、t 検定を 3 回繰り返す手続きを 10,000 回シミュレーションしてみたのです。

結果は、「3 回のうち少なくとも 1 つで p < 0.05 が出る確率」が約 14% でした。本来は「差がないので、どの比較も有意にならないはず」なのに、実際には 7 件に 1 件は偶然「有意」が出てしまうことを、数字で見せました。

担当者は驚き、「これは怖いですね。やはり分散分析にします」と納得してくれました。さらに「分散分析で差があるとわかったあと、Tukey の HSD で個別の差を見る」流れも一緒に押さえました。

このときに、改めて「教科書の論理は、シミュレーションで見せると腹落ちする」と感じました。多重比較問題は、抽象論として聞くとピンとこなくても、「14% の偽陽性」という数字を見せると、ぐっと納得しやすくなります。本コースの読者にも、「検定の選び方の地図」を持ち帰っていただくと、職場での誤用が一つ減らせるはずです。

まとめ

このレッスンでは、以下のことを学びました。

検定は「変数の種類（連続値／カテゴリ）」と「群の数（1／2／3 以上）」で選ぶ
t 検定（William Gosset、1908 年、ギネス工場で開発）：連続値の平均比較。1 標本／独立 2 群／対応のある t 検定の 3 種類
カイ二乗検定：カテゴリーデータの比率や独立性の検定。適合度検定と独立性検定の 2 種類
分散分析（Ronald A. Fisher、1920 年代）：3 群以上の連続値の平均を一度に比較。多重比較問題を回避する設計
t 検定を繰り返すと多重比較問題（第一種の過誤の累積）が起きるので、3 群以上は分散分析を使う
A/B テストの実務：コンバージョン率はカイ二乗、購入額は t 検定。繰り返し検定や事後分析の罠に注意
検定には前提（正規性・独立性・等分散性など）があり、大きく崩れていると結論が信頼できない

次のレッスンでは、変数の関係を扱います。相関係数の意味と限界、相関と因果の区別、単回帰分析、決定係数、多変数回帰の入口、多重共線性。検定とは別の角度から「数字の関係」を読み解く道具を学びます。

確認クイズ

このレッスンの理解度をチェックしましょう。