レッスン8：統計の誤用と倫理——p 値ハッキング、選択バイアス、再現性危機

このレッスンで学ぶこと

p 値ハッキングと HARKing が、なぜ統計の信頼性を崩すかを理解する
選択バイアスとサバイバー・バイアスを、現場の事例で見抜けるようになる
シンプソンのパラドックスを、シンプルな例で説明できる
心理学の再現性危機が、ビジネスにとっても他人事ではないと知る
ベイズ統計の入口と、コース修了後の学習方向を持つ

レッスン 1〜7 で、統計学の考え方・記述統計・確率分布・推測統計・主要な検定・相関と回帰までを扱ってきました。最終レッスンの本章では、視点を切り替えて「統計の限界と倫理」を扱います。統計学は強力な道具ですが、誤用されると「正しそうに見える間違い」を量産します。本レッスンは、誤用パターンを正面から扱い、本コースの「これから現場で使うときに気をつけること」を整理する回です。

「統計でわかること」の限界

本コースの締めくくりとして、最初にスタンスを明確にしておきます。統計学は強力ですが、「すべての問いに答えてくれる魔法」ではありません。具体的には、

統計学はデータがある問いにしか答えられない（未観測のことは推測の枠を超える）
統計学は仮定の上に成り立つ（分布、独立性、サンプリングなど）
統計学は因果を直接示さない（実験計画なしには相関を超えない）
統計学は意思決定を代替しない（数字をどう解釈するかは人の仕事）

これを忘れて「統計の結論」を絶対視すると、しばしば大きな失敗につながります。本レッスンで紹介するのは、その失敗のパターンです。

p 値ハッキング——「有意になるまで探す」誘惑

p 値ハッキング（p-hacking）は、「有意な結果を得るために、データや解析を意図的または無自覚に操作する行為」の総称です。

よくある p 値ハッキングの形

①繰り返し検定の早期終了

A/B テストで「毎日結果を見て、p < 0.05 になった時点でテスト終了」とすると、本来差がないテストでも偽陽性が高まります。レッスン 6 で触れた多重比較問題の一種です。

②サブグループの探索

全体では有意な差がなくても、「20 代女性だけ」「関東地方の店舗だけ」とサブグループで切り直すと、どこかで有意な結果が出ることがあります。あらかじめ仮説に含まれていないサブグループ分析は、偶然の有意を生みやすくなります。

③変数の取捨選択

複数の指標（売上、来店者数、客単価、リピート率……）を測っておき、「有意になった指標だけ」を報告するのも、ハッキングの一種です。

④外れ値の恣意的な除去

「説明できない高い値」「異常値」と理由をつけて、有意になる方向にデータを削るのも、しばしばハッキングになります。

p 値ハッキングの何が問題か

p 値ハッキングは、「事前に決めた解析計画なら 5% の偽陽性しか起きないはず」が、実際は 30%、50% 以上の偽陽性を引き起こす状態を作ります。結果として、「有意な発見」と報告されたものの多くが、実は偶然に過ぎないことが、後から判明します。

これは、研究者の悪意というより、「無自覚に・善意で行われる」ことも多いのが厄介な点です。「もう少し分析を頑張ってみよう」「ここを除いたらクリーンになるかも」という自然な行為の積み重ねが、知らず知らずのうちにハッキングになります。

⚠️ 注意 p 値ハッキングを避ける運用上の発想として、「事前解析計画（pre-analysis plan）」があります。データを取る前に「何を、どう分析するか」を文書化し、変更がある場合は明示する、という考え方です。学術界では事前登録（pre-registration）が広がっており、ビジネスの A/B テストでも、テスト計画書を事前にまとめておくのが、再現性のある運用の基本です。

HARKing——「結果を見てから仮説を作る」

HARKing（Hypothesizing After the Results are Known、「結果を知ってから仮説を立てる」の頭文字）は、p 値ハッキングと並ぶ重大な誤用です。

HARKing の典型形

例：A/B テストで、当初は「全体の購入率」を比較する設計だったが、結果が有意でなかった。後から「20 代男性の購入率」を見たら有意な差があったので、報告書には「20 代男性向けに施策 B が効くという仮説を検証した」と書き直す。

このとき、「結果を見てから、データに合う仮説を立てている」ので、もはや仮説検定の論理が成り立っていません。仮説検定は「仮説を立てて、それをデータで検証する」流れが前提で、「データに合う仮説を選ぶ」のは検証ではなく後付けです。

なぜ HARKing が起きるか

HARKing も、悪意ではなく自然な思考の癖から起きます。「せっかくデータを取ったのだから何か知見を出さねば」「上司に有意な結果を見せねば」というプレッシャーの中で、「これも仮説の一つだったと考えれば」と書き換える誘惑が出てきます。

防ぐ発想

探索的分析（exploratory analysis）と検証的分析（confirmatory analysis）を区別する
探索で見つけた仮説は、別のデータセットで改めて検証する
報告書には「これは事前仮説、これは事後の探索」と明示する

💡 ポイント 探索的分析そのものは悪ではありません。問題なのは、「探索の結果」を「検証の結果」と偽装することです。実務でも「これは探索でわかった気づき」「これは検証された仮説」を明確に分けて報告すると、信頼性が大きく上がります。

選択バイアス——「誰を見ているか」の問題

選択バイアス（selection bias）は、レッスン 4 でも触れましたが、ここで改めて整理します。標本が母集団からランダムに取れていないとき、推定値が母集団の真の値から系統的にズレることです。

よくある選択バイアスの形

①回答バイアス

アンケート・調査で「答えてくれる人」だけが母集団に偏りを生む。満足している人ほど答えやすい、強い意見を持つ人ほど答えやすい、など。

②生存バイアス（サバイバー・バイアス、survivorship bias）

過去のデータを見るとき、「生き残ったもの」だけしか見えていない問題です。

第二次世界大戦中、帰還した戦闘機の被弾箇所を見て「ここを補強しよう」と考えた。実は被弾しても帰還できた箇所より、被弾した戦闘機が落ちて見えなくなった箇所（エンジン部など）を補強すべき
「成功した経営者は朝が早い」というデータ。失敗した経営者で朝が早かった人を見ていない
「投資の達人」は、生き残った人だけで、損して撤退した同数の人は調査対象に入っていない

③自己選択バイアス

参加者が自分で参加を選ぶ場合、選んだ人は選ばなかった人と特性が違うはずです。「研修を希望した社員の成果が高い」のは、研修の効果ではなく、もともと意欲が高い人が研修を希望した結果かもしれません。

選択バイアスを意識する習慣

「このデータには誰が含まれていないか」を、データを見るたびに問う
「もし全員を見られたら、この結論は変わるか」を考える
自社の顧客データ・サイトのログは、母集団に対して偏りがあることが多い、と覚えておく

🔰 初学者の方へ 「選択バイアス」は、統計学を学ぶ最大の実用効果の 1 つです。日常で「成功者の習慣はこうだ」「うちの顧客はこう言っている」と聞いたとき、「失敗した人や、答えてくれない顧客はどんな状態か」を瞬時に問えるようになると、判断の質が大きく変わります。

シンプソンのパラドックス——「全体と部分で結論が逆になる」

シンプソンのパラドックス（Simpson's paradox）は、データを「全体」と「サブグループ」で見たときに、結論が逆転する現象です。1951 年に統計学者エドワード・シンプソンが論じたことから、この名で呼ばれます。

古典的な例

ある大学の合格率を、男女別に見たとき、

全体：男性の合格率が、女性より高い

しかし、学部別に分けると、

学部 A：女性の合格率の方が高い
学部 B：女性の合格率の方が高い
学部 C：女性の合格率の方が高い

「全部の学部で女性の方が合格率が高い」のに、「全体では男性の方が高い」ということが、実際に起こりえます。

原因は「学部ごとの志願者数の偏り」です。女性が、合格率の低い学部 A にたくさん志願し、男性が、合格率の高い学部 C にたくさん志願した場合、各学部での女性優位は、全体の合格率の集計では学部の合格率に飲み込まれて見えなくなります。

ビジネスでの注意

シンプソンのパラドックスは、A/B テストや KPI 分析でも起きます。「全体では施策 B の方が良いが、世代別に見ると全世代で施策 A の方が良い」ということがありえます。

これを防ぐには、

データを「集約された全体」だけでなく、「重要なサブグループ」でも見る
平均だけでなく、サブグループの内訳を確認する
ただし、HARKing にならないよう、「事前にどのサブグループを見るか」を決めておく

⚠️ 注意 シンプソンのパラドックスは、データの構造を見ないと気づかない罠です。「全体の平均だけ見て結論を出す」運用には、常にこの罠が潜んでいると意識しておくと、見落としが減ります。

再現性危機——統計の信頼性を揺るがした事件

最後に、現代統計学が直面している大きな問題に触れておきます。再現性危機（replication crisis）です。

再現性危機の経緯

2015 年、Open Science Collaboration（OSC）という国際研究グループが、心理学の主要論文 100 本を選び、同じ手続きで再実験する大規模プロジェクトを行いました。結果は、衝撃的なものでした。

元の論文で「統計的に有意」とされた効果のうち、再実験で同じ結論が出たのは約 36%
再現された場合でも、効果量は元の論文の半分程度

つまり、心理学の研究の多くが「再現できない」状態だったわけです。続いて医学、経済学、経営学などでも同様の問題が指摘され、「再現性危機」として大きなニュースになりました。

何が原因か

再現性危機の原因として、以下が指摘されています。

p 値ハッキング・HARKing
標本サイズが小さく、検出力が低い研究の量産
「有意でない結果は論文にならない」出版バイアス
探索的分析を検証的分析として報告する習慣

対応の動き

米国統計学会（ASA）の 2016 年「p 値声明」：p 値だけで結論を出さない、効果量や信頼区間を併用する、など
事前登録（pre-registration）の制度化：研究計画を事前公開する
オープンサイエンスの推進：データと解析コードの公開を標準化
p 値の基準値の見直し議論：「0.05 ではなく 0.005 を有意の基準にすべき」など

ビジネスにとっての意味

再現性危機は学術界の話に見えますが、ビジネスにも他人事ではありません。

「学術的に有名な経営理論」を社内施策に持ち込むとき、その元の研究が再現されているか確認する
自社の A/B テストで「有意な結果」が出ても、別のテスト期間・別の対象で再現するかを試す
「論文で証明された」と言われる経営手法・心理テクニックを鵜呑みにしない

💡 ポイント 統計学は「正解を出す機械」ではないという認識を、再現性危機は強烈に教えてくれました。自分の結論にも、他人の結論にも、健全な懐疑を持ち続けることが、統計学を使う上での倫理的な基本姿勢です。

ベイズ統計の入口——もう 1 つの世界

レッスン 3 で「主観確率」として軽く触れた、ベイズ統計（Bayesian statistics）について、最後に入口だけ紹介します。

ベイズ統計の発想

本コースで扱ってきた頻度主義（frequentist）統計が「同じ調査を繰り返したら、どれくらいばらつくか」を中心軸にするのに対し、ベイズ統計は「観測前の信念（事前分布）を、データで更新する」発想を取ります。

ベイズの定理（Thomas Bayes、1763 年に遺稿として公表）に基づき、

事前分布：観測前に持っている確率分布の信念
尤度（likelihood）：観測されたデータが、ある仮説のもとでどれくらい起きやすいか
事後分布：データを観測した後の、更新された確率分布

これらを掛け合わせて、結論を更新する流れになります。

ベイズ統計のメリット

一回限りの事象に確率を当てはめられる（「次のプロジェクトが成功する確率」など）
過去の知見を、事前分布として明示的に取り込める
結果として「真の値がこの区間にある確率」を直接言える（信頼区間と違う「確信区間」）
逐次的な意思決定（A/B テストの逐次解析など）と相性が良い

ベイズ統計の課題

「事前分布をどう決めるか」が主観的になりがち
計算が複雑になりやすい（マルコフ連鎖モンテカルロ法など）
結果の解釈に専門知識が要る

本コースでは、頻度主義の発想を中心に進めてきましたが、現代統計学ではベイズ統計も主流の道具の 1 つです。興味のある方は、書籍で深掘りしてみてください。

コース修了後の学習方向

本コースは、統計学の入門として、考え方の地図を作ることに集中してきました。さらに学びを深めたい方には、次の方向が考えられます。

①数式の世界に踏み込む

本コースは数式を最小限に抑えました。本格的に統計学を使いたい方は、線形代数・微分積分の基礎を踏まえ、確率論と数理統計学の入門書に進むのが王道です。

②統計ソフトを使えるようになる

考え方を持っていても、計算は専用ソフトでやる必要があります。R、Python（pandas、scipy、statsmodels）、Stata、SPSS など、自分の業務に合うものを選んでください。

③ベイズ統計に進む

本コースで触れた「ベイズ統計の入口」を超えて、専門書で体系的に学ぶ。

④因果推論を学ぶ

相関ではなく因果を主張するための手法群。傾向スコア、操作変数法、差分の差分法、回帰不連続デザインなど。ビジネスのデータ分析にも応用範囲が広い領域です。

⑤実験計画法を学ぶ

A/B テスト、多変数テスト、要因配置実験などを設計する考え方。Fisher の古典的な仕事に源流があり、現代の Web プロダクトでも実用されています。

⑥再現性とオープンサイエンスの議論を追う

再現性危機を巡る議論は今も進化中です。最新の動向を追うことで、統計学の使い方の標準が更新されているのを実感できます。

⑦現場で実践する

何より大事なのは、「現場で実践する」ことです。本コースで学んだ考え方を 1 つでよいので、職場のデータで試してみてください。実践の中でしか、統計学の本当の感覚は身につきません。

💡 ポイント 「もっと学んでから実践する」は、しばしば「いつまでも実践しない」になります。来週から、まずは 1 つだけ試してください。「平均と中央値の両方を見る」「散布図を描く」「p 値だけでなく効果量を見る」「サブグループにシンプソンの罠がないか確かめる」——どれも、明日から実践できる小さな習慣です。

講師の現場メモ：「再現できなかった社内ベストプラクティス」の話

私（牧野）が独立して中堅企業のアドバイザーをしていたころの話です。あるクライアント企業で、「全社のベストプラクティス」として広く展開されていたマーケティング施策がありました。3 年前に当時のマーケティング部が A/B テストで効果を検証し、社内で「統計的に有意に効果あり」と承認された施策でした。

私はクライアントから「この施策をもっと展開するには、どう拡張すればよいか」を相談されました。施策の論理を聞き、効果が再現するか別のチャネルで小さく試してみることを提案しました。

3 か月後の追試結果は、まったくの空振りでした。元の A/B テストで観測された効果は、新しいデータでは再現しなかったのです。

調査を進めると、元の A/B テストには、いくつかの問題が見つかりました。

標本サイズが小さく、検出力が低かった
テスト期間中に何度も中間結果が確認されていた（実質的な p 値ハッキング）
効果量がほとんど報告されていなかった（p 値だけで「有意」と判断されていた）
母集団の特定セグメントだけで効果が見られたのに、それを全体の効果として報告していた

つまり、3 年前の「統計的有意」は、再現性危機の縮図のような状態だったのです。私はクライアントに、「この施策は、本当の効果ではなく偶然の検出だった可能性が高い。同じ仕組みでほかの施策も再評価することをお勧めする」と伝えました。

クライアントは最初は驚き、「3 年も信じてきた施策が……」と落胆していました。しかし、その後の全社的な施策再評価で、3 年前に承認された施策の半分以上が「効果が再現しない」と判断され、リソース配分が大きく見直されました。本当に効く施策にコストを集中することで、結果として全体の効率は大幅に改善しました。

このときに改めて感じたのが、「再現性危機は学術界だけの話ではない」ということでした。ビジネスでも、「3 年前の検証結果」「学術論文で証明されている」を鵜呑みにすると、誤った前提のもとで大きなリソースを動かしてしまいます。

本コースの読者にも、「他人の数値主張に健全な懐疑を持つ」「自分の数値主張も再現性に注意する」発想を、ぜひ持ち帰っていただきたいと思います。

まとめ

このレッスンでは、以下のことを学びました。

統計学の限界：データがある問いにしか答えられない、仮定の上に成り立つ、因果を直接示さない、意思決定を代替しない
p 値ハッキング：繰り返し検定の早期終了、サブグループ探索、変数の取捨選択、外れ値の恣意的除去
HARKing：結果を見てから仮説を立てる行為。検証ではなく後付けになる
選択バイアス：回答バイアス、生存バイアス（サバイバー・バイアス）、自己選択バイアス
シンプソンのパラドックス：全体とサブグループで結論が逆転する現象
再現性危機：心理学の主要論文 100 本のうち、再現できたのは約 36%（OSC 2015）。医学・経営学にも波及
ASA 2016 年声明：p 値だけで結論を出さない、効果量・信頼区間を併用する
ベイズ統計の入口：事前分布をデータで更新する発想。一回限りの事象や逐次的意思決定と相性が良い
コース修了後の学習方向：数式・統計ソフト・ベイズ統計・因果推論・実験計画法・再現性議論・現場での実践

コース全体のまとめ

本コース「統計学の基礎入門」では、8 つのレッスンを通じて次のことを学んできました。

統計学は「数字の不確かさを扱う技術」（レッスン 1）
記述統計の基本：中心とばらつきを必ずセットで見る（レッスン 2）
確率と確率分布の語彙：二項分布・正規分布の基本（レッスン 3）
標本と推測：中心極限定理、標準誤差、信頼区間（レッスン 4）
仮説検定：帰無仮説、p 値、有意水準、過誤、効果量（レッスン 5）
主要な検定の使い分け：t 検定、カイ二乗、分散分析（レッスン 6）
相関と回帰：相関 ≠ 因果、最小二乗法、決定係数、多重共線性（レッスン 7）
統計の誤用と倫理：p 値ハッキング、選択バイアス、再現性危機（レッスン 8）

統計学は「正解を出す機械」ではなく、「数字の不確かさを定量的に語るための言葉」です。本コースで学んだ考え方を、明日からの仕事で 1 つでも試してみてください。「平均と中央値の両方を見る」「散布図を描く」「p 値だけでなく効果量を見る」——どれも、小さな習慣の積み重ねが、長期的には大きな違いを生みます。

本コースの内容が、皆さんの「数字に強くなる」道のりに、少しでもお役に立つことを心から願っています。

確認クイズ

このレッスンの理解度をチェックしましょう。