相関と因果——「関係がある」と「原因である」は違う
レッスン6:相関と因果——「関係がある」と「原因である」は違う
このレッスンで学ぶこと
- 相関の意味と相関係数の感覚的な理解を身につける
- 相関と因果が違うことを実例で説明できる
- 疑似相関と第三の変数を見抜く視点を持つ
- 因果関係を主張するための条件を知る
レッスン5までで、データを整え、要約し、グラフで見える化する技術を学びました。このレッスンでは、データ分析の中でも特に間違いの起きやすい「相関と因果」を扱います。データを使うときに最も陥りやすい誤解の一つで、ここを押さえると、データ分析の解釈力がぐっと上がります。
相関とは
2つの量的データがあるとき、片方が変化するともう片方も変化する関係を「相関」と呼びます。
- 例:気温が上がるとアイスの売上が上がる
- 例:勉強時間が長いほどテストの点数が高い
相関にはいくつかのパターンがあります。
正の相関:片方が増えると、もう片方も増える関係。例:身長と体重、広告費と認知度。
負の相関:片方が増えると、もう片方は減る関係。例:商品の価格と販売数、運動時間と体重。
無相関:2つの値の間に明確な関係が見られない状態。
💡 ポイント 相関の有無やパターンを視覚的に確認するのに最適なのが、レッスン4で紹介した「散布図」です。点が右肩上がりなら正の相関、右肩下がりなら負の相関、ばらばらなら無相関、と一目で読み取れます。
相関係数
2つのデータの相関の強さを数値で表したものが「相関係数」です。一般的にはピアソンの相関係数を指し、-1 から +1 の範囲を取ります。
+1に近いほど強い正の相関(完全な正の相関は +1)-1に近いほど強い負の相関(完全な負の相関は -1)0に近いほど相関が弱い(無相関)
相関係数の目安
絶対値で見たときの一般的な解釈です。
| 絶対値の範囲 | 一般的な解釈 |
|---|---|
| 0.0〜0.2 | ほとんど相関なし |
| 0.2〜0.4 | 弱い相関 |
| 0.4〜0.7 | 中程度の相関 |
| 0.7〜1.0 | 強い相関 |
ただし、これはあくまで目安です。分野や文脈によって基準は変わります。
ExcelやGoogleスプレッドシートでの相関係数
相関係数の関数は次のとおりです。
- Excel・Googleスプレッドシート共通:
=CORREL(範囲1, 範囲2)
例えば、A列に気温、B列にアイスの売上が入っているとき、=CORREL(A2:A100, B2:B100) で相関係数が出ます。
🔰 初学者の方へ 相関係数の計算式を覚える必要はありません。「-1から+1の範囲を取り、0から離れるほど強い関係」とだけ覚えておけば十分です。
ここからが本題:相関は因果ではない
データ分析で最も誤解されやすいのが、「相関があるからといって、因果関係があるとは限らない」という点です。
「相関がある」とは、「2つのデータが一緒に動いている」という事実だけを指します。「片方がもう片方の原因である」という意味ではありません。
💡 ポイント 「相関は因果ではない(Correlation does not imply causation)」は、データ分析の世界で最も有名な格言の一つです。データを使う人全員が肝に銘じるべき原則です。
実例で見る「相関と因果のずれ」
例1:アイスの売上と水難事故
夏のあいだ、アイスの売上が増えると、水難事故も増える、というデータがあったとします。相関係数は正で、強い相関が見られます。
しかし、アイスを食べると水難事故が起きるわけではありません。両者の本当の原因は「気温が上がる」という第三の要因です。気温が上がると、アイスが売れる。気温が上がると、海・川・プールに行く人が増えて水難事故が起きる。
この関係を図にすると、次のようになります。
flowchart LR
A[気温が上がる] --> B[アイスの売上が増える]
A --> C[水難事故が増える]
B -.見かけの相関.- C
実線の矢印が「本当の因果」、破線が「データ上に見える、見かけの相関」です。両者は同時に動きますが、片方がもう片方の原因ではなく、上にある「気温」がそろって動かしているだけ——という構造が見て取れます。
このように、別の要因が両方に影響していて、見かけ上の相関が出ることを「疑似相関」と呼びます。
例2:ヘルメットを着けている人ほどケガが重い
事故現場のデータを見ると、ヘルメットを着けていた人のほうがケガが重い、という結果が出ることがあります。
これはヘルメットがケガを重くするのではなく、「危険な活動(バイク・建設現場など)に従事している人ほどヘルメットを着けている」ためです。第三の変数は「活動の危険度」です。
例3:消防車が多く来た火事ほど被害が大きい
火災現場のデータを見ると、消防車の台数が多いほど被害金額が大きい、という相関があります。
しかし、消防車が来たから被害が大きくなるわけではありません。「大規模な火災ほど多くの消防車が必要」という、逆向きの因果関係(火災の大きさ→消防車の台数)が背後にあります。
直感(誤)と実際の関係を並べると次のようになります。
直感(誤った解釈):
flowchart LR
A[消防車の台数] --> B[被害の大きさ]
実際の関係:
flowchart LR
A[火災の規模] --> B[消防車の台数]
A --> C[被害の大きさ]
矢印を逆向きに引いただけで、意味はまったく違います。データに相関を見つけたとき、「どちらが原因か」を一度立ち止まって考えるクセが必要です。
疑似相関を見抜く3つの視点
相関を見たら、すぐに因果と結論せず、次の3つを疑いましょう。
1. 第三の変数(交絡因子)はないか
両方のデータに影響を与えている「別の要因」がないかを考えます。アイスと水難事故では「気温」が、ヘルメットとケガでは「活動の危険度」が第三の変数でした。
2. 因果の向きは逆ではないか
「Aが原因でBが起こる」と思っていたら、実は「BがあるからAが起きている」のかもしれません。消防車と火災被害の例がこれにあたります。
3. 単なる偶然ではないか
データの数が少ない、あるいは特殊な期間に偏っていると、たまたま見せかけの相関が出ることがあります。データ量を増やしたり、別の期間でも同じ結果が出るかを確認することが大切です。
⚠️ 注意 相関の確認だけで意思決定するのは危険です。「データに相関が出ていたから」というだけで施策を打つと、本当の原因とずれた対応をしてしまい、効果が出ないどころか逆効果になることもあります。
因果関係を主張するための条件
では、どうすれば因果関係を主張できるのでしょうか。簡略化すると、次の3条件が古典的にあげられます。
1. 時間的な前後関係
原因が結果よりも時間的に前に起きていること。広告を出してから売上が上がった、なら時間的順序は正しい。同時に起きているなら、因果の判定は難しくなります。
2. 相関が存在すること
両者の間に確かに相関が認められること。相関がなければ、そもそも因果を考える土台がありません。
3. ほかの説明が排除できること
第三の変数や逆の因果ではないことを示せること。これが最も難しい部分です。
📖 もっと詳しく ほかの説明を排除する代表的な手法が「ランダム化比較試験(RCT)」です。対象者をランダムに2グループに分け、片方に施策を適用、もう片方には適用せず、結果を比較します。両グループの違いが施策の有無だけなら、施策が原因であると強く言えます。これがレッスン7で扱うA/Bテストの基本発想です。
業務で意識すべきこと
実務でデータを扱うとき、相関と因果の混同を避けるために、次のような姿勢が役立ちます。
1つ目:相関を見つけたら、まず「なぜ」を考える
数字の上で関係があるだけで結論を出さず、背景にある原因を想像する習慣をつけましょう。
2つ目:意思決定の前に、第三の変数を疑う
「Aを増やせばBが増えるはず」と考えたとき、両方に効く別の要因がないか、いったん立ち止まって考えます。
3つ目:可能なら、実験で確かめる
相関の観察だけで判断せず、A/Bテストのような実験で因果を確かめるのが理想です。これはレッスン7で詳しく扱います。
4つ目:データの取り方を疑う
特殊な期間や対象者だけのデータだと、偏った相関が出やすくなります。データの背景や収集方法を確認することは、結論を出す前の大事な習慣です。
実例:マーケティング施策で起きやすい誤解
実例で締めくくります。次のような状況を想像してください。
メルマガを開封している顧客ほど、購入金額が大きい、というデータが出ました。担当者は「メルマガが購入を促している」と結論し、メルマガの配信を強化することにしました。
しかし、本当の原因は「もともと自社に強い興味を持っている顧客がメルマガを開封し、そういう顧客は購入金額も大きい」という第三の変数(自社への関心)だったかもしれません。だとすると、メルマガを強化しても、興味の薄い顧客には響かず、効果は限定的になります。
この場合、より確実な判断のためには「メルマガを送るグループと送らないグループに分けてA/Bテストする」のがおすすめです。両グループの違いがメルマガの有無だけになるので、因果がはっきり見えます。
💡 ポイント データに相関が出ているとき、最初に湧く「これが原因に違いない」という直感をいったん疑ってみる。これだけで、データ分析の質は大きく上がります。
まとめ
このレッスンでは、以下のことを学びました。
- 相関は、2つの量的データの「一緒に動く関係」のこと
- 相関係数は -1 から +1 の範囲を取り、絶対値が大きいほど関係が強い
- 「相関があるからといって、因果関係があるとは限らない」が最重要原則
- 疑似相関は、第三の変数によって見かけ上の相関が出る現象
- 因果関係を主張するには、時間的な前後関係・相関・ほかの説明の排除が必要
- 実務では「なぜ」を考え、第三の変数を疑い、可能なら実験で確かめる姿勢が大切
次のレッスンでは、相関の観察を超えて因果に近づくための強力な手法、「仮説検証」と「A/Bテスト」を学びます。意思決定にデータを活かすための実践的な考え方を身につけましょう。
確認クイズ
このレッスンの理解度をチェックしましょう。