本文へスキップ
スキルアップカレッジ

相関と因果——「関係がある」と「原因である」は違う

レッスン6:相関と因果——「関係がある」と「原因である」は違う

このレッスンで学ぶこと

  • 相関の意味と相関係数の感覚的な理解を身につける
  • 相関と因果が違うことを実例で説明できる
  • 疑似相関と第三の変数を見抜く視点を持つ
  • 因果関係を主張するための条件を知る

レッスン5までで、データを整え、要約し、グラフで見える化する技術を学びました。このレッスンでは、データ分析の中でも特に間違いの起きやすい「相関と因果」を扱います。データを使うときに最も陥りやすい誤解の一つで、ここを押さえると、データ分析の解釈力がぐっと上がります。

相関とは

2つの量的データがあるとき、片方が変化するともう片方も変化する関係を「相関」と呼びます。

  • 例:気温が上がるとアイスの売上が上がる
  • 例:勉強時間が長いほどテストの点数が高い

相関にはいくつかのパターンがあります。

正の相関:片方が増えると、もう片方も増える関係。例:身長と体重、広告費と認知度。

負の相関:片方が増えると、もう片方は減る関係。例:商品の価格と販売数、運動時間と体重。

無相関:2つの値の間に明確な関係が見られない状態。

💡 ポイント 相関の有無やパターンを視覚的に確認するのに最適なのが、レッスン4で紹介した「散布図」です。点が右肩上がりなら正の相関、右肩下がりなら負の相関、ばらばらなら無相関、と一目で読み取れます。

相関係数

2つのデータの相関の強さを数値で表したものが「相関係数」です。一般的にはピアソンの相関係数を指し、-1 から +1 の範囲を取ります。

  • +1 に近いほど強い正の相関(完全な正の相関は +1)
  • -1 に近いほど強い負の相関(完全な負の相関は -1)
  • 0 に近いほど相関が弱い(無相関)

相関係数の目安

絶対値で見たときの一般的な解釈です。

絶対値の範囲 一般的な解釈
0.0〜0.2 ほとんど相関なし
0.2〜0.4 弱い相関
0.4〜0.7 中程度の相関
0.7〜1.0 強い相関

ただし、これはあくまで目安です。分野や文脈によって基準は変わります。

ExcelやGoogleスプレッドシートでの相関係数

相関係数の関数は次のとおりです。

  • Excel・Googleスプレッドシート共通:=CORREL(範囲1, 範囲2)

例えば、A列に気温、B列にアイスの売上が入っているとき、=CORREL(A2:A100, B2:B100) で相関係数が出ます。

🔰 初学者の方へ 相関係数の計算式を覚える必要はありません。「-1から+1の範囲を取り、0から離れるほど強い関係」とだけ覚えておけば十分です。

ここからが本題:相関は因果ではない

データ分析で最も誤解されやすいのが、「相関があるからといって、因果関係があるとは限らない」という点です。

「相関がある」とは、「2つのデータが一緒に動いている」という事実だけを指します。「片方がもう片方の原因である」という意味ではありません。

💡 ポイント 「相関は因果ではない(Correlation does not imply causation)」は、データ分析の世界で最も有名な格言の一つです。データを使う人全員が肝に銘じるべき原則です。

実例で見る「相関と因果のずれ」

例1:アイスの売上と水難事故

夏のあいだ、アイスの売上が増えると、水難事故も増える、というデータがあったとします。相関係数は正で、強い相関が見られます。

しかし、アイスを食べると水難事故が起きるわけではありません。両者の本当の原因は「気温が上がる」という第三の要因です。気温が上がると、アイスが売れる。気温が上がると、海・川・プールに行く人が増えて水難事故が起きる。

この関係を図にすると、次のようになります。

flowchart LR
    A[気温が上がる] --> B[アイスの売上が増える]
    A --> C[水難事故が増える]
    B -.見かけの相関.- C

実線の矢印が「本当の因果」、破線が「データ上に見える、見かけの相関」です。両者は同時に動きますが、片方がもう片方の原因ではなく、上にある「気温」がそろって動かしているだけ——という構造が見て取れます。

このように、別の要因が両方に影響していて、見かけ上の相関が出ることを「疑似相関」と呼びます。

例2:ヘルメットを着けている人ほどケガが重い

事故現場のデータを見ると、ヘルメットを着けていた人のほうがケガが重い、という結果が出ることがあります。

これはヘルメットがケガを重くするのではなく、「危険な活動(バイク・建設現場など)に従事している人ほどヘルメットを着けている」ためです。第三の変数は「活動の危険度」です。

例3:消防車が多く来た火事ほど被害が大きい

火災現場のデータを見ると、消防車の台数が多いほど被害金額が大きい、という相関があります。

しかし、消防車が来たから被害が大きくなるわけではありません。「大規模な火災ほど多くの消防車が必要」という、逆向きの因果関係(火災の大きさ→消防車の台数)が背後にあります。

直感(誤)と実際の関係を並べると次のようになります。

直感(誤った解釈):

flowchart LR
    A[消防車の台数] --> B[被害の大きさ]

実際の関係:

flowchart LR
    A[火災の規模] --> B[消防車の台数]
    A --> C[被害の大きさ]

矢印を逆向きに引いただけで、意味はまったく違います。データに相関を見つけたとき、「どちらが原因か」を一度立ち止まって考えるクセが必要です。

疑似相関を見抜く3つの視点

相関を見たら、すぐに因果と結論せず、次の3つを疑いましょう。

1. 第三の変数(交絡因子)はないか

両方のデータに影響を与えている「別の要因」がないかを考えます。アイスと水難事故では「気温」が、ヘルメットとケガでは「活動の危険度」が第三の変数でした。

2. 因果の向きは逆ではないか

「Aが原因でBが起こる」と思っていたら、実は「BがあるからAが起きている」のかもしれません。消防車と火災被害の例がこれにあたります。

3. 単なる偶然ではないか

データの数が少ない、あるいは特殊な期間に偏っていると、たまたま見せかけの相関が出ることがあります。データ量を増やしたり、別の期間でも同じ結果が出るかを確認することが大切です。

⚠️ 注意 相関の確認だけで意思決定するのは危険です。「データに相関が出ていたから」というだけで施策を打つと、本当の原因とずれた対応をしてしまい、効果が出ないどころか逆効果になることもあります。

因果関係を主張するための条件

では、どうすれば因果関係を主張できるのでしょうか。簡略化すると、次の3条件が古典的にあげられます。

1. 時間的な前後関係

原因が結果よりも時間的に前に起きていること。広告を出してから売上が上がった、なら時間的順序は正しい。同時に起きているなら、因果の判定は難しくなります。

2. 相関が存在すること

両者の間に確かに相関が認められること。相関がなければ、そもそも因果を考える土台がありません。

3. ほかの説明が排除できること

第三の変数や逆の因果ではないことを示せること。これが最も難しい部分です。

📖 もっと詳しく ほかの説明を排除する代表的な手法が「ランダム化比較試験(RCT)」です。対象者をランダムに2グループに分け、片方に施策を適用、もう片方には適用せず、結果を比較します。両グループの違いが施策の有無だけなら、施策が原因であると強く言えます。これがレッスン7で扱うA/Bテストの基本発想です。

業務で意識すべきこと

実務でデータを扱うとき、相関と因果の混同を避けるために、次のような姿勢が役立ちます。

1つ目:相関を見つけたら、まず「なぜ」を考える

数字の上で関係があるだけで結論を出さず、背景にある原因を想像する習慣をつけましょう。

2つ目:意思決定の前に、第三の変数を疑う

「Aを増やせばBが増えるはず」と考えたとき、両方に効く別の要因がないか、いったん立ち止まって考えます。

3つ目:可能なら、実験で確かめる

相関の観察だけで判断せず、A/Bテストのような実験で因果を確かめるのが理想です。これはレッスン7で詳しく扱います。

4つ目:データの取り方を疑う

特殊な期間や対象者だけのデータだと、偏った相関が出やすくなります。データの背景や収集方法を確認することは、結論を出す前の大事な習慣です。

実例:マーケティング施策で起きやすい誤解

実例で締めくくります。次のような状況を想像してください。

メルマガを開封している顧客ほど、購入金額が大きい、というデータが出ました。担当者は「メルマガが購入を促している」と結論し、メルマガの配信を強化することにしました。

しかし、本当の原因は「もともと自社に強い興味を持っている顧客がメルマガを開封し、そういう顧客は購入金額も大きい」という第三の変数(自社への関心)だったかもしれません。だとすると、メルマガを強化しても、興味の薄い顧客には響かず、効果は限定的になります。

この場合、より確実な判断のためには「メルマガを送るグループと送らないグループに分けてA/Bテストする」のがおすすめです。両グループの違いがメルマガの有無だけになるので、因果がはっきり見えます。

💡 ポイント データに相関が出ているとき、最初に湧く「これが原因に違いない」という直感をいったん疑ってみる。これだけで、データ分析の質は大きく上がります。

まとめ

このレッスンでは、以下のことを学びました。

  • 相関は、2つの量的データの「一緒に動く関係」のこと
  • 相関係数は -1 から +1 の範囲を取り、絶対値が大きいほど関係が強い
  • 「相関があるからといって、因果関係があるとは限らない」が最重要原則
  • 疑似相関は、第三の変数によって見かけ上の相関が出る現象
  • 因果関係を主張するには、時間的な前後関係・相関・ほかの説明の排除が必要
  • 実務では「なぜ」を考え、第三の変数を疑い、可能なら実験で確かめる姿勢が大切

次のレッスンでは、相関の観察を超えて因果に近づくための強力な手法、「仮説検証」と「A/Bテスト」を学びます。意思決定にデータを活かすための実践的な考え方を身につけましょう。


確認クイズ

このレッスンの理解度をチェックしましょう。