本文へスキップ
スキルアップカレッジ

相関と回帰——変数の関係を測り、予測する

レッスン7:相関と回帰——変数の関係を測り、予測する

このレッスンで学ぶこと

  • ピアソン相関係数の意味と、3 つの限界を理解する
  • 「相関と因果は別物」を、具体例で区別できる
  • 単回帰分析を「最小二乗法で線を引く道具」として直感的に押さえる
  • 決定係数 が表すものを説明できる
  • 多変数回帰の入口と「多重共線性」の存在を意識できる

レッスン 5・6 で仮説検定の論理と主要な検定の使い分けを学びました。本レッスンでは、検定とは別の角度から「変数の関係」を扱います。「広告費と売上は関係するか」「気温と来店者数の関係は」「顧客満足度と再購入率の関係は」——日常的に出会う「2 つの数字の関係」を、相関と回帰という道具で読み解きます。同時に、「相関があれば因果がある」のような誤解を、本レッスンで正面から扱います。

相関——「一緒に動く度合い」を 1 つの数字で

相関(correlation)は、2 つの変数が「どれくらい一緒に動くか」を 1 つの数字で表す指標です。最もよく使われるのが、ピアソン相関係数(Pearson's r)です。

ピアソン相関係数の特徴

  • 値は -1 〜 +1 の範囲
  • +1 に近いほど「正の相関」(一方が増えると他方も増える)
  • -1 に近いほど「負の相関」(一方が増えると他方は減る)
  • 0 に近いほど「線形の関係はない」

例:

  • 気温と来店者数の相関係数が +0.7:気温が高い日ほど来店者が多い傾向が、かなり強い
  • 広告費と売上の相関係数が +0.5:広告費が多い時期に売上が高い傾向が、ある程度ある
  • 在庫日数と粗利率の相関係数が -0.3:在庫日数が長いほど粗利率が下がる傾向が、弱くある
  • 社員の年齢と評価点の相関係数が +0.05:ほぼ無関係

「強い/弱い」の目安

慣習的な「強さ」の目安として、次のような表が使われることがあります。

相関係数の絶対値 目安
0.0 〜 0.2 ほぼ無相関
0.2 〜 0.4 弱い相関
0.4 〜 0.7 中程度の相関
0.7 〜 1.0 強い相関

ただし、これは分野や用途で大きく違います。物理学では 0.99 でないと意味がない場面もあれば、社会科学では 0.3 でも興味深い知見になることもあります。「絶対値の目安」だけで機械的に判断するのは避けるべきです。

⚠️ 注意 相関係数を「ビジネスの定説」のように使うのは危険です。「相関係数 0.7 以上で強い相関」のような数字を、業界の文脈を考えずに伝えると、誤解を生みます。「相関係数の絶対値 + 散布図を必ず見る」が、本レッスンを通じての基本姿勢です。

ピアソン相関係数の 3 つの限界

ピアソン相関係数は便利ですが、限界もあります。本レッスンで最も大事な部分です。

①線形関係しか測れない

ピアソン相関係数は、「直線的な関係」の強さを測る指標です。U 字型・逆 U 字型・S 字型など、非線形な関係があっても、相関係数は 0 に近く出ることがあります。

例:「広告費と購入率」が、「一定までは効くが、ある量を超えると飽和して逆に下がる」逆 U 字型の関係を持つ場合。データ全体での相関係数は低くなりますが、関係がないわけではありません。

外れ値の影響を強く受ける

相関係数は、平均と標準偏差を使って計算するため、外れ値の影響を強く受けます。1 件の極端な値が、本来 0 に近い相関を 0.6 に押し上げたり、逆に強い相関を弱めたりします。

③散布図を見ないと誤解する

これは「アンスコムのカルテット(Anscombe's quartet)」という有名な例で示されます。1973 年に統計学者フランシス・アンスコムが示した、平均・分散・相関係数・回帰直線がすべて同じなのに、散布図はまったく違う形を持つ 4 つのデータセットです。

数字だけ見ると「同じ関係」に見えるのに、散布図を描くと、片方は線形、片方は非線形、片方は外れ値による錯覚、と全然違う構造でした。これは「相関係数を信じる前に、必ず散布図を見ろ」という強力な教訓です。

💡 ポイント 相関係数は便利ですが、それだけを信じると判断を誤ります。散布図を併用するのが必須、と覚えてください。Excel でも統計ソフトでも、散布図はすぐに描けます。

相関と因果——最も大事な区別

相関の議論で、最も重要なのが「相関は因果ではない」という原則です。

相関 ≠ 因果

「相関がある」とは、「2 つの変数が一緒に動く傾向がある」ということ。 「因果がある」とは、「一方が他方の原因になっている」ということ。

両者は別物です。相関は因果の「必要条件」(因果があれば相関も観測されることが多い)ですが、「十分条件」ではありません(相関があっても因果とは限らない)。

相関が因果を意味しない 3 つの構造

①第三の変数(交絡要因)が両方を動かしている

「アイスクリームの売上」と「溺死者数」の間には、強い正の相関があります。しかし、アイスクリームが溺死を引き起こすわけではありません。両者を同時に動かしているのは「気温」という第三の変数です。気温が高い夏に、アイスクリームも売れるし、海や川での溺死も増える。これを「交絡(confounding)」と呼びます。

ビジネスでも、「広告費と売上」の相関が、実は「季節要因」「経済全体の景気」によって両者が同時に動いているだけ、というケースは少なくありません。

②因果の向きが逆

「業績が高い会社ほど、社員の幸福度が高い」という相関があったとします。これを「社員の幸福度が業績を上げる」と解釈するか、「業績が高いと社員が幸福になる」と解釈するか、データだけでは決めきれません。両方向の因果がありえます。

③偶然の相関

データの数が少なかったり、変数を多数試したりすると、偶然に相関が出ることがあります。「マーガリン消費量とメイン州の離婚率に相関がある」のような、明らかに偶然と思える相関は、ネット上で「spurious correlations(偽の相関)」として多数紹介されています。

🔰 初学者の方へ 「相関があるからおそらく因果がある」と直感的に飛びつくのは、人間の自然な思考の癖です。本コースで「相関 ≠ 因果」を繰り返し意識しておくと、職場や報道で「相関を因果のように語る」議論に出会ったとき、立ち止まれるようになります。これは統計学を学ぶ最大の実用効果の 1 つです。

因果を主張するには

相関だけでは因果は主張できません。因果を主張するには、次のいずれか(または複数)が必要です。

  • ランダム化比較試験(RCT):対象をランダムに 2 群に分け、片方だけに介入する。A/B テストもこの仲間
  • 自然実験:制度変更などで「偶然」介入群と対照群に分割された状況を活用する
  • 因果推論の手法:傾向スコア・操作変数法・差分の差分法など、計量経済学・疫学で発達した手法

これらは本コースでは深入りしませんが、「因果を主張するには、相関を超えた工夫が必要」と覚えておいてください。

単回帰分析——「線を引いて予測する」

回帰分析(regression analysis)は、変数の関係を「式」として表現し、予測に使う道具です。最もシンプルな形が、単回帰分析(simple regression)です。

単回帰の発想

2 つの変数 x(説明変数)と y(目的変数)に対して、散布図に「最もよく当てはまる直線」を引きます。式の形は、

y = a × x + b

a は傾き(x が 1 増えるごとに y がどれだけ増えるか)、b は切片(x = 0 のときの y)です。

例:

  • x = 広告費、y = 売上 → 「広告費を 1 万円増やすと、売上はどれくらい増えるか」を a で表す
  • x = 気温、y = 来店者数 → 「気温が 1 度上がると、来店者がどれくらい増えるか」を a で表す

「最もよく当てはまる線」の選び方

「最もよく当てはまる」をどう定義するかが、回帰分析の核です。最もよく使われるのが、最小二乗法(least squares method)です。

最小二乗法は、「実際のデータ点と、引いた線の予測値との縦方向のずれ(残差)の 2 乗の合計を最小にする」線を選びます。なぜ 2 乗するかは、レッスン 2 の分散と同じ理由——ずれをそのまま足すと打ち消し合って 0 になるからです。

直感的には、「散布図の中心を通って、データ点に最も近い 1 本の直線」を機械的に決める方法、と思って大丈夫です。

💡 ポイント 最小二乗法は、ガウス(Carl Friedrich Gauss)が 19 世紀初頭に天文学の観測誤差処理のために用いた、極めて古典的な手法です。シンプルですが、現代でも回帰分析の標準として広く使われています。

決定係数 R²——「回帰がデータをどれくらい説明するか」

回帰分析の結果として、最もよく報告される指標が、決定係数 R²(coefficient of determination)です。

R² の意味

「y のばらつきのうち、x で説明できる割合」を表します。値の範囲は 0 〜 1 で、1 に近いほど x が y をよく説明していると言えます。

例:

  • R² = 0.9:y のばらつきの 90% は x で説明できる。x の予測精度が非常に高い
  • R² = 0.3:y のばらつきの 30% は x で説明できる。x はある程度効くが、ほかの要因も大きい
  • R² = 0.05:y のばらつきの 5% しか x で説明できない。x ではほぼ予測できない

R² の落とし穴

  • R² が高くても、回帰の前提(線形性、誤差の独立性、等分散性、正規性)が崩れていれば結論は怪しい
  • 説明変数(x)を増やせば、R² は機械的に上がる。本当に意味があるかは別問題(後述の重回帰で扱う「自由度調整済み R²」が補正の役割を持つ)
  • R² が低くても、「弱い関係はある」「ほかの要因も加えれば説明できる」ことを示唆する場合がある

残差プロットで前提を確認

回帰分析の前提が成り立っているかは、「残差プロット」を見て確認します。残差(実測値 − 予測値)を、説明変数または予測値に対してプロットして、

  • 残差が無作為にバラついていれば、線形モデルが妥当
  • 残差にパターンが見える(曲線、扇形など)と、線形では不十分

これも、教科書の数式より「散布図を見る」直感の方が、はるかに早く理解できます。

多変数回帰の入口

単回帰は説明変数が 1 つですが、現実のビジネスでは「複数の変数で予測したい」ことがほとんどです。これを扱うのが、重回帰分析(multiple regression)です。

重回帰の発想

説明変数を複数(x₁, x₂, x₃, ...)に増やして、

y = a₁ × x₁ + a₂ × x₂ + a₃ × x₃ + ... + b

の形で式を立てます。例えば、売上を「広告費・気温・店舗の広さ・曜日」の 4 つから予測する、というふうに。

多重共線性——重回帰の落とし穴

重回帰で最も問題になるのが、「説明変数同士に強い相関がある」状態です。これを多重共線性(multicollinearity)と呼びます。

例:「広告費」と「販促費」の両方を説明変数に入れたとき、両者が強く相関していると(広告費を増やすと販促費も連動して増えるなど)、回帰係数が不安定になり、「広告費の効果」と「販促費の効果」を分けて推定するのが難しくなります。

多重共線性の対処

  • 相関が強い変数のどちらかを削る
  • 主成分分析などで合成した変数を使う
  • 正則化回帰(リッジ回帰、ラッソ回帰)を使う

本コースでは深入りしませんが、「重回帰では、説明変数同士の関係も気にする」が、実用上の重要原則です。

⚠️ 注意 重回帰の結果を解釈するとき、「広告費の係数が + 50」と聞いて「広告費 1 万円増やすと売上が 50 万円増える」と直感的に読むのは、しばしば誤りです。重回帰の係数は「ほかのすべての変数を一定に保ったまま、その変数だけ 1 増やしたときの y の増加分」という意味で、現実の意思決定にそのまま使えるとは限りません。回帰係数の解釈は、本コースの範囲を超える注意が必要です。

講師の現場メモ:「相関係数 0.8 だから因果がある」と主張された営業会議の話

私(牧野)が事業会社の SaaS グロース分析を担当していたころの話です。あるとき、営業部の会議に呼ばれて、「うちのオンボーディング期間の長さと解約率の間に、相関係数 -0.8 という強い負の相関が出た。だからオンボーディングを長くすれば解約率が下がる、という打ち手が決まった」という報告を聞きました。

私は内心ひやりとしました。相関係数 -0.8 は確かに強い負の相関ですが、それが「オンボーディングを長くすれば解約が減る」を意味するわけではないからです。私は会議でいくつかの可能性を提示しました。

  • 因果の向きが逆かもしれない:「解約しない(残る)顧客は、オンボーディングを最後まで受ける時間があるだけ」かもしれない。早期解約した顧客は、そもそもオンボーディングを完走していない可能性がある
  • 第三の変数があるかもしれない:「もともと意欲が高い顧客」が、オンボーディングを完走しやすく、かつ解約もしにくい。意欲という未観測の要因が、両方を動かしている可能性
  • 外れ値の影響かもしれない:散布図を見ないと相関係数 -0.8 が本当の関係を示しているか怪しい

会議では一旦結論を保留してもらい、私のチームで再分析しました。散布図を描くと、確かに右下がりの傾向はあるが、線形ではなく曲線的で、しかも数件の外れ値が傾向を強めていることがわかりました。さらに、データを「初月で解約した顧客」と「初月を超えた顧客」に分けると、「初月を超えた顧客」だけでは相関がほぼ消えていました。

つまり、観測されていた「相関 -0.8」の実態は、「初月で解約する顧客はオンボーディングを完走しない」という当たり前の事実が、相関を強めていただけでした。「オンボーディング期間を長くする」打ち手は、初月解約を防ぐ理由にはなりません。

この再分析を持って営業部に戻り、「オンボーディング長期化」の施策は、別の根拠(パイロット試験など)が要ると伝えました。担当者は最初は腑に落ちない様子でしたが、データを一緒に見ながら、「相関と因果は違う」「散布図を見ないと判断できない」の発想を共有できました。

このときに改めて痛感したのが、「相関係数だけで意思決定すると、経営に高いコストが返ってくる」ということでした。本コースの読者には、「相関を見たら、必ず散布図を見る」「因果の向きと交絡要因を考える」発想を、必ず持ち帰っていただきたいと思います。

まとめ

このレッスンでは、以下のことを学びました。

  • ピアソン相関係数は -1 〜 +1 の範囲で、2 変数の「線形的に一緒に動く度合い」を測る
  • 「相関係数の目安」は分野や用途で違い、機械的に当てはめると判断を誤る
  • ピアソン相関係数の 3 つの限界:①線形関係しか測れない、②外れ値の影響を強く受ける、③散布図を見ないと誤解する(アンスコムのカルテット)
  • 相関と因果は別物:①交絡要因、②因果の向きの問題、③偶然の相関
  • 因果の主張には、RCT(A/B テスト)・自然実験・因果推論の手法など、相関を超えた工夫が要る
  • 単回帰分析:散布図に「最もよく当てはまる直線」を引く道具。最小二乗法が標準
  • 決定係数 R² は「y のばらつきのうち、x で説明できる割合」。1 に近いほど x の説明力が高い
  • 多変数回帰では、説明変数同士の相関(多重共線性)が結果を不安定にする
  • 回帰係数の解釈には、本コースの範囲を超える注意が要る

次のレッスンが本コースの最終レッスンです。統計の誤用と倫理として、p 値ハッキング、HARKing、選択バイアスサバイバー・バイアスシンプソンのパラドックス、心理学の再現性危機を扱います。統計学の限界と、コース修了後の学習方向までを案内します。


確認クイズ

このレッスンの理解度をチェックしましょう。