本文へスキップ
スキルアップカレッジ

評価設計——カークパトリックの4段階とROI

レッスン6:評価設計——カークパトリックの4段階とROI

このレッスンで学ぶこと

  • カークパトリックの4段階評価の各レベルを理解する
  • ROI評価(レベル5)の位置づけを把握する
  • 各レベルの測定方法と現実的な実装例を知る
  • 評価を「研修後」ではなく「設計時」に組み込む発想を持つ

レッスン5まで、研修・教材の設計(学習目標・教える流れ・モチベーション)を学んできました。本レッスンでは、設計したものの「成果をどう測るか」——評価設計を扱います。多くの研修が「アンケートで終わる」のは、評価設計が薄いからです。「学んだか」「行動が変わったか」「成果に結びついたか」を見える化するフレームワークを身につけましょう。

なぜ評価が大事なのか

評価が不十分だと、次のような事態が起きます。

  • 「やった感」はあるが、実際に成果につながっているかわからない
  • 上層部から「あの研修、効果あるの?」と問われたときに答えられない
  • 改善ポイントが特定できず、毎年同じ研修を繰り返す
  • 予算配分の根拠が示せず、研修予算がじりじり削られる

逆に、評価がしっかりしていると、研修は「コスト」から「投資」になります。「○○の研修を実施した結果、現場で△△の指標が□%改善した」と言えれば、研修予算は守りやすくなり、改善も進みます。

💡 ポイント 評価は「研修が終わった後にやること」ではなく、「設計フェーズで決めておくこと」です。学習目標(レッスン3)と評価方法は表裏一体で、目標を書くと同時に「どう測るか」も決めるのが鉄則です。

カークパトリックの4段階評価

ドナルド・カークパトリック(Donald Kirkpatrick)が1959年に提唱した、研修評価のもっとも有名なフレームワークです。研修の効果を4つのレベルで段階的に測ります。

レベル 名称 測るもの 測り方の例
1 反応(Reaction) 受講者の満足度・印象 終了直後のアンケート
2 学習(Learning) 知識・スキルの習得 確認テスト・実技試験
3 行動(Behavior) 現場での行動変化 上司・本人インタビュー、観察
4 結果(Results) 業務指標への影響 売上・離職率・生産性などのKPI

下のレベルから上のレベルへ、測定の難易度・コストは大きく上がっていきます。一方で、上のレベルほど「研修の本当の価値」を示します。

レベル1:反応(Reaction)

受講者が研修を「どう感じたか」を測るレベルです。終了直後のアンケートが典型です。

測定方法

  • 5段階の満足度評価
  • 自由記述(「特に役立った点」「改善してほしい点」)
  • 推奨度(「同僚に勧めたいか」)

強み

  • 測定コストが低く、すぐに結果が得られる
  • 講師・運営の改善には直結する

弱み

  • 「楽しかった」「わかりやすかった」は、必ずしも学習成果と一致しない
  • レベル1だけ高い研修は、「学びが浅い」「研修が娯楽化している」可能性がある

⚠️ 注意 「アンケートの満足度が95%だった」という事実だけで、研修が成功したと結論するのは早計です。レベル2以上でも成果が見えてはじめて、研修は機能していると言えます。

レベル2:学習(Learning)

受講者が「何を学んだか」を測るレベルです。

測定方法

  • 研修前後の知識テスト(事前テストとの比較がベスト)
  • 実技試験・課題提出
  • ロールプレイの観察
  • ケーススタディへの回答

強み

  • 受講直後に測定でき、学習成果が明確に見える
  • ブルームのタキソノミー(レッスン3)と直結し、設計しやすい

弱み

  • 「テストで点を取れる」と「業務で使える」はずれることがある
  • テスト形式によっては、暗記中心の評価に偏る

🔰 初学者の方へ レベル2の評価で大事なのは、「事前テスト」も実施することです。受講後だけの点数では「もともとできていた人」と「研修で身についた人」が区別できません。事前と事後の差分こそが、研修の純粋な学習効果です。

レベル3:行動(Behavior)

受講者が「現場で行動が変わったか」を測るレベルです。研修の「業務適用」を見るレベルとも言えます。

測定方法

  • 受講者本人へのフォローアップインタビュー
  • 上司による行動観察評価
  • 同僚・部下からの360度評価
  • 業務記録(CRMの入力内容、議事録、対応履歴)の分析

測定タイミング

研修終了から 3〜6か月後 が一般的です。直後では行動変化が観察できず、長期すぎると別の要因が混じります。

強み

  • 研修の「業務適用」を直接見ることができる
  • 「学んだのに使われていない」問題に気づける

弱み

  • 測定にコスト・時間がかかる
  • 業務環境の影響を受けやすい(上司のサポート、業務上の機会の有無など)

💡 ポイント レベル3で測定する場合、研修と現場の橋渡しを設計に組み込みます。「研修後3か月で、学んだことを使った事例を3つ報告する」「上司との1on1で実践を振り返る」などの仕組みを、設計フェーズで組み込みます。

レベル4:結果(Results)

受講者の行動変化が、組織の業務指標(KPI)にどう影響したかを測るレベルです。

測定方法

  • 売上・利益への影響
  • 離職率の変化
  • 生産性指標(処理件数・所要時間など)の変化
  • 顧客満足度
  • 安全性指標(事故率など)

測定タイミング

研修終了から 6〜12か月以上後 が一般的です。

強み

  • 経営層・スポンサーに研修の価値を示しやすい
  • 投資対効果(ROI)の議論に直結する

弱み

  • 外部要因(市場環境・季節変動・組織変更)の影響が大きい
  • 因果関係の特定が難しい(研修だけが原因か、ほかの要因か)

⚠️ 注意 「業績が上がったのは研修のおかげ」と単純に主張するのは危険です。レッスン6(データ分析入門)で扱った「相関と因果」の議論を思い出してください。可能なら、研修を受けたグループと受けていないグループを比較する、複数年のトレンドで見るなどの工夫を入れます。

レベル5:ROI(投資対効果)——フィリップスの拡張

カークパトリックの4段階を、ジャック・フィリップス(Jack Phillips)が拡張し、5番目のレベルとして「ROI(Return on Investment)」を提案しました。

ROIの計算式

ROI(%) = (研修によって生まれた金額的便益 − 研修コスト) ÷ 研修コスト × 100

例えば、研修コストが500万円で、生産性向上による便益が1,500万円なら、ROI = (1,500 − 500) ÷ 500 × 100 = 200% となります。

強みと弱み

強み

  • 経営層との対話で説得力が高い
  • 研修予算の正当性を数値で示せる

弱み

  • 便益の金額換算が難しい(特に管理職研修・コンプライアンス研修など)
  • ROIだけを追うと、短期的な研修に偏りやすい
  • すべての研修でROIを測定するのは現実的でない

📝 補足 ROIを使うかどうかは、研修の性質によって判断します。営業研修・生産性研修のように成果が金額で測りやすいものはROIが使えます。一方、コンプライアンス研修・倫理研修などは「やらなかった場合のリスク回避効果」をROIで示すのは無理があります。

「逆ピラミッド」の設計順序

カークパトリックの後継者たち(息子のジェームズ・カークパトリックほか)が提唱した「New World Kirkpatrick Model」では、評価の設計順序を「逆ピラミッド」で進めることを推奨しています。

通常の発想:

レベル1 → レベル2 → レベル3 → レベル4
(反応) (学習) (行動) (結果)

逆ピラミッドの発想:

レベル4 → レベル3 → レベル2 → レベル1
(結果から逆算して設計する)

つまり、「最終的に組織のどの指標を改善したいか(レベル4)」を最初に決め、「そのために必要な行動は何か(レベル3)」「その行動に必要な学習は何か(レベル2)」「学習者にどう反応してほしいか(レベル1)」と逆算して研修を設計する、というアプローチです。

この発想は、レッスン3で扱った「学習目標から逆算する」という考え方と直結しています。

🔰 初学者の方へ 「結果(レベル4)」から逆算して設計するクセがつくと、研修の「目的」と「内容」がずれません。逆に、レベル1(反応)から積み上げる発想だと、「気持ちよく研修を受けてもらう」だけに最適化され、成果につながらないことがあります。

4段階のどこまで測るか

すべての研修で4段階すべてを測る必要はありません。研修の性質・予算・規模に応じて、どこまで測るかを決めます。

研修の性質 推奨される測定レベル
短時間のマイクロラーニング レベル1〜2
一般的な業務スキル研修 レベル1〜3
重要な戦略研修・大規模投資 レベル1〜4(場合によってレベル5)
コンプライアンス研修 レベル2〜3(行動の確実性が重要)
安全研修 レベル2〜4(事故率という明確な指標がある)

💡 ポイント 「全研修でレベル4まで」と決めると、コストが大きく、結局どの研修も中途半端になります。「研修ごとに何のレベルまで測るか」を事前に決めるのが、現実的な運用方法です。

評価設計で陥りやすい罠

1. レベル1だけで完結する

満足度アンケートだけで「研修は成功した」と結論してしまう。レベル2以上を最初から組み込む。

2. 評価方法を後から決める

設計時に決めずに、研修後に「どう評価しよう」と慌てる。事前テスト・事後テストを設計に組み込むには、研修開始前に準備が必要です。

3. 比較対象を持たない

研修受講者の数値だけを見て、「上がった/下がった」と判断する。可能なら、受講していない比較対象(コントロールグループ)と比べる。

4. 短期間で結論する

研修直後の数値だけで成否を判断する。レベル3・4は3か月以上の経過を見る必要があります。

5. 因果関係を断定する

「研修を受けた人の売上が伸びた」だけで「研修のおかげ」と主張する。ほかの要因の影響も含めて、慎重に解釈します。

⚠️ 注意 評価は研修担当者・人事だけの仕事ではなく、現場の上司・経営層との協働が必要です。とくにレベル3・4の測定には、現場のサポートが不可欠です。事前に「測定の協力」を関係者と合意しておくと、評価が頓挫しません。

講師の現場メモ:レベル4で逆転した評価

私(高木)が担当したあるセールス研修の話です。研修終了直後のアンケート(レベル1)は、5段階で平均3.8。「悪くはないが、突出して良くもない」結果でした。私と研修依頼元の人事担当者は「思ったほど評価されなかったか」と少し落胆していました。

ところが、6か月後にレベル3〜4を測ったところ、状況は一変しました。受講者の商談成約率は、研修前と比べて15%上昇。受講後3か月以内に上司との1on1で実践した受講者は、商談リードタイムが平均20%短縮。同時期に非受講者の数字は変化がありませんでした。

研修直後の「楽しさ」は中程度でしたが、内容が業務でしっかり使われていたのです。レベル1だけで判断していたら、「不振な研修」というラベルがつき、改善・継続もされなかったかもしれません。レベル3・4まで測ることが、いかに大事かを実感した経験です。

まとめ

このレッスンでは、以下のことを学びました。

  • カークパトリックの4段階評価は、研修効果を「反応・学習・行動・結果」の4レベルで測るフレームワーク
  • レベル1(反応):満足度。コスト低だが研修の本質は測れない
  • レベル2(学習):知識・スキル。事前テストとの差分で見るのがベスト
  • レベル3(行動):現場での行動変化。3〜6か月後に測定
  • レベル4(結果):業務指標への影響。6〜12か月以上後に測定
  • レベル5(ROI):フィリップスが拡張した投資対効果
  • 「逆ピラミッド」で結果から逆算して設計するのが本来の発想
  • 全研修で4段階すべて測る必要はなく、研修の性質に応じて測定範囲を決める

次のレッスンでは、研修と現場の関係を広い視野で捉える「70-20-10の法則」と、近年急速に広がる「マイクロラーニング」を学びます。フォーマルな研修だけに頼らない学習設計の発想です。


確認クイズ

このレッスンの理解度をチェックしましょう。