レッスン6：評価設計——カークパトリックの4段階とROI

このレッスンで学ぶこと

カークパトリックの4段階評価の各レベルを理解する
ROI評価（レベル5）の位置づけを把握する
各レベルの測定方法と現実的な実装例を知る
評価を「研修後」ではなく「設計時」に組み込む発想を持つ

レッスン5まで、研修・教材の設計（学習目標・教える流れ・モチベーション）を学んできました。本レッスンでは、設計したものの「成果をどう測るか」——評価設計を扱います。多くの研修が「アンケートで終わる」のは、評価設計が薄いからです。「学んだか」「行動が変わったか」「成果に結びついたか」を見える化するフレームワークを身につけましょう。

なぜ評価が大事なのか

評価が不十分だと、次のような事態が起きます。

「やった感」はあるが、実際に成果につながっているかわからない
上層部から「あの研修、効果あるの？」と問われたときに答えられない
改善ポイントが特定できず、毎年同じ研修を繰り返す
予算配分の根拠が示せず、研修予算がじりじり削られる

逆に、評価がしっかりしていると、研修は「コスト」から「投資」になります。「○○の研修を実施した結果、現場で△△の指標が□%改善した」と言えれば、研修予算は守りやすくなり、改善も進みます。

💡 ポイント 評価は「研修が終わった後にやること」ではなく、「設計フェーズで決めておくこと」です。学習目標（レッスン3）と評価方法は表裏一体で、目標を書くと同時に「どう測るか」も決めるのが鉄則です。

カークパトリックの4段階評価

ドナルド・カークパトリック（Donald Kirkpatrick）が1959年に提唱した、研修評価のもっとも有名なフレームワークです。研修の効果を4つのレベルで段階的に測ります。

レベル	名称	測るもの	測り方の例
1	反応（Reaction）	受講者の満足度・印象	終了直後のアンケート
2	学習（Learning）	知識・スキルの習得	確認テスト・実技試験
3	行動（Behavior）	現場での行動変化	上司・本人インタビュー、観察
4	結果（Results）	業務指標への影響	売上・離職率・生産性などのKPI

下のレベルから上のレベルへ、測定の難易度・コストは大きく上がっていきます。一方で、上のレベルほど「研修の本当の価値」を示します。

レベル1：反応（Reaction）

受講者が研修を「どう感じたか」を測るレベルです。終了直後のアンケートが典型です。

測定方法

5段階の満足度評価
自由記述（「特に役立った点」「改善してほしい点」）
推奨度（「同僚に勧めたいか」）

強み

測定コストが低く、すぐに結果が得られる
講師・運営の改善には直結する

弱み

「楽しかった」「わかりやすかった」は、必ずしも学習成果と一致しない
レベル1だけ高い研修は、「学びが浅い」「研修が娯楽化している」可能性がある

⚠️ 注意 「アンケートの満足度が95%だった」という事実だけで、研修が成功したと結論するのは早計です。レベル2以上でも成果が見えてはじめて、研修は機能していると言えます。

レベル2：学習（Learning）

受講者が「何を学んだか」を測るレベルです。

測定方法

研修前後の知識テスト（事前テストとの比較がベスト）
実技試験・課題提出
ロールプレイの観察
ケーススタディへの回答

強み

受講直後に測定でき、学習成果が明確に見える
ブルームのタキソノミー（レッスン3）と直結し、設計しやすい

弱み

「テストで点を取れる」と「業務で使える」はずれることがある
テスト形式によっては、暗記中心の評価に偏る

🔰 初学者の方へ レベル2の評価で大事なのは、「事前テスト」も実施することです。受講後だけの点数では「もともとできていた人」と「研修で身についた人」が区別できません。事前と事後の差分こそが、研修の純粋な学習効果です。

レベル3：行動（Behavior）

受講者が「現場で行動が変わったか」を測るレベルです。研修の「業務適用」を見るレベルとも言えます。

測定方法

受講者本人へのフォローアップインタビュー
上司による行動観察評価
同僚・部下からの360度評価
業務記録（CRMの入力内容、議事録、対応履歴）の分析

測定タイミング

研修終了から 3〜6か月後 が一般的です。直後では行動変化が観察できず、長期すぎると別の要因が混じります。

強み

研修の「業務適用」を直接見ることができる
「学んだのに使われていない」問題に気づける

弱み

測定にコスト・時間がかかる
業務環境の影響を受けやすい（上司のサポート、業務上の機会の有無など）

💡 ポイント レベル3で測定する場合、研修と現場の橋渡しを設計に組み込みます。「研修後3か月で、学んだことを使った事例を3つ報告する」「上司との1on1で実践を振り返る」などの仕組みを、設計フェーズで組み込みます。

レベル4：結果（Results）

受講者の行動変化が、組織の業務指標（KPI）にどう影響したかを測るレベルです。

測定方法

売上・利益への影響
離職率の変化
生産性指標（処理件数・所要時間など）の変化
顧客満足度
安全性指標（事故率など）

測定タイミング

研修終了から 6〜12か月以上後 が一般的です。

強み

経営層・スポンサーに研修の価値を示しやすい
投資対効果（ROI）の議論に直結する

弱み

外部要因（市場環境・季節変動・組織変更）の影響が大きい
因果関係の特定が難しい（研修だけが原因か、ほかの要因か）

⚠️ 注意 「業績が上がったのは研修のおかげ」と単純に主張するのは危険です。レッスン6（データ分析入門）で扱った「相関と因果」の議論を思い出してください。可能なら、研修を受けたグループと受けていないグループを比較する、複数年のトレンドで見るなどの工夫を入れます。

レベル5：ROI（投資対効果）——フィリップスの拡張

カークパトリックの4段階を、ジャック・フィリップス（Jack Phillips）が拡張し、5番目のレベルとして「ROI（Return on Investment）」を提案しました。

ROIの計算式

ROI（%） = (研修によって生まれた金額的便益 − 研修コスト) ÷ 研修コスト × 100

例えば、研修コストが500万円で、生産性向上による便益が1,500万円なら、ROI = (1,500 − 500) ÷ 500 × 100 = 200% となります。

強みと弱み

強み：

経営層との対話で説得力が高い
研修予算の正当性を数値で示せる

弱み：

便益の金額換算が難しい（特に管理職研修・コンプライアンス研修など）
ROIだけを追うと、短期的な研修に偏りやすい
すべての研修でROIを測定するのは現実的でない

📝 補足 ROIを使うかどうかは、研修の性質によって判断します。営業研修・生産性研修のように成果が金額で測りやすいものはROIが使えます。一方、コンプライアンス研修・倫理研修などは「やらなかった場合のリスク回避効果」をROIで示すのは無理があります。

「逆ピラミッド」の設計順序

カークパトリックの後継者たち（息子のジェームズ・カークパトリックほか）が提唱した「New World Kirkpatrick Model」では、評価の設計順序を「逆ピラミッド」で進めることを推奨しています。

通常の発想：

レベル1 → レベル2 → レベル3 → レベル4
（反応） （学習） （行動） （結果）

逆ピラミッドの発想：

レベル4 → レベル3 → レベル2 → レベル1
（結果から逆算して設計する）

つまり、「最終的に組織のどの指標を改善したいか（レベル4）」を最初に決め、「そのために必要な行動は何か（レベル3）」「その行動に必要な学習は何か（レベル2）」「学習者にどう反応してほしいか（レベル1）」と逆算して研修を設計する、というアプローチです。

この発想は、レッスン3で扱った「学習目標から逆算する」という考え方と直結しています。

🔰 初学者の方へ 「結果（レベル4）」から逆算して設計するクセがつくと、研修の「目的」と「内容」がずれません。逆に、レベル1（反応）から積み上げる発想だと、「気持ちよく研修を受けてもらう」だけに最適化され、成果につながらないことがあります。

4段階のどこまで測るか

すべての研修で4段階すべてを測る必要はありません。研修の性質・予算・規模に応じて、どこまで測るかを決めます。

研修の性質	推奨される測定レベル
短時間のマイクロラーニング	レベル1〜2
一般的な業務スキル研修	レベル1〜3
重要な戦略研修・大規模投資	レベル1〜4（場合によってレベル5）
コンプライアンス研修	レベル2〜3（行動の確実性が重要）
安全研修	レベル2〜4（事故率という明確な指標がある）

💡 ポイント 「全研修でレベル4まで」と決めると、コストが大きく、結局どの研修も中途半端になります。「研修ごとに何のレベルまで測るか」を事前に決めるのが、現実的な運用方法です。

評価設計で陥りやすい罠

1. レベル1だけで完結する

満足度アンケートだけで「研修は成功した」と結論してしまう。レベル2以上を最初から組み込む。

2. 評価方法を後から決める

設計時に決めずに、研修後に「どう評価しよう」と慌てる。事前テスト・事後テストを設計に組み込むには、研修開始前に準備が必要です。

3. 比較対象を持たない

研修受講者の数値だけを見て、「上がった／下がった」と判断する。可能なら、受講していない比較対象（コントロールグループ）と比べる。

4. 短期間で結論する

研修直後の数値だけで成否を判断する。レベル3・4は3か月以上の経過を見る必要があります。

5. 因果関係を断定する

「研修を受けた人の売上が伸びた」だけで「研修のおかげ」と主張する。ほかの要因の影響も含めて、慎重に解釈します。

⚠️ 注意 評価は研修担当者・人事だけの仕事ではなく、現場の上司・経営層との協働が必要です。とくにレベル3・4の測定には、現場のサポートが不可欠です。事前に「測定の協力」を関係者と合意しておくと、評価が頓挫しません。

講師の現場メモ：レベル4で逆転した評価

私（高木）が担当したあるセールス研修の話です。研修終了直後のアンケート（レベル1）は、5段階で平均3.8。「悪くはないが、突出して良くもない」結果でした。私と研修依頼元の人事担当者は「思ったほど評価されなかったか」と少し落胆していました。

ところが、6か月後にレベル3〜4を測ったところ、状況は一変しました。受講者の商談成約率は、研修前と比べて15%上昇。受講後3か月以内に上司との1on1で実践した受講者は、商談リードタイムが平均20%短縮。同時期に非受講者の数字は変化がありませんでした。

研修直後の「楽しさ」は中程度でしたが、内容が業務でしっかり使われていたのです。レベル1だけで判断していたら、「不振な研修」というラベルがつき、改善・継続もされなかったかもしれません。レベル3・4まで測ることが、いかに大事かを実感した経験です。

まとめ

このレッスンでは、以下のことを学びました。

カークパトリックの4段階評価は、研修効果を「反応・学習・行動・結果」の4レベルで測るフレームワーク
レベル1（反応）：満足度。コスト低だが研修の本質は測れない
レベル2（学習）：知識・スキル。事前テストとの差分で見るのがベスト
レベル3（行動）：現場での行動変化。3〜6か月後に測定
レベル4（結果）：業務指標への影響。6〜12か月以上後に測定
レベル5（ROI）：フィリップスが拡張した投資対効果
「逆ピラミッド」で結果から逆算して設計するのが本来の発想
全研修で4段階すべて測る必要はなく、研修の性質に応じて測定範囲を決める

次のレッスンでは、研修と現場の関係を広い視野で捉える「70-20-10の法則」と、近年急速に広がる「マイクロラーニング」を学びます。フォーマルな研修だけに頼らない学習設計の発想です。

確認クイズ

このレッスンの理解度をチェックしましょう。