用語集 | プロンプトエンジニアリング実践

A/B 比較（えーびーひかく）

2 つ（または複数）のプロンプト案を、同じ評価セットで実行し、量的指標や失敗事例の差分を比較する運用。本コースのイテレーションサイクルの中核動作のひとつ。

→ レッスン5

イテレーションサイクル（いてれーしょんさいくる）

「設計→評価→分析→改善」を継続的に回す運用。週に 1〜2 時間でも続けることで長期的にプロンプト品質が大きく磨かれる。本コースの中心概念。

→ レッスン5

XML タグ構造化（えっくすえむえるたぐこうぞうか）

プロンプトの入出力構造を XML タグで明示する手法。Anthropic 公式が Claude シリーズに対して推奨。長文・入れ子・指示と入力データの分離に向く。

→ レッスン4

LLM-as-a-Judge （えるえるえむあずあじゃっじ）

評価用のプロンプトを別に作り、別の LLM（または同じ LLM）に「この出力は正しいか」「どちらの出力が良いか」を判定させる手法。位置バイアス・長さバイアスなどの限界があり、人手評価との一致率を測ってから運用する。

→ レッスン5

エージェント（えーじぇんと）

観察・思考・行動・記憶・道具の 5 要素を循環させて、複数段階のタスクを実行する LLM ベースのシステム。ReAct パターンが現代のエージェント実装の基礎。

→ レッスン7

AI エージェント・フレームワーク（えーあいえーじぇんとふれーむわーく）

LangChain、LangGraph、AutoGen、CrewAI、LlamaIndex、Anthropic Agent SDK など、エージェント構築を支援するソフトウェア群。本コースは特定推奨せず、組織の技術スタック・要件で選ぶ。MCP 互換が移行時の安全策。

→ レッスン7

Constrained Generation（こんすとれいんどじぇねれーしょん）

LLM の次トークン候補をフィルタリングし、文法的に必ず正しい JSON や特定の構造に従わせる技術。「形式の正しさ」は保証するが「内容の正しさ」は別途検証が必要。

→ レッスン4

Constitutional AI（こんすてぃちゅーしょなるえーあい）

Anthropic が 2022 年の論文「Constitutional AI: Harmlessness from AI Feedback」（Bai et al.）で提案した LLM 訓練手法。「憲法」と呼ばれる原則のリストを LLM 自身が参照して、自己批評・改善のループで訓練する。

→ レッスン8

Chain-of-Thought（ちぇーんおぶそーと／CoT）

Wei らが 2022 年に NeurIPS 論文で示した、LLM に「結論だけ」ではなく「考えるプロセスを書きながら結論を導かせる」と推論精度が上がる古典技法。Kojima らの Zero-shot CoT（「Let's think step by step.」を付け加えるだけ）も広く知られる。

→ レッスン3

Claude Opus 4.7（くろーどおーぱすよんてんなな）

Anthropic の最上位汎用モデル（2026 年 6 月時点）。深い推論と長文処理に強い。同シリーズに Sonnet 4.6、Haiku 4.5、Fable 5。

→ レッスン1

Claude Extended Thinking（くろーどえくすてんでっどしんきんぐ）

Claude シリーズで利用可能な、内部で深い思考プロセスを実行する reasoning モード。外側からの「step by step」指示の必要性が下がる。

→ レッスン1

構造化出力（こうぞうかしゅつりょく）

LLM の出力を JSON・XML・Markdown などの構造化された形式で受け取る発想。業務システムに組み込むときの必須技術。

→ レッスン4

自律性のレベル（じりつせいのれべる）

AI エージェントを業務に導入するとき、人の介入度を 4〜5 段階で設計する発想。L0（人手対応）から L4（完全自律）まで。可逆性・影響範囲・検証難度・失敗コストで判断する、ビジネスのリスク管理。

→ レッスン7

ジェイルブレイク（じぇいるぶれいく）

LLM のモデル側に組み込まれた安全機構（不適切な出力を避ける設計）を、巧妙なプロンプトで回避する攻撃。完全防御は困難で、業務範囲外を拒否する設計と検出のハイブリッドが現実的。

→ レッスン8

システムプロンプト（しすてむぷろんぷと）

LLM の振る舞い・役割・出力形式・制約を定義する、一段上のレイヤーのプロンプト。アプリケーション側で設定し、エンドユーザーには見えないことが多い。一般にユーザープロンプトより優先度が高く扱われる。

→ レッスン2

Self-Consistency（せるふこんしすてんしー）

Wang らが 2022 年 ICLR 論文で提案。同じプロンプトを温度を上げて複数回実行し、複数の思考過程と最終答えから多数決で結論を選ぶ。離散的な答えに有効。コストが N 倍に。

→ レッスン6

Self-Refine （せるふりふぁいん）

Madaan らが 2023 年 NeurIPS 論文で提案。LLM に「自分の出力を自己批評させ、改善版を作らせる」反復ループ。文章・コード改善に向く。

→ レッスン6

信頼境界の明示（しんらいきょうかいのめいじ）

プロンプトの中で「ここから先は信頼できないユーザー入力」と明確に区切る発想。プロンプトインジェクション対策の基本動作のひとつ。

→ レッスン8

Structured Outputs（すとらくちゃーどあうとぷっつ）

OpenAI・Anthropic・Google などの主要 API が提供する、JSON Schema に必ず従う出力モード。プロンプトで「JSON で返してください」と書くだけより確実性が高い。

→ レッスン4

CI／CD パイプライン（しーあいしーでぃーぱいぷらいん）

プロンプトの変更をプルリクエスト → 自動評価 → 差分レビュー → ステージング（カナリア検証）→ 本番展開 → 監視 → ロールバックの段階で運用する仕組み。ソフトウェア工学の発想を借りた管理。

→ レッスン8

出力検証の 3 層（しゅつりょくけんしょうのさんそう）

構造化出力を業務で扱うときの検証の階層：①形式（JSON が妥当か、スキーマに従うか）、②値（列挙値、必須項目、型）、③意味（内容が事実・入力と整合するか）。①②は自動化可、③は LLM-as-a-Judge や人手が必要。

→ レッスン4

温度（おんど／temperature）

LLM の出力のランダム性を制御するパラメータ。値を下げると決定的、上げると多様。要約や抽出など決定性が欲しいタスクでは低温度、ブレインストーミングや創作では高温度が一般的。

→ レッスン1

top-p（とっぷぴー）

LLM のサンプリングを制御するパラメータ。「累積確率 p までの候補のなかで選ぶ」核サンプリング方式で、温度と並ぶ多様性制御の基本。

→ レッスン1

Tree of Thoughts（つりーおぶそーつ／ToT）

Yao らが 2023 年 NeurIPS 論文で提案。思考を木構造として扱い、各ステップで複数の選択肢を生成・評価しながら有望な枝を探索する。多段階の探索・パズル系に向くが、コストが指数的に増えうる。

→ レッスン6

Tool Use（つーるゆーす）

Function Calling と同義。LLM がツール定義を読み、「ツール名と引数」を JSON で返し、アプリ側が実際の実行を行う仕組み。

→ レッスン7

トークン（とーくん）

LLM が扱う「文字の単位」。1 単語より細かい、形態素より粗い、モデル独自の単位。プロンプトの長さ・コスト・文脈窓は基本的にトークン単位で計測される。

→ レッスン1

文脈窓（ぶんみゃくまど／context window）

LLM が一度に「見える」入力＋出力の最大トークン数。2026 年 6 月時点で主要モデルの多くが 100 万トークン以上を持つ。物理的に収まっても「lost in the middle」で中間品質が下がる現象がある。

→ レッスン1

認知バイアス（にんちばいあす）

LLM-as-a-Judge での位置バイアス（A/B で前者を好む傾向）、長さバイアス（長い回答を好む傾向）など、判定 LLM が示す偏り。

→ レッスン5

Brown et al. 2020（ぶらうんえとあーるにせんにじゅう）

GPT-3 の研究者ら。NeurIPS 2020 論文「Language Models are Few-Shot Learners」で、Few-shot プロンプティングを現代の LLM の基本能力として広く知らしめた。

→ レッスン3

ハルシネーション（はるしねーしょん）

LLM が学習データや参照情報にない事実を、確信ありげに生成してしまう現象。プロンプトの工夫・構造化出力・RAG・検証ロジックなど複数層で対策する。

→ レッスン5

バージョン管理（ばーじょんかんり）

プロンプトを Git や専用 SaaS（LangSmith、Helicone、PromptLayer など）で管理する運用。「最新だけ」ではなく履歴を残し、巻き戻しを可能に。

→ レッスン8

persona 設定（ぺるそなせってい）

プロンプトに「あなたは○○の専門家です」のような役割設定を含める技法。文体・語彙・スタイル制御には有効だが、専門知識を本当に持つわけではなく、ハルシネーションを根絶しない。

→ レッスン2

評価セット（ひょうかせっと／test set）

プロンプトの良し悪しを測る「テスト問題集」。代表入力 30〜100 件と人手の期待出力をセットにする。難度の分散、失敗事例の蓄積、運用しながら育てる。

→ レッスン5

Few-shot プロンプティング（ふゅーしょっとぷろんぷてぃんぐ）

複数の入出力例（数個程度）をプロンプトに含めて、LLM に「パターン」を学ばせる手法。Brown et al. 2020 で広く知られるようになった。3〜7 個程度が費用対効果の高い目安。

→ レッスン3

Function Calling（ふぁんくしょんこーりんぐ）

Tool Use と同義。LLM が「使えるツールの定義」を読み、ツール名と引数を JSON で返す仕組み。アプリ側で実際のツールを実行し、結果を LLM に戻す。

→ レッスン7

プロンプト連鎖（ぷろんぷとれんさ／Prompt Chaining）

複雑なタスクを単一プロンプトで解こうとせず、複数のプロンプトに分割して連結する発想。ソフトウェア設計の関数分割と同じ考え方。

→ レッスン6

プロンプトインジェクション（ぷろんぷといんじぇくしょん）

ユーザー入力に「LLM への悪意ある指示」を埋め込み、本来の振る舞いを乗っ取る攻撃。完全に防ぐ「銀の弾丸」はなく、信頼境界明示・入力分離・出力検証・権限最小化・監視の複数層で対策。

→ レッスン8

プロンプトの 5 要素（ぷろんぷとのごようそ）

役割（Role）・指示（Instruction）・文脈（Context）・例（Examples）・出力形式（Output Format）の 5 つ。プロンプト設計のチェックリストとして点検する基本フレームワーク。

→ レッスン2

Madaan et al. 2023（まだーんえとあーるにせんにじゅうさん）

NeurIPS 2023 論文「Self-Refine: Iterative Refinement with Self-Feedback」で、LLM の自己批評と改善のループを提案した研究者ら。

→ レッスン6

MCP（えむしーぴー／Model Context Protocol）

Anthropic が 2024 年 11 月に公開した、AI エージェントとツール／データソースを接続する標準プロトコル。JSON-RPC ベース。2026 年 6 月時点で AI エージェント開発の事実上の標準。

→ レッスン7

メタプロンプティング（めたぷろんぷてぃんぐ）

「LLM に良いプロンプトを書かせる」発想。出発点や別視点として有用だが、多くの場合は人手版の方が良く、評価セットで比較してから採用する。

→ レッスン6

ユーザープロンプト（ゆーざーぷろんぷと）

エンドユーザーが入力する、その都度の質問・指示・データ。システムプロンプトと対をなす概念で、システムプロンプトより優先度が低く扱われることが多い。

→ レッスン2

RAG（らぐ／Retrieval-Augmented Generation）

検索拡張生成。LLM の知識を「外部の検索結果で補完する」発想。社内ナレッジや学習データのカットオフ以降の情報を扱うときの標準的手法。プロンプト設計のポイントは、参照情報の取り扱い指示・区切り・関連度・出典明示。

→ レッスン8

ReAct （りあくと）

Yao らが 2022 年 ICLR 論文「ReAct: Synergizing Reasoning and Acting in Language Models」で提案。Reasoning（思考）と Acting（行動）を交互に挟むパターン。現代の AI エージェント実装の基盤。

→ レッスン7

reasoning モデル（りーずにんぐもでる）

OpenAI の o シリーズ、Claude Extended Thinking、Gemini Thinking など、入力受領後に内部で「思考プロセス」を実行してから最終出力を返すモデル群。Chain-of-Thought の外側強制の必要性が下がる一方、コスト・レイテンシは数倍に。

→ レッスン1

Reflexion （りふれくしょん）

Shinn らが 2023 年 NeurIPS 論文「Reflexion: Language Agents with Verbal Reinforcement Learning」で提案。失敗の経験を「言語的反省」として記憶し、複数試行をまたいで学習する。エージェント設計の中核要素。

→ レッスン6

リトライ設計（りとらいせっけい）

構造化出力で検証に失敗したときの再実行の戦略。シンプルリトライ／エラーフィードバック付きリトライ／フォールバック（別モデル・別プロンプト・人手対応）。

→ レッスン4

量的指標（りょうてきしひょう）

精度・再現率・適合率・F1・合意率・コスト・レイテンシなど、プロンプト評価で数値で測れる指標。質的レビューと相補的に使う。

→ レッスン5

Anthropic （あんすろぴっく）

Claude シリーズの開発企業。「Constitutional AI」（2022）や「Model Context Protocol」（2024 年 11 月）を提唱し、現代の LLM エコシステムに大きな影響を与えている。

→ レッスン7

Gemini 3.1 Pro （じぇみにさんてんいちぷろ）

Google の主要 LLM（2026 年 6 月時点）。マルチモーダルと長文文脈窓に強い。軽量版に Gemini Flash。

→ レッスン1

GPT-5.5（じーぴーてぃーごてんご）

OpenAI の汎用フラッグシップモデル（2026 年 6 月時点）。マルチモーダル・推論・コーディングに対応。reasoning に特化した o シリーズ系統も別途展開。

→ レッスン1

JSON Schema（じぇいそんすきーま）

JSON の構造（プロパティ名、型、必須項目、列挙値など）を記述する標準仕様。LLM への形式指定として直接渡すか、API の Structured Outputs として渡す。

→ レッスン4

Kojima et al. 2022（こじまえとあーるにせんにじゅうに）

NeurIPS 2022 論文「Large Language Models are Zero-Shot Reasoners」の研究者ら。「Let's think step by step.」の一文だけで推論精度が大きく上がる Zero-shot CoT を報告した。

→ レッスン3

One-shot プロンプティング（わんしょっとぷろんぷてぃんぐ）

期待する入出力の例を 1 個だけ示す手法。形式や微妙なスタイルを 1 例で伝えたいときに使う。Zero-shot と Few-shot の中間。

→ レッスン3

Shinn et al. 2023（しんえとあーるにせんにじゅうさん）

NeurIPS 2023 論文「Reflexion: Language Agents with Verbal Reinforcement Learning」の研究者ら。失敗の言語的反省を次の試行に活かす Reflexion を提唱。

→ レッスン6

Wang et al. 2022（わんえとあーるにせんにじゅうに）

ICLR 2023 論文「Self-Consistency Improves Chain of Thought Reasoning in Language Models」の研究者ら。複数試行と多数決で精度を上げる Self-Consistency を提唱。

→ レッスン6

Wei et al. 2022（うぇいえとあーるにせんにじゅうに）

NeurIPS 2022 論文「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」の研究者ら。LLM の Chain-of-Thought の効果を実証し、プロンプトエンジニアリングの基礎研究の一つとなった。

→ レッスン3

Yao et al. 2022 / 2023（やおえとあーるにせんにじゅうに／にせんにじゅうさん）

2022 年 ICLR で ReAct、2023 年 NeurIPS で Tree of Thoughts を提案した研究者ら。LLM のエージェント・複雑推論の研究を主導。

→ レッスン7

Zero-shot プロンプティング（ぜろしょっとぷろんぷてぃんぐ）

例を渡さず、指示だけでタスクを実行させる手法。タスクが標準的で、LLM が学習済みの場合に有効。

→ レッスン3