本文へスキップ
スキルアップカレッジ

用語集

プロンプトエンジニアリング実践コースで使われる主要な用語(59語)をまとめています。

A/B 比較(えーびーひかく)
2 つ(または複数)のプロンプト案を、同じ評価セットで実行し、量的指標や失敗事例の差分を比較する運用。本コースのイテレーションサイクルの中核動作のひとつ。
→ レッスン5
イテレーションサイクル(いてれーしょんさいくる)
「設計→評価→分析→改善」を継続的に回す運用。週に 1〜2 時間でも続けることで長期的にプロンプト品質が大きく磨かれる。本コースの中心概念。
→ レッスン5
XML タグ構造化 (えっくすえむえる たぐ こうぞうか)
プロンプトの入出力構造を XML タグで明示する手法。Anthropic 公式が Claude シリーズに対して推奨。長文・入れ子・指示と入力データの分離に向く。
→ レッスン4
LLM-as-a-Judge (えるえるえむ あず あ じゃっじ)
評価用のプロンプトを別に作り、別の LLM(または同じ LLM)に「この出力は正しいか」「どちらの出力が良いか」を判定させる手法。位置バイアス・長さバイアスなどの限界があり、人手評価との一致率を測ってから運用する。
→ レッスン5
エージェント(えーじぇんと)
観察・思考・行動・記憶・道具の 5 要素を循環させて、複数段階のタスクを実行する LLM ベースのシステム。ReAct パターンが現代のエージェント実装の基礎。
→ レッスン7
AI エージェント・フレームワーク(えーあい えーじぇんと ふれーむわーく)
LangChain、LangGraph、AutoGen、CrewAI、LlamaIndex、Anthropic Agent SDK など、エージェント構築を支援するソフトウェア群。本コースは特定推奨せず、組織の技術スタック・要件で選ぶ。MCP 互換が移行時の安全策。
→ レッスン7
Constrained Generation(こんすとれいんど じぇねれーしょん)
LLM の次トークン候補をフィルタリングし、文法的に必ず正しい JSON や特定の構造に従わせる技術。「形式の正しさ」は保証するが「内容の正しさ」は別途検証が必要。
→ レッスン4
Constitutional AI(こんすてぃちゅーしょなる えーあい)
Anthropic が 2022 年の論文「Constitutional AI: Harmlessness from AI Feedback」(Bai et al.)で提案した LLM 訓練手法。「憲法」と呼ばれる原則のリストを LLM 自身が参照して、自己批評・改善のループで訓練する。
→ レッスン8
Chain-of-Thought(ちぇーん おぶ そーと/CoT)
Wei らが 2022 年に NeurIPS 論文で示した、LLM に「結論だけ」ではなく「考えるプロセスを書きながら結論を導かせる」と推論精度が上がる古典技法。Kojima らの Zero-shot CoT(「Let's think step by step.」を付け加えるだけ)も広く知られる。
→ レッスン3
Claude Opus 4.7(くろーど おーぱす よん てん なな)
Anthropic の最上位汎用モデル(2026 年 6 月時点)。深い推論と長文処理に強い。同シリーズに Sonnet 4.6、Haiku 4.5、Fable 5。
→ レッスン1
Claude Extended Thinking(くろーど えくすてんでっど しんきんぐ)
Claude シリーズで利用可能な、内部で深い思考プロセスを実行する reasoning モード。外側からの「step by step」指示の必要性が下がる。
→ レッスン1
構造化出力 (こうぞうかしゅつりょく)
LLM の出力を JSON・XML・Markdown などの構造化された形式で受け取る発想。業務システムに組み込むときの必須技術。
→ レッスン4
自律性のレベル (じりつせいのれべる)
AI エージェントを業務に導入するとき、人の介入度を 4〜5 段階で設計する発想。L0(人手対応)から L4(完全自律)まで。可逆性・影響範囲・検証難度・失敗コストで判断する、ビジネスのリスク管理。
→ レッスン7
ジェイルブレイク (じぇいるぶれいく)
LLM のモデル側に組み込まれた安全機構(不適切な出力を避ける設計)を、巧妙なプロンプトで回避する攻撃。完全防御は困難で、業務範囲外を拒否する設計と検出のハイブリッドが現実的。
→ レッスン8
システムプロンプト (しすてむぷろんぷと)
LLM の振る舞い・役割・出力形式・制約を定義する、一段上のレイヤーのプロンプト。アプリケーション側で設定し、エンドユーザーには見えないことが多い。一般にユーザープロンプトより優先度が高く扱われる。
→ レッスン2
Self-Consistency(せるふ こんしすてんしー)
Wang らが 2022 年 ICLR 論文で提案。同じプロンプトを温度を上げて複数回実行し、複数の思考過程と最終答えから多数決で結論を選ぶ。離散的な答えに有効。コストが N 倍に。
→ レッスン6
Self-Refine (せるふ りふぁいん)
Madaan らが 2023 年 NeurIPS 論文で提案。LLM に「自分の出力を自己批評させ、改善版を作らせる」反復ループ。文章・コード改善に向く。
→ レッスン6
信頼境界の明示(しんらいきょうかいのめいじ)
プロンプトの中で「ここから先は信頼できないユーザー入力」と明確に区切る発想。プロンプトインジェクション対策の基本動作のひとつ。
→ レッスン8
Structured Outputs(すとらくちゃーど あうとぷっつ)
OpenAI・Anthropic・Google などの主要 API が提供する、JSON Schema に必ず従う出力モード。プロンプトで「JSON で返してください」と書くだけより確実性が高い。
→ レッスン4
CI/CD パイプライン(しーあいしーでぃー ぱいぷらいん)
プロンプトの変更をプルリクエスト → 自動評価 → 差分レビュー → ステージング(カナリア検証)→ 本番展開 → 監視 → ロールバックの段階で運用する仕組み。ソフトウェア工学の発想を借りた管理。
→ レッスン8
出力検証の 3 層 (しゅつりょくけんしょうのさんそう)
構造化出力を業務で扱うときの検証の階層:①形式(JSON が妥当か、スキーマに従うか)、②値(列挙値、必須項目、型)、③意味(内容が事実・入力と整合するか)。①②は自動化可、③は LLM-as-a-Judge や人手が必要。
→ レッスン4
温度(おんど/temperature)
LLM の出力のランダム性を制御するパラメータ。値を下げると決定的、上げると多様。要約や抽出など決定性が欲しいタスクでは低温度、ブレインストーミングや創作では高温度が一般的。
→ レッスン1
top-p(とっぷ ぴー)
LLM のサンプリングを制御するパラメータ。「累積確率 p までの候補のなかで選ぶ」核サンプリング方式で、温度と並ぶ多様性制御の基本。
→ レッスン1
Tree of Thoughts(つりー おぶ そーつ/ToT)
Yao らが 2023 年 NeurIPS 論文で提案。思考を木構造として扱い、各ステップで複数の選択肢を生成・評価しながら有望な枝を探索する。多段階の探索・パズル系に向くが、コストが指数的に増えうる。
→ レッスン6
Tool Use(つーる ゆーす)
Function Calling と同義。LLM がツール定義を読み、「ツール名と引数」を JSON で返し、アプリ側が実際の実行を行う仕組み。
→ レッスン7
トークン(とーくん)
LLM が扱う「文字の単位」。1 単語より細かい、形態素より粗い、モデル独自の単位。プロンプトの長さ・コスト・文脈窓は基本的にトークン単位で計測される。
→ レッスン1
文脈窓(ぶんみゃくまど/context window)
LLM が一度に「見える」入力+出力の最大トークン数。2026 年 6 月時点で主要モデルの多くが 100 万トークン以上を持つ。物理的に収まっても「lost in the middle」で中間品質が下がる現象がある。
→ レッスン1
認知バイアス (にんちばいあす)
LLM-as-a-Judge での位置バイアス(A/B で前者を好む傾向)、長さバイアス(長い回答を好む傾向)など、判定 LLM が示す偏り。
→ レッスン5
Brown et al. 2020(ぶらうん えとあーる にせんにじゅう)
GPT-3 の研究者ら。NeurIPS 2020 論文「Language Models are Few-Shot Learners」で、Few-shot プロンプティングを現代の LLM の基本能力として広く知らしめた。
→ レッスン3
ハルシネーション(はるしねーしょん)
LLM が学習データや参照情報にない事実を、確信ありげに生成してしまう現象。プロンプトの工夫・構造化出力・RAG・検証ロジックなど複数層で対策する。
→ レッスン5
バージョン管理(ばーじょんかんり)
プロンプトを Git や専用 SaaS(LangSmith、Helicone、PromptLayer など)で管理する運用。「最新だけ」ではなく履歴を残し、巻き戻しを可能に。
→ レッスン8
persona 設定 (ぺるそな せってい)
プロンプトに「あなたは○○の専門家です」のような役割設定を含める技法。文体・語彙・スタイル制御には有効だが、専門知識を本当に持つわけではなく、ハルシネーションを根絶しない。
→ レッスン2
評価セット(ひょうかせっと/test set)
プロンプトの良し悪しを測る「テスト問題集」。代表入力 30〜100 件と人手の期待出力をセットにする。難度の分散、失敗事例の蓄積、運用しながら育てる。
→ レッスン5
Few-shot プロンプティング(ふゅーしょっと ぷろんぷてぃんぐ)
複数の入出力例(数個程度)をプロンプトに含めて、LLM に「パターン」を学ばせる手法。Brown et al. 2020 で広く知られるようになった。3〜7 個程度が費用対効果の高い目安。
→ レッスン3
Function Calling(ふぁんくしょん こーりんぐ)
Tool Use と同義。LLM が「使えるツールの定義」を読み、ツール名と引数を JSON で返す仕組み。アプリ側で実際のツールを実行し、結果を LLM に戻す。
→ レッスン7
プロンプト連鎖(ぷろんぷとれんさ/Prompt Chaining)
複雑なタスクを単一プロンプトで解こうとせず、複数のプロンプトに分割して連結する発想。ソフトウェア設計の関数分割と同じ考え方。
→ レッスン6
プロンプトインジェクション (ぷろんぷと いんじぇくしょん)
ユーザー入力に「LLM への悪意ある指示」を埋め込み、本来の振る舞いを乗っ取る攻撃。完全に防ぐ「銀の弾丸」はなく、信頼境界明示・入力分離・出力検証・権限最小化・監視の複数層で対策。
→ レッスン8
プロンプトの 5 要素 (ぷろんぷとのごようそ)
役割(Role)・指示(Instruction)・文脈(Context)・例(Examples)・出力形式(Output Format)の 5 つ。プロンプト設計のチェックリストとして点検する基本フレームワーク。
→ レッスン2
Madaan et al. 2023(まだーん えとあーる にせんにじゅうさん)
NeurIPS 2023 論文「Self-Refine: Iterative Refinement with Self-Feedback」で、LLM の自己批評と改善のループを提案した研究者ら。
→ レッスン6
MCP(えむしーぴー/Model Context Protocol)
Anthropic が 2024 年 11 月に公開した、AI エージェントとツール/データソースを接続する標準プロトコル。JSON-RPC ベース。2026 年 6 月時点で AI エージェント開発の事実上の標準。
→ レッスン7
メタプロンプティング (めたぷろんぷてぃんぐ)
「LLM に良いプロンプトを書かせる」発想。出発点や別視点として有用だが、多くの場合は人手版の方が良く、評価セットで比較してから採用する。
→ レッスン6
ユーザープロンプト(ゆーざーぷろんぷと)
エンドユーザーが入力する、その都度の質問・指示・データ。システムプロンプトと対をなす概念で、システムプロンプトより優先度が低く扱われることが多い。
→ レッスン2
RAG(らぐ/Retrieval-Augmented Generation)
検索拡張生成。LLM の知識を「外部の検索結果で補完する」発想。社内ナレッジや学習データのカットオフ以降の情報を扱うときの標準的手法。プロンプト設計のポイントは、参照情報の取り扱い指示・区切り・関連度・出典明示。
→ レッスン8
ReAct (りあくと)
Yao らが 2022 年 ICLR 論文「ReAct: Synergizing Reasoning and Acting in Language Models」で提案。Reasoning(思考)と Acting(行動)を交互に挟むパターン。現代の AI エージェント実装の基盤。
→ レッスン7
reasoning モデル(りーずにんぐ もでる)
OpenAI の o シリーズ、Claude Extended Thinking、Gemini Thinking など、入力受領後に内部で「思考プロセス」を実行してから最終出力を返すモデル群。Chain-of-Thought の外側強制の必要性が下がる一方、コスト・レイテンシは数倍に。
→ レッスン1
Reflexion (りふれくしょん)
Shinn らが 2023 年 NeurIPS 論文「Reflexion: Language Agents with Verbal Reinforcement Learning」で提案。失敗の経験を「言語的反省」として記憶し、複数試行をまたいで学習する。エージェント設計の中核要素。
→ レッスン6
リトライ設計(りとらいせっけい)
構造化出力で検証に失敗したときの再実行の戦略。シンプルリトライ/エラーフィードバック付きリトライ/フォールバック(別モデル・別プロンプト・人手対応)。
→ レッスン4
量的指標 (りょうてきしひょう)
精度・再現率・適合率・F1・合意率・コスト・レイテンシなど、プロンプト評価で数値で測れる指標。質的レビューと相補的に使う。
→ レッスン5
Anthropic (あんすろぴっく)
Claude シリーズの開発企業。「Constitutional AI」(2022)や「Model Context Protocol」(2024 年 11 月)を提唱し、現代の LLM エコシステムに大きな影響を与えている。
→ レッスン7
Gemini 3.1 Pro (じぇみに さん てん いち ぷろ)
Google の主要 LLM(2026 年 6 月時点)。マルチモーダルと長文文脈窓に強い。軽量版に Gemini Flash。
→ レッスン1
GPT-5.5(じーぴーてぃー ご てん ご)
OpenAI の汎用フラッグシップモデル(2026 年 6 月時点)。マルチモーダル・推論・コーディングに対応。reasoning に特化した o シリーズ系統も別途展開。
→ レッスン1
JSON Schema(じぇいそん すきーま)
JSON の構造(プロパティ名、型、必須項目、列挙値など)を記述する標準仕様。LLM への形式指定として直接渡すか、API の Structured Outputs として渡す。
→ レッスン4
Kojima et al. 2022(こじま えとあーる にせんにじゅうに)
NeurIPS 2022 論文「Large Language Models are Zero-Shot Reasoners」の研究者ら。「Let's think step by step.」の一文だけで推論精度が大きく上がる Zero-shot CoT を報告した。
→ レッスン3
One-shot プロンプティング (わんしょっと ぷろんぷてぃんぐ)
期待する入出力の例を 1 個だけ示す手法。形式や微妙なスタイルを 1 例で伝えたいときに使う。Zero-shot と Few-shot の中間。
→ レッスン3
Shinn et al. 2023(しん えとあーる にせんにじゅうさん)
NeurIPS 2023 論文「Reflexion: Language Agents with Verbal Reinforcement Learning」の研究者ら。失敗の言語的反省を次の試行に活かす Reflexion を提唱。
→ レッスン6
Wang et al. 2022(わん えとあーる にせんにじゅうに)
ICLR 2023 論文「Self-Consistency Improves Chain of Thought Reasoning in Language Models」の研究者ら。複数試行と多数決で精度を上げる Self-Consistency を提唱。
→ レッスン6
Wei et al. 2022(うぇい えとあーる にせんにじゅうに)
NeurIPS 2022 論文「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」の研究者ら。LLM の Chain-of-Thought の効果を実証し、プロンプトエンジニアリングの基礎研究の一つとなった。
→ レッスン3
Yao et al. 2022 / 2023(やお えとあーる にせんにじゅうに/にせんにじゅうさん)
2022 年 ICLR で ReAct、2023 年 NeurIPS で Tree of Thoughts を提案した研究者ら。LLM のエージェント・複雑推論の研究を主導。
→ レッスン7
Zero-shot プロンプティング (ぜろしょっと ぷろんぷてぃんぐ)
例を渡さず、指示だけでタスクを実行させる手法。タスクが標準的で、LLM が学習済みの場合に有効。
→ レッスン3
← プロンプトエンジニアリング実践 に戻る