本文へスキップ
スキルアップカレッジ

用語集

AIエージェント入門コースで使われる主要な用語(63語)をまとめています。

AI エージェント(えーあい えーじぇんと)
目的に応じて環境を観察し、計画を立て、ツールや行動を選択して目的に向かって進む、自律的に動くソフトウェアシステム。観察・思考・行動の循環を持つ点で、単発のやり取りで完結する LLM チャットと区別される。
Action (あくしょん)
エージェントの 5 要素の 1 つ「行動」。思考の結果を外部世界に作用させる出力。Function Calling、メッセージ送信、コード実行、ほかのエージェント起動、ユーザーへの質問などが該当する。
イテレーション(いてれーしょん)
設計→評価→改善のサイクルを繰り返すこと。エージェント開発で「魔法のプロンプト」を探すのではなく、評価セットを使って継続的に磨き続ける運用視点を本コースが推奨する。
Orchestrator-Worker(おーけすとれーたー・わーかー)
マルチエージェントの基本パターン。Orchestrator が全体の進行を管理し、Worker(専門エージェント)にタスクを振り分け、結果を統合する。設計がシンプルで責任が明確、デバッグもしやすい。
Observation(おぶざーべーしょん)
ReAct ループの 3 段階のうち、ツール実行の結果を読み取る段階。Thought → Action → Observation → Thought ……と繰り返す。
オブザーバビリティ(おぶざーばびりてぃ)
エージェントの実行状況・コスト・失敗パターン・パフォーマンスを観察可能にする仕組み全般。LangSmith・LangFuse・Arize・Helicone などの専用ツール群が普及している。本番運用には前提インフラ。
重み付け (おもみづけ)
→ Reflection、LLM-as-a-Judge の説明で登場する判断要素。
Kill Switch (きるすいっち)
エージェントが暴走したときに緊急停止できる仕組み。タスクキャンセル API、全停止スイッチ、段階的縮退などのパターンがある。本番運用の必須機能。
コンテキストウィンドウ (こんてきすとうぃんどう)
LLM が一度に入力+出力として扱える最大トークン数。2026 年 6 月時点で主要モデルは 100 万トークン以上を持つが、「広い」≠「無制限に入れて大丈夫」ではなく、Lost in the Middle 問題があるため設計が必要。
構造化メモリ (こうぞうかめもり)
エージェントの短期記憶を管理する手法の 1 つ。Thought・Action・Observation を構造化して保持し、必要部分のみを LLM に渡す。長期運用エージェントで威力を発揮する。
コスト管理 (こすとかんり)
エージェント運用で必須の仕組み。タスクあたり・時間あたりのコスト上限、モデル選択の制約、コスト見積もりの提示などを組み合わせる。プロトタイプ段階から組み込むのが本コースの推奨。
サンドボックス(さんどぼっくす)
コード実行を隔離された環境で行う仕組み。Docker コンテナ、E2B、Modal などの隔離環境を使い、本番システムへの直接影響を防ぐ。エージェント・セキュリティの基本機能。
自律性のレベル (じりつせいのれべる)
エージェントが業務でどこまで自律的に動くかを 5 段階に整理した枠組み。L0(提案のみ)→ L1(承認実行)→ L2(通知実行)→ L3(例外時のみ介在)→ L4(完全自律)。「いきなり L4」を目指さず、L1 から段階的に上げるのが現実的。
思考 (しこう、Reasoning)
エージェントの 5 要素の 1 つ。観察から次の行動を選ぶ中核機能。LLM が「頭脳」になる部分で、ReAct や Plan-and-Execute、Reflection などのパターンがある。
Step-by-Step 評価 (すてっぷばいすてっぷ ひょうか)
エージェント評価のアプローチの 1 つ。各ステップ(Thought・Action・Observation)の正しさを評価し、失敗原因の特定に強い。End-to-End 評価と並行して使う。
Sliding Window(すらいでぃんぐうぃんどう)
短期記憶の管理手法の 1 つ。直近の N ステップだけ保持し、古いものから捨てる方式。実装が簡単な一方、重要な古い情報も捨ててしまう弱点がある。
Self-correction (せるふこれくしょん)
→ Reflection 参照。
Self-Refine (せるふりふぁいん)
Madaan 氏らが 2023 年に提唱した、生成→自己批評→改善を繰り返すパターン。Reflection の代表例の 1 つ。
設計・評価・リスク管理 (せっけい・ひょうか・りすくかんり)
本コースの中核メッセージの 1 つ。「派手なデモ」より「設計・評価・リスク管理」がエージェントの本番運用の腰になるという立場。
短期記憶 (たんききおく)
エージェントの記憶のうち、現在のループ内で参照する直近の文脈。Thought・Observation の履歴を、Sliding Window、要約、構造化メモリで管理する。
長期記憶 (ちょうききおく)
エージェントの記憶のうち、永続的に保持される知識・設定・ルール。社内文書、FAQ、ユーザープロファイル、業務ルールなど。ベクトルデータベース・構造化 DB・グラフ DB・ファイルなどで実装する。
Tool Use(つーるゆーす)
Anthropic がツール呼び出しの仕組みに使う呼称。OpenAI の Function Calling とほぼ同じ意味。
道具 (どうぐ、Tools)
エージェントの 5 要素の 1 つ。行動を可能にする外部機能の集合。検索、コード実行、ファイル操作、API 呼び出し、メディア処理などを含む。1 つのエージェントが扱う道具は 10〜20 個程度に抑えるのが現実的。
トレース(とれーす)
エージェント 1 回の実行を構造化された形式で記録したもの。ユーザー入力、各ループの Thought、ツールと引数、実行結果、所要時間、トークン消費、最終出力などを含む。デバッグ・コスト分析・A/B 比較・回帰検知の基盤。
内部思考 (ないぶしこう)
reasoning モデルが、入力を受け取った後に内部で実行する思考プロセス。外部から CoT を強制する必要性が下がる。トークン消費が増えるトレードオフがある。
Plan-and-Execute(ぷらんあんどえぐぜきゅーと)
エージェントのプランニングパターンの 1 つ。最初に全体計画を立て、計画通りに順次実行する。全体最適とコスト効率に強い一方、環境変化に弱い。LangChain などの実装で広く知られる。
Function Calling(ふぁんくしょん こーりんぐ)
LLM が「ツールを呼び出したい」という意思を構造化された JSON で出力する仕組み。OpenAI が 2023 年に導入し業界全体に広まった。Anthropic では Tool Use と呼ぶ。
評価セット (ひょうかせっと)
エージェントの精度を測るための代表的なタスクのサンプル集。30〜100 件程度から始め、運用しながら磨いていく。代表性・網羅性・継続性・バージョン管理が重要。
ベクトルデータベース(べくとるでーたべーす)
文書を埋め込みベクトルに変換して保存し、ベクトル間の類似度で検索するデータベース。長期記憶の事実上の標準。Pinecone・Weaviate・Qdrant・Milvus・pgvector などが代表的な製品。
Perception(ぱーせぷしょん)
エージェントの 5 要素の 1 つ「観察」。環境から情報を取り込む入口。ユーザー入力、ファイル、API レスポンス、Web ページなどが該当する。
暴走対策(ぼうそうたいさく)
エージェントの無限ループや想定外コストを防ぐ仕組み。最大ステップ数、最大トークン数、最大時間、最大コスト、重複検知、終了条件の明示などを組み合わせる。本コースは「装飾ではなく必須機能」と位置づける。
マルチエージェント(まるちえーじぇんと)
複数のエージェントが分業し、協調して 1 つの目的を達成する設計。Orchestrator-Worker、Hierarchical、Debate などのパターンがある。コスト・遅延・可観測性の負担増を伴うため、「まず単一エージェントから始める」のが推奨。
Memory (めもり)
→ 記憶を参照。
モニタリング (もにたりんぐ)
本番運用中のエージェントの状態をリアルタイムで監視する仕組み。タスク件数・成功率・コスト・レイテンシ・失敗率・ツール使用頻度などを観察し、異常時にアラートを発する。
要約による圧縮 (ようやくによるあっしゅく)
短期記憶の管理手法の 1 つ。古い履歴を捨てるのではなく、LLM で要約に置き換える。コストとレイテンシが増えるトレードオフがあるが、重要情報を保持できる。
LangChain(らんぐちぇーん)
LLM アプリケーション構築のための代表的なフレームワーク。Plan-and-Execute パターンの実装で広く知られるようになった。エコシステムには LangGraph(マルチエージェント・状態管理)、LangSmith(オブザーバビリティ)などがある。
LangGraph(らんぐぐらふ)
LangChain ファミリーの 1 つ。グラフベースでエージェント間の遷移を定義する。状態管理と永続化に強く、大規模・複雑なエージェントに向く。
LangSmith(らんぐすみす)
LangChain 公式の可観測性プラットフォーム。トレース・評価・デバッグを統合した環境を提供する。
Reflection (りふれくしょん)
エージェントのプランニングパターンの 1 つ。行動の結果を振り返り、自分の判断を修正する。Shinn et al. 2023「Reflexion」や Madaan et al. 2023「Self-Refine」が代表的。失敗からの学習・品質向上に強い一方、無限改善ループのリスクがあるため停止条件の設計が必須。
ReAct (りあくと)
Yao 氏らが 2022 年に提唱したエージェントパターン。Thought → Action → Observation を繰り返すループで、柔軟で動的な探索に強い。最も基本的なエージェントパターンとして広く知られる。
Reasoning(りーずにんぐ)
→ 思考、reasoning モデルを参照。
reasoning モデル(りーずにんぐ もでる)
入力を受け取った後、内部で思考プロセスを実行してから最終出力を返すモデル。OpenAI の o シリーズ、Claude Extended Thinking、Gemini Thinking などが該当する。プランニング段階の判断品質が高い一方、トークン消費とレイテンシが増える。
Lost in the Middle (ろすと いん ざ みどる)
Liu 氏らが 2024 年に TACL で発表した論文で報告された現象。LLM は長文コンテキストの冒頭と末尾を強く参照し、中間部分は無視されやすい傾向がある。重要情報の配置順に影響する。
A/B 比較(えーびー ひかく)
エージェント改善のためのイテレーションサイクルの基本。現状版(A)と改善版(B)を同じ評価セットで実行し、Task Success Rate・コスト・レイテンシを比較する。一度に 1 変数だけ変える、評価セットを固定する、統計的有意性に注意する、が原則。
Anthropic (あんすろぴっく)
Claude シリーズと MCP(Model Context Protocol)を提供する AI ベンダー。2026 年 6 月時点の主要モデルは Claude Opus 4.7、Sonnet 4.6、Haiku 4.5、Fable 5。
AutoGen(おーとじぇん)
Microsoft Research が開発したマルチエージェントフレームワーク。会話ベースのマルチエージェント設計が特徴。
Claude Code(くろーど こーど)
Anthropic が提供するコーディング向け CLI エージェント。Subagent 機能(子エージェントを起動して並列タスクを実行)を持ち、マルチエージェントの実例として注目される。
Claude Extended Thinking(くろーど えくすてんでっど しんきんぐ)
Anthropic Claude の reasoning モード。内部で思考プロセスを実行してから出力する設計で、複雑な推論タスクで威力を発揮する。
CrewAI(くりゅーえーあい)
役割(Role)・目的(Goal)・タスク(Task)でエージェントを定義する、シンプルさを重視したマルチエージェントフレームワーク。中小規模プロジェクトに向く。
Debate パターン(でぃべーと ぱたーん)
マルチエージェントのパターンの 1 つ。複数のエージェントが異なる立場で議論し、最終結論を導く設計。重要な意思決定の品質チェックに向くが、コストが大きく日常業務には過剰になりやすい。
End-to-End 評価(えんどつーえんど ひょうか)
エージェント評価のアプローチの 1 つ。タスク全体が成功したかどうかを見て、中間ステップは問わない。ビジネス価値に直結する。
Gemini 3.1 Pro (じぇみに さんてんいち ぷろ)
2026 年 6 月時点の Google フラッグシップ LLM。マルチモーダルと長文文脈窓に強い。
GPT-5.5(じーぴーてぃー ごてんご)
2026 年 6 月時点の OpenAI フラッグシップ LLM。マルチモーダル・推論・コーディングに対応。
Hierarchical パターン(ひえらるきかる ぱたーん)
マルチエージェントのパターンの 1 つ。Orchestrator-Worker を多段に重ねた階層構造。複雑なタスクに有効だが、3 階層を超えると運用が極端に難しくなる。
Human-in-the-Loop(ひゅーまん いん ざ るーぷ、HITL)
エージェント設計で人間が介在する仕組み。承認ゲート、サンプリングチェック、例外時介入、事後監査などのパターンがある。自律性レベル L1〜L3 で必須。
JSON Schema(じぇいそん すきーま)
JSON データの構造を記述するための標準仕様。Function Calling でツールの定義に使われる。`description` フィールドが LLM の判断を大きく左右する。
LLM-as-a-Judge (えるえるえむ あず あ じゃっじ)
LLM を採点者に使って、エージェントの出力を自動評価する仕組み。スケールが効く一方、バイアス・モデル更新によるブレ・複雑タスクでの弱さがある。人間採点のサブセット(ゴールデンセット)との相関を定期確認するのが現実的。
Model Context Protocol (もでる こんてきすと ぷろとこる、MCP)
Anthropic が 2024 年 11 月に公開した、ツール・リソース・プロンプトをベンダー非依存の標準形式で記述するプロトコル。「ツールを 1 回作れば、すべての LLM から使える」を実現する。2026 年 6 月時点で事実上の標準として定着している。
OpenAI(おーぷんえーあい)
GPT シリーズと o シリーズ系統(reasoning モデル)を提供する AI ベンダー。
o シリーズ(おー しりーず)
OpenAI が提供する reasoning モデルの系統。内部で思考プロセスを実行してから出力する設計を特徴とする。
RAG(らぐ、Retrieval-Augmented Generation、検索拡張生成)
Patrick Lewis 氏らが 2020 年に提唱したアーキテクチャ。ユーザー質問を埋め込みベクトルに変換し、ベクトル DB から関連文書を取得し、質問と文書を組み合わせて LLM に渡す。エージェントの中では「道具」として呼び出される。
Task Success Rate(たすく さくせす れーと)
エージェント評価の主要 KPI。エージェントに与えたタスクのうち成功と判定された割合。評価セット・採点者・更新頻度の設計次第で意味が大きく変わる。
Thought(そーと)
ReAct ループの 3 段階のうち、現状を踏まえて次の行動を言語化する段階。Thought → Action → Observation → Thought ……と繰り返す。
← AIエージェント入門 に戻る