用語集
AIエージェント入門コースで使われる主要な用語(63語)をまとめています。
- AI エージェント(えーあい えーじぇんと)
- 目的に応じて環境を観察し、計画を立て、ツールや行動を選択して目的に向かって進む、自律的に動くソフトウェアシステム。観察・思考・行動の循環を持つ点で、単発のやり取りで完結する LLM チャットと区別される。
- Action (あくしょん)
- エージェントの 5 要素の 1 つ「行動」。思考の結果を外部世界に作用させる出力。Function Calling、メッセージ送信、コード実行、ほかのエージェント起動、ユーザーへの質問などが該当する。
- イテレーション(いてれーしょん)
- 設計→評価→改善のサイクルを繰り返すこと。エージェント開発で「魔法のプロンプト」を探すのではなく、評価セットを使って継続的に磨き続ける運用視点を本コースが推奨する。
- Orchestrator-Worker(おーけすとれーたー・わーかー)
- マルチエージェントの基本パターン。Orchestrator が全体の進行を管理し、Worker(専門エージェント)にタスクを振り分け、結果を統合する。設計がシンプルで責任が明確、デバッグもしやすい。
- Observation(おぶざーべーしょん)
- ReAct ループの 3 段階のうち、ツール実行の結果を読み取る段階。Thought → Action → Observation → Thought ……と繰り返す。
- オブザーバビリティ(おぶざーばびりてぃ)
- エージェントの実行状況・コスト・失敗パターン・パフォーマンスを観察可能にする仕組み全般。LangSmith・LangFuse・Arize・Helicone などの専用ツール群が普及している。本番運用には前提インフラ。
- 重み付け (おもみづけ)
- → Reflection、LLM-as-a-Judge の説明で登場する判断要素。
- Kill Switch (きるすいっち)
- エージェントが暴走したときに緊急停止できる仕組み。タスクキャンセル API、全停止スイッチ、段階的縮退などのパターンがある。本番運用の必須機能。
- コンテキストウィンドウ (こんてきすとうぃんどう)
- LLM が一度に入力+出力として扱える最大トークン数。2026 年 6 月時点で主要モデルは 100 万トークン以上を持つが、「広い」≠「無制限に入れて大丈夫」ではなく、Lost in the Middle 問題があるため設計が必要。
- 構造化メモリ (こうぞうかめもり)
- エージェントの短期記憶を管理する手法の 1 つ。Thought・Action・Observation を構造化して保持し、必要部分のみを LLM に渡す。長期運用エージェントで威力を発揮する。
- コスト管理 (こすとかんり)
- エージェント運用で必須の仕組み。タスクあたり・時間あたりのコスト上限、モデル選択の制約、コスト見積もりの提示などを組み合わせる。プロトタイプ段階から組み込むのが本コースの推奨。
- サンドボックス(さんどぼっくす)
- コード実行を隔離された環境で行う仕組み。Docker コンテナ、E2B、Modal などの隔離環境を使い、本番システムへの直接影響を防ぐ。エージェント・セキュリティの基本機能。
- 自律性のレベル (じりつせいのれべる)
- エージェントが業務でどこまで自律的に動くかを 5 段階に整理した枠組み。L0(提案のみ)→ L1(承認実行)→ L2(通知実行)→ L3(例外時のみ介在)→ L4(完全自律)。「いきなり L4」を目指さず、L1 から段階的に上げるのが現実的。
- 思考 (しこう、Reasoning)
- エージェントの 5 要素の 1 つ。観察から次の行動を選ぶ中核機能。LLM が「頭脳」になる部分で、ReAct や Plan-and-Execute、Reflection などのパターンがある。
- Step-by-Step 評価 (すてっぷばいすてっぷ ひょうか)
- エージェント評価のアプローチの 1 つ。各ステップ(Thought・Action・Observation)の正しさを評価し、失敗原因の特定に強い。End-to-End 評価と並行して使う。
- Sliding Window(すらいでぃんぐうぃんどう)
- 短期記憶の管理手法の 1 つ。直近の N ステップだけ保持し、古いものから捨てる方式。実装が簡単な一方、重要な古い情報も捨ててしまう弱点がある。
- Self-correction (せるふこれくしょん)
- → Reflection 参照。
- Self-Refine (せるふりふぁいん)
- Madaan 氏らが 2023 年に提唱した、生成→自己批評→改善を繰り返すパターン。Reflection の代表例の 1 つ。
- 設計・評価・リスク管理 (せっけい・ひょうか・りすくかんり)
- 本コースの中核メッセージの 1 つ。「派手なデモ」より「設計・評価・リスク管理」がエージェントの本番運用の腰になるという立場。
- 短期記憶 (たんききおく)
- エージェントの記憶のうち、現在のループ内で参照する直近の文脈。Thought・Observation の履歴を、Sliding Window、要約、構造化メモリで管理する。
- 長期記憶 (ちょうききおく)
- エージェントの記憶のうち、永続的に保持される知識・設定・ルール。社内文書、FAQ、ユーザープロファイル、業務ルールなど。ベクトルデータベース・構造化 DB・グラフ DB・ファイルなどで実装する。
- Tool Use(つーるゆーす)
- Anthropic がツール呼び出しの仕組みに使う呼称。OpenAI の Function Calling とほぼ同じ意味。
- 道具 (どうぐ、Tools)
- エージェントの 5 要素の 1 つ。行動を可能にする外部機能の集合。検索、コード実行、ファイル操作、API 呼び出し、メディア処理などを含む。1 つのエージェントが扱う道具は 10〜20 個程度に抑えるのが現実的。
- トレース(とれーす)
- エージェント 1 回の実行を構造化された形式で記録したもの。ユーザー入力、各ループの Thought、ツールと引数、実行結果、所要時間、トークン消費、最終出力などを含む。デバッグ・コスト分析・A/B 比較・回帰検知の基盤。
- 内部思考 (ないぶしこう)
- reasoning モデルが、入力を受け取った後に内部で実行する思考プロセス。外部から CoT を強制する必要性が下がる。トークン消費が増えるトレードオフがある。
- Plan-and-Execute(ぷらんあんどえぐぜきゅーと)
- エージェントのプランニングパターンの 1 つ。最初に全体計画を立て、計画通りに順次実行する。全体最適とコスト効率に強い一方、環境変化に弱い。LangChain などの実装で広く知られる。
- Function Calling(ふぁんくしょん こーりんぐ)
- LLM が「ツールを呼び出したい」という意思を構造化された JSON で出力する仕組み。OpenAI が 2023 年に導入し業界全体に広まった。Anthropic では Tool Use と呼ぶ。
- 評価セット (ひょうかせっと)
- エージェントの精度を測るための代表的なタスクのサンプル集。30〜100 件程度から始め、運用しながら磨いていく。代表性・網羅性・継続性・バージョン管理が重要。
- ベクトルデータベース(べくとるでーたべーす)
- 文書を埋め込みベクトルに変換して保存し、ベクトル間の類似度で検索するデータベース。長期記憶の事実上の標準。Pinecone・Weaviate・Qdrant・Milvus・pgvector などが代表的な製品。
- Perception(ぱーせぷしょん)
- エージェントの 5 要素の 1 つ「観察」。環境から情報を取り込む入口。ユーザー入力、ファイル、API レスポンス、Web ページなどが該当する。
- 暴走対策(ぼうそうたいさく)
- エージェントの無限ループや想定外コストを防ぐ仕組み。最大ステップ数、最大トークン数、最大時間、最大コスト、重複検知、終了条件の明示などを組み合わせる。本コースは「装飾ではなく必須機能」と位置づける。
- マルチエージェント(まるちえーじぇんと)
- 複数のエージェントが分業し、協調して 1 つの目的を達成する設計。Orchestrator-Worker、Hierarchical、Debate などのパターンがある。コスト・遅延・可観測性の負担増を伴うため、「まず単一エージェントから始める」のが推奨。
- Memory (めもり)
- → 記憶を参照。
- モニタリング (もにたりんぐ)
- 本番運用中のエージェントの状態をリアルタイムで監視する仕組み。タスク件数・成功率・コスト・レイテンシ・失敗率・ツール使用頻度などを観察し、異常時にアラートを発する。
- 要約による圧縮 (ようやくによるあっしゅく)
- 短期記憶の管理手法の 1 つ。古い履歴を捨てるのではなく、LLM で要約に置き換える。コストとレイテンシが増えるトレードオフがあるが、重要情報を保持できる。
- LangChain(らんぐちぇーん)
- LLM アプリケーション構築のための代表的なフレームワーク。Plan-and-Execute パターンの実装で広く知られるようになった。エコシステムには LangGraph(マルチエージェント・状態管理)、LangSmith(オブザーバビリティ)などがある。
- LangGraph(らんぐぐらふ)
- LangChain ファミリーの 1 つ。グラフベースでエージェント間の遷移を定義する。状態管理と永続化に強く、大規模・複雑なエージェントに向く。
- LangSmith(らんぐすみす)
- LangChain 公式の可観測性プラットフォーム。トレース・評価・デバッグを統合した環境を提供する。
- Reflection (りふれくしょん)
- エージェントのプランニングパターンの 1 つ。行動の結果を振り返り、自分の判断を修正する。Shinn et al. 2023「Reflexion」や Madaan et al. 2023「Self-Refine」が代表的。失敗からの学習・品質向上に強い一方、無限改善ループのリスクがあるため停止条件の設計が必須。
- ReAct (りあくと)
- Yao 氏らが 2022 年に提唱したエージェントパターン。Thought → Action → Observation を繰り返すループで、柔軟で動的な探索に強い。最も基本的なエージェントパターンとして広く知られる。
- Reasoning(りーずにんぐ)
- → 思考、reasoning モデルを参照。
- reasoning モデル(りーずにんぐ もでる)
- 入力を受け取った後、内部で思考プロセスを実行してから最終出力を返すモデル。OpenAI の o シリーズ、Claude Extended Thinking、Gemini Thinking などが該当する。プランニング段階の判断品質が高い一方、トークン消費とレイテンシが増える。
- Lost in the Middle (ろすと いん ざ みどる)
- Liu 氏らが 2024 年に TACL で発表した論文で報告された現象。LLM は長文コンテキストの冒頭と末尾を強く参照し、中間部分は無視されやすい傾向がある。重要情報の配置順に影響する。
- A/B 比較(えーびー ひかく)
- エージェント改善のためのイテレーションサイクルの基本。現状版(A)と改善版(B)を同じ評価セットで実行し、Task Success Rate・コスト・レイテンシを比較する。一度に 1 変数だけ変える、評価セットを固定する、統計的有意性に注意する、が原則。
- Anthropic (あんすろぴっく)
- Claude シリーズと MCP(Model Context Protocol)を提供する AI ベンダー。2026 年 6 月時点の主要モデルは Claude Opus 4.7、Sonnet 4.6、Haiku 4.5、Fable 5。
- AutoGen(おーとじぇん)
- Microsoft Research が開発したマルチエージェントフレームワーク。会話ベースのマルチエージェント設計が特徴。
- Claude Code(くろーど こーど)
- Anthropic が提供するコーディング向け CLI エージェント。Subagent 機能(子エージェントを起動して並列タスクを実行)を持ち、マルチエージェントの実例として注目される。
- Claude Extended Thinking(くろーど えくすてんでっど しんきんぐ)
- Anthropic Claude の reasoning モード。内部で思考プロセスを実行してから出力する設計で、複雑な推論タスクで威力を発揮する。
- CrewAI(くりゅーえーあい)
- 役割(Role)・目的(Goal)・タスク(Task)でエージェントを定義する、シンプルさを重視したマルチエージェントフレームワーク。中小規模プロジェクトに向く。
- Debate パターン(でぃべーと ぱたーん)
- マルチエージェントのパターンの 1 つ。複数のエージェントが異なる立場で議論し、最終結論を導く設計。重要な意思決定の品質チェックに向くが、コストが大きく日常業務には過剰になりやすい。
- End-to-End 評価(えんどつーえんど ひょうか)
- エージェント評価のアプローチの 1 つ。タスク全体が成功したかどうかを見て、中間ステップは問わない。ビジネス価値に直結する。
- Gemini 3.1 Pro (じぇみに さんてんいち ぷろ)
- 2026 年 6 月時点の Google フラッグシップ LLM。マルチモーダルと長文文脈窓に強い。
- GPT-5.5(じーぴーてぃー ごてんご)
- 2026 年 6 月時点の OpenAI フラッグシップ LLM。マルチモーダル・推論・コーディングに対応。
- Hierarchical パターン(ひえらるきかる ぱたーん)
- マルチエージェントのパターンの 1 つ。Orchestrator-Worker を多段に重ねた階層構造。複雑なタスクに有効だが、3 階層を超えると運用が極端に難しくなる。
- Human-in-the-Loop(ひゅーまん いん ざ るーぷ、HITL)
- エージェント設計で人間が介在する仕組み。承認ゲート、サンプリングチェック、例外時介入、事後監査などのパターンがある。自律性レベル L1〜L3 で必須。
- JSON Schema(じぇいそん すきーま)
- JSON データの構造を記述するための標準仕様。Function Calling でツールの定義に使われる。`description` フィールドが LLM の判断を大きく左右する。
- LLM-as-a-Judge (えるえるえむ あず あ じゃっじ)
- LLM を採点者に使って、エージェントの出力を自動評価する仕組み。スケールが効く一方、バイアス・モデル更新によるブレ・複雑タスクでの弱さがある。人間採点のサブセット(ゴールデンセット)との相関を定期確認するのが現実的。
- Model Context Protocol (もでる こんてきすと ぷろとこる、MCP)
- Anthropic が 2024 年 11 月に公開した、ツール・リソース・プロンプトをベンダー非依存の標準形式で記述するプロトコル。「ツールを 1 回作れば、すべての LLM から使える」を実現する。2026 年 6 月時点で事実上の標準として定着している。
- OpenAI(おーぷんえーあい)
- GPT シリーズと o シリーズ系統(reasoning モデル)を提供する AI ベンダー。
- o シリーズ(おー しりーず)
- OpenAI が提供する reasoning モデルの系統。内部で思考プロセスを実行してから出力する設計を特徴とする。
- RAG(らぐ、Retrieval-Augmented Generation、検索拡張生成)
- Patrick Lewis 氏らが 2020 年に提唱したアーキテクチャ。ユーザー質問を埋め込みベクトルに変換し、ベクトル DB から関連文書を取得し、質問と文書を組み合わせて LLM に渡す。エージェントの中では「道具」として呼び出される。
- Task Success Rate(たすく さくせす れーと)
- エージェント評価の主要 KPI。エージェントに与えたタスクのうち成功と判定された割合。評価セット・採点者・更新頻度の設計次第で意味が大きく変わる。
- Thought(そーと)
- ReAct ループの 3 段階のうち、現状を踏まえて次の行動を言語化する段階。Thought → Action → Observation → Thought ……と繰り返す。
該当する用語が見つかりません。