用語集 | AIエージェント入門 | スキルアップカレッジ

AI エージェント（えーあいえーじぇんと）

目的に応じて環境を観察し、計画を立て、ツールや行動を選択して目的に向かって進む、自律的に動くソフトウェアシステム。観察・思考・行動の循環を持つ点で、単発のやり取りで完結する LLM チャットと区別される。

Action （あくしょん）

エージェントの 5 要素の 1 つ「行動」。思考の結果を外部世界に作用させる出力。Function Calling、メッセージ送信、コード実行、ほかのエージェント起動、ユーザーへの質問などが該当する。

イテレーション（いてれーしょん）

設計→評価→改善のサイクルを繰り返すこと。エージェント開発で「魔法のプロンプト」を探すのではなく、評価セットを使って継続的に磨き続ける運用視点を本コースが推奨する。

Orchestrator-Worker（おーけすとれーたー・わーかー）

マルチエージェントの基本パターン。Orchestrator が全体の進行を管理し、Worker（専門エージェント）にタスクを振り分け、結果を統合する。設計がシンプルで責任が明確、デバッグもしやすい。

Observation（おぶざーべーしょん）

ReAct ループの 3 段階のうち、ツール実行の結果を読み取る段階。Thought → Action → Observation → Thought ……と繰り返す。

オブザーバビリティ（おぶざーばびりてぃ）

エージェントの実行状況・コスト・失敗パターン・パフォーマンスを観察可能にする仕組み全般。LangSmith・LangFuse・Arize・Helicone などの専用ツール群が普及している。本番運用には前提インフラ。

重み付け（おもみづけ）

→ Reflection、LLM-as-a-Judge の説明で登場する判断要素。

Kill Switch （きるすいっち）

エージェントが暴走したときに緊急停止できる仕組み。タスクキャンセル API、全停止スイッチ、段階的縮退などのパターンがある。本番運用の必須機能。

コンテキストウィンドウ（こんてきすとうぃんどう）

LLM が一度に入力＋出力として扱える最大トークン数。2026 年 6 月時点で主要モデルは 100 万トークン以上を持つが、「広い」≠「無制限に入れて大丈夫」ではなく、Lost in the Middle 問題があるため設計が必要。

構造化メモリ（こうぞうかめもり）

エージェントの短期記憶を管理する手法の 1 つ。Thought・Action・Observation を構造化して保持し、必要部分のみを LLM に渡す。長期運用エージェントで威力を発揮する。

コスト管理（こすとかんり）

エージェント運用で必須の仕組み。タスクあたり・時間あたりのコスト上限、モデル選択の制約、コスト見積もりの提示などを組み合わせる。プロトタイプ段階から組み込むのが本コースの推奨。

サンドボックス（さんどぼっくす）

コード実行を隔離された環境で行う仕組み。Docker コンテナ、E2B、Modal などの隔離環境を使い、本番システムへの直接影響を防ぐ。エージェント・セキュリティの基本機能。

自律性のレベル（じりつせいのれべる）

エージェントが業務でどこまで自律的に動くかを 5 段階に整理した枠組み。L0（提案のみ）→ L1（承認実行）→ L2（通知実行）→ L3（例外時のみ介在）→ L4（完全自律）。「いきなり L4」を目指さず、L1 から段階的に上げるのが現実的。

思考（しこう、Reasoning）

エージェントの 5 要素の 1 つ。観察から次の行動を選ぶ中核機能。LLM が「頭脳」になる部分で、ReAct や Plan-and-Execute、Reflection などのパターンがある。

Step-by-Step 評価（すてっぷばいすてっぷひょうか）

エージェント評価のアプローチの 1 つ。各ステップ（Thought・Action・Observation）の正しさを評価し、失敗原因の特定に強い。End-to-End 評価と並行して使う。

Sliding Window（すらいでぃんぐうぃんどう）

短期記憶の管理手法の 1 つ。直近の N ステップだけ保持し、古いものから捨てる方式。実装が簡単な一方、重要な古い情報も捨ててしまう弱点がある。

Self-correction （せるふこれくしょん）

→ Reflection 参照。

Self-Refine （せるふりふぁいん）

Madaan 氏らが 2023 年に提唱した、生成→自己批評→改善を繰り返すパターン。Reflection の代表例の 1 つ。

設計・評価・リスク管理（せっけい・ひょうか・りすくかんり）

本コースの中核メッセージの 1 つ。「派手なデモ」より「設計・評価・リスク管理」がエージェントの本番運用の腰になるという立場。

短期記憶（たんききおく）

エージェントの記憶のうち、現在のループ内で参照する直近の文脈。Thought・Observation の履歴を、Sliding Window、要約、構造化メモリで管理する。

長期記憶（ちょうききおく）

エージェントの記憶のうち、永続的に保持される知識・設定・ルール。社内文書、FAQ、ユーザープロファイル、業務ルールなど。ベクトルデータベース・構造化 DB・グラフ DB・ファイルなどで実装する。

Tool Use（つーるゆーす）

Anthropic がツール呼び出しの仕組みに使う呼称。OpenAI の Function Calling とほぼ同じ意味。

道具（どうぐ、Tools）

エージェントの 5 要素の 1 つ。行動を可能にする外部機能の集合。検索、コード実行、ファイル操作、API 呼び出し、メディア処理などを含む。1 つのエージェントが扱う道具は 10〜20 個程度に抑えるのが現実的。

トレース（とれーす）

エージェント 1 回の実行を構造化された形式で記録したもの。ユーザー入力、各ループの Thought、ツールと引数、実行結果、所要時間、トークン消費、最終出力などを含む。デバッグ・コスト分析・A/B 比較・回帰検知の基盤。

内部思考（ないぶしこう）

reasoning モデルが、入力を受け取った後に内部で実行する思考プロセス。外部から CoT を強制する必要性が下がる。トークン消費が増えるトレードオフがある。

Plan-and-Execute（ぷらんあんどえぐぜきゅーと）

エージェントのプランニングパターンの 1 つ。最初に全体計画を立て、計画通りに順次実行する。全体最適とコスト効率に強い一方、環境変化に弱い。LangChain などの実装で広く知られる。

Function Calling（ふぁんくしょんこーりんぐ）

LLM が「ツールを呼び出したい」という意思を構造化された JSON で出力する仕組み。OpenAI が 2023 年に導入し業界全体に広まった。Anthropic では Tool Use と呼ぶ。

評価セット（ひょうかせっと）

エージェントの精度を測るための代表的なタスクのサンプル集。30〜100 件程度から始め、運用しながら磨いていく。代表性・網羅性・継続性・バージョン管理が重要。

ベクトルデータベース（べくとるでーたべーす）

文書を埋め込みベクトルに変換して保存し、ベクトル間の類似度で検索するデータベース。長期記憶の事実上の標準。Pinecone・Weaviate・Qdrant・Milvus・pgvector などが代表的な製品。

Perception（ぱーせぷしょん）

エージェントの 5 要素の 1 つ「観察」。環境から情報を取り込む入口。ユーザー入力、ファイル、API レスポンス、Web ページなどが該当する。

暴走対策（ぼうそうたいさく）

エージェントの無限ループや想定外コストを防ぐ仕組み。最大ステップ数、最大トークン数、最大時間、最大コスト、重複検知、終了条件の明示などを組み合わせる。本コースは「装飾ではなく必須機能」と位置づける。

マルチエージェント（まるちえーじぇんと）

複数のエージェントが分業し、協調して 1 つの目的を達成する設計。Orchestrator-Worker、Hierarchical、Debate などのパターンがある。コスト・遅延・可観測性の負担増を伴うため、「まず単一エージェントから始める」のが推奨。

Memory （めもり）

→ 記憶を参照。

モニタリング（もにたりんぐ）

本番運用中のエージェントの状態をリアルタイムで監視する仕組み。タスク件数・成功率・コスト・レイテンシ・失敗率・ツール使用頻度などを観察し、異常時にアラートを発する。

要約による圧縮（ようやくによるあっしゅく）

短期記憶の管理手法の 1 つ。古い履歴を捨てるのではなく、LLM で要約に置き換える。コストとレイテンシが増えるトレードオフがあるが、重要情報を保持できる。

LangChain（らんぐちぇーん）

LLM アプリケーション構築のための代表的なフレームワーク。Plan-and-Execute パターンの実装で広く知られるようになった。エコシステムには LangGraph（マルチエージェント・状態管理）、LangSmith（オブザーバビリティ）などがある。

LangGraph（らんぐぐらふ）

LangChain ファミリーの 1 つ。グラフベースでエージェント間の遷移を定義する。状態管理と永続化に強く、大規模・複雑なエージェントに向く。

LangSmith（らんぐすみす）

LangChain 公式の可観測性プラットフォーム。トレース・評価・デバッグを統合した環境を提供する。

Reflection （りふれくしょん）

エージェントのプランニングパターンの 1 つ。行動の結果を振り返り、自分の判断を修正する。Shinn et al. 2023「Reflexion」や Madaan et al. 2023「Self-Refine」が代表的。失敗からの学習・品質向上に強い一方、無限改善ループのリスクがあるため停止条件の設計が必須。

ReAct （りあくと）

Yao 氏らが 2022 年に提唱したエージェントパターン。Thought → Action → Observation を繰り返すループで、柔軟で動的な探索に強い。最も基本的なエージェントパターンとして広く知られる。

Reasoning（りーずにんぐ）

→ 思考、reasoning モデルを参照。

reasoning モデル（りーずにんぐもでる）

入力を受け取った後、内部で思考プロセスを実行してから最終出力を返すモデル。OpenAI の o シリーズ、Claude Extended Thinking、Gemini Thinking などが該当する。プランニング段階の判断品質が高い一方、トークン消費とレイテンシが増える。

Lost in the Middle （ろすといんざみどる）

Liu 氏らが 2024 年に TACL で発表した論文で報告された現象。LLM は長文コンテキストの冒頭と末尾を強く参照し、中間部分は無視されやすい傾向がある。重要情報の配置順に影響する。

A/B 比較（えーびーひかく）

エージェント改善のためのイテレーションサイクルの基本。現状版（A）と改善版（B）を同じ評価セットで実行し、Task Success Rate・コスト・レイテンシを比較する。一度に 1 変数だけ変える、評価セットを固定する、統計的有意性に注意する、が原則。

Anthropic （あんすろぴっく）

Claude シリーズと MCP（Model Context Protocol）を提供する AI ベンダー。2026 年 6 月時点の主要モデルは Claude Opus 4.7、Sonnet 4.6、Haiku 4.5、Fable 5。

AutoGen（おーとじぇん）

Microsoft Research が開発したマルチエージェントフレームワーク。会話ベースのマルチエージェント設計が特徴。

Claude Code（くろーどこーど）

Anthropic が提供するコーディング向け CLI エージェント。Subagent 機能（子エージェントを起動して並列タスクを実行）を持ち、マルチエージェントの実例として注目される。

Claude Extended Thinking（くろーどえくすてんでっどしんきんぐ）

Anthropic Claude の reasoning モード。内部で思考プロセスを実行してから出力する設計で、複雑な推論タスクで威力を発揮する。

CrewAI（くりゅーえーあい）

役割（Role）・目的（Goal）・タスク（Task）でエージェントを定義する、シンプルさを重視したマルチエージェントフレームワーク。中小規模プロジェクトに向く。

Debate パターン（でぃべーとぱたーん）

マルチエージェントのパターンの 1 つ。複数のエージェントが異なる立場で議論し、最終結論を導く設計。重要な意思決定の品質チェックに向くが、コストが大きく日常業務には過剰になりやすい。

End-to-End 評価（えんどつーえんどひょうか）

エージェント評価のアプローチの 1 つ。タスク全体が成功したかどうかを見て、中間ステップは問わない。ビジネス価値に直結する。

Gemini 3.1 Pro （じぇみにさんてんいちぷろ）

2026 年 6 月時点の Google フラッグシップ LLM。マルチモーダルと長文文脈窓に強い。

GPT-5.5（じーぴーてぃーごてんご）

2026 年 6 月時点の OpenAI フラッグシップ LLM。マルチモーダル・推論・コーディングに対応。

Hierarchical パターン（ひえらるきかるぱたーん）

マルチエージェントのパターンの 1 つ。Orchestrator-Worker を多段に重ねた階層構造。複雑なタスクに有効だが、3 階層を超えると運用が極端に難しくなる。

Human-in-the-Loop（ひゅーまんいんざるーぷ、HITL）

エージェント設計で人間が介在する仕組み。承認ゲート、サンプリングチェック、例外時介入、事後監査などのパターンがある。自律性レベル L1〜L3 で必須。

JSON Schema（じぇいそんすきーま）

JSON データの構造を記述するための標準仕様。Function Calling でツールの定義に使われる。`description` フィールドが LLM の判断を大きく左右する。

LLM-as-a-Judge （えるえるえむあずあじゃっじ）

LLM を採点者に使って、エージェントの出力を自動評価する仕組み。スケールが効く一方、バイアス・モデル更新によるブレ・複雑タスクでの弱さがある。人間採点のサブセット（ゴールデンセット）との相関を定期確認するのが現実的。

Model Context Protocol （もでるこんてきすとぷろとこる、MCP）

Anthropic が 2024 年 11 月に公開した、ツール・リソース・プロンプトをベンダー非依存の標準形式で記述するプロトコル。「ツールを 1 回作れば、すべての LLM から使える」を実現する。2026 年 6 月時点で事実上の標準として定着している。

OpenAI（おーぷんえーあい）

GPT シリーズと o シリーズ系統（reasoning モデル）を提供する AI ベンダー。

o シリーズ（おーしりーず）

OpenAI が提供する reasoning モデルの系統。内部で思考プロセスを実行してから出力する設計を特徴とする。

RAG（らぐ、Retrieval-Augmented Generation、検索拡張生成）

Patrick Lewis 氏らが 2020 年に提唱したアーキテクチャ。ユーザー質問を埋め込みベクトルに変換し、ベクトル DB から関連文書を取得し、質問と文書を組み合わせて LLM に渡す。エージェントの中では「道具」として呼び出される。

Task Success Rate（たすくさくせすれーと）

エージェント評価の主要 KPI。エージェントに与えたタスクのうち成功と判定された割合。評価セット・採点者・更新頻度の設計次第で意味が大きく変わる。

Thought（そーと）

ReAct ループの 3 段階のうち、現状を踏まえて次の行動を言語化する段階。Thought → Action → Observation → Thought ……と繰り返す。