マルチモーダルとAIエージェント——広がる活用領域
レッスン5:マルチモーダルとAIエージェント——広がる活用領域
このレッスンで学ぶこと
- マルチモーダルAIの考え方と画像・動画・音声生成の現状を理解する
- AIエージェントの仕組みと従来のチャット型AIとの違いを説明できる
- RAGの基本的な動作と業務での使われ方を把握する
- ファインチューニングと小規模言語モデルの位置付けを知る
レッスン4では、プロンプトエンジニアリングを学び、AIへの指示の出し方を身につけました。このレッスンでは、テキストだけにとどまらない生成AIの広がりを見ていきます。マルチモーダル、AIエージェント、RAG、ファインチューニングといった用語を整理し、業務での活用シーンを理解しましょう。
マルチモーダルAIとは
マルチモーダルとは、複数の「モダリティ」を扱えることを意味します。モダリティとは、情報の形式のことで、テキスト・画像・音声・動画などがそれにあたります。
従来のLLMはテキストだけを扱うものでした。マルチモーダルAIは、テキストに加えて画像・音声・動画などを同時に処理できます。例えば、PDF資料の中身を読み取って要約したり、写真を見せて「この花の名前は?」と質問したり、動画の内容を文章でまとめたりといった作業が可能です。
2026年5月時点の主要サービスは、いずれもマルチモーダル化が進んでいます。ChatGPT・Claude・Geminiは、テキストだけでなく画像も読み込めます。Geminiは、動画やPDF、音声まで一度に扱える点で先行しています。
💡 ポイント 仕事で使う資料は、文章だけでなく図表や画像が混ざっていることが多いものです。マルチモーダル対応のAIなら、資料一式をそのまま読み込ませて質問できます。「この資料を3行で要約して」「グラフが示している傾向を教えて」といった依頼が、文書を打ち直すことなく行えるのが大きな利点です。
画像生成AIの現在地
画像生成AIは、テキストの指示から新しい画像を作り出します。代表的なサービスは、OpenAIのDALL-E、Midjourney、Stable Diffusionなどです。ChatGPTやGeminiといったチャットサービスの中から、画像生成機能を呼び出して使うこともできます。
画像生成AIの典型的な使い道は、広告素材、ブログのアイキャッチ画像、プレゼン資料のイラスト、商品のイメージ画像などです。著作権フリーの素材集を探す手間が大きく減り、ブランドに合った画像を即座に用意できるようになりました。
ただし、画像生成AIには注意点もあります。学習データに含まれる既存の作品に類似した画像が出力されることがあり、著作権侵害のリスクがあります。商用利用のルール、生成画像の権利の所在、ガイドラインの遵守については、レッスン6で詳しく扱います。
動画生成AIの躍進
動画生成AIは、2025〜2026年に大きく実用化が進んだ領域です。テキストの指示から短い映像を作り出します。
主要なサービスはGoogleのVeo、Runway、Kling AIなどです。OpenAIが提供していたSoraは、2026年3月にアプリおよびAPIの提供を終了しました(出典:起業の「わからない」を「できる」に)。動画生成市場は競争が激しく、ツールの再編がたびたび起きています。
2026年の動画生成AIの大きなトレンドは、音声同時生成です。これまでは「映像を作る→別のAIでナレーションを作る→編集ソフトで合成する」という3つの工程が必要でしたが、現在はテキスト1つで映像も音声もまとめて生成できるようになりました。
📝 補足 動画生成AIは、まだ仕上がりの細部に課題が残ります。長尺の映像、複雑な動き、複数のキャラクターが整合的に動くシーンは苦手です。プロトタイプ映像、短い説明動画、SNS用の素材といった用途には十分実用的ですが、商用作品ではプロの編集者による補正が前提になります。
音声生成AI
音声生成AIは、文章を読み上げる「音声合成」と、特定の声を再現する「音声クローン」の2方向に進化しています。読み上げの自然さは年々向上し、人間の発話とほぼ区別がつかない水準に達しています。
業務での主な活用シーンは、社内向けナレーション、オーディオブック、コールセンターの自動応答、Eラーニング教材の音声化などです。Google Geminiでは、70以上の言語に対応した音声合成モデル「Gemini 3.1 Flash TTS」も提供されており、多言語対応の音声制作が手軽になっています。
一方、音声クローンは詐欺などの悪用懸念が大きく、各サービスは利用条件を厳格化しています。本人の同意なく他人の声を再現することは、肖像権・パブリシティ権の侵害につながる可能性があります。
AIエージェントとは
AIエージェントは、ユーザーが目標を伝えると、自分で計画を立て、必要なツールを使い、軌道修正しながらタスクを完了まで進めるAIです。レッスン1で触れた「ただ会話するAI」から「自律的に作業をこなすAI」への進化が、AIエージェントとして実体化しています。
従来のチャット型AIとの違いは、次のように整理できます。
- 従来のチャット型AI:質問に答えるが、行動はしない。「明日のスケジュールを教えて」と聞かれて答えはするが、カレンダーに予定を追加することはできない
- AIエージェント:目標を伝えると行動する。「来週金曜の14時にA社との会議を1時間予約して」と頼めば、カレンダーに予定を入れ、関係者を招待し、会議室を確保するところまで自動で進める
AIエージェントが扱うツールは、Web検索、メール送信、カレンダー操作、ファイル操作、ブラウザの自動操作、社内システムの呼び出しなど多岐にわたります。複数のツールを組み合わせ、結果を確認しながら次の手を決めるため、これまで人間が行っていた一連の業務を任せられる可能性があります。
💡 ポイント 2026年に話題のキーワード「Claude Code」「OpenAI Codex」「Microsoft Copilot」のエージェント機能は、いずれもAIエージェントの一種です。特にClaude Code・OpenAI Codexは、ソフトウェア開発の現場で急速に普及し、コーディング作業の進め方そのものを変えつつあります。
Human-in-the-Loop——人間が関わり続ける設計
AIエージェントは強力な一方、「自律的に行動する」ことのリスクも生まれます。誤った操作で重要なデータを消したり、見当違いのメールを送ってしまったりする可能性があります。
そのため、2026年現在、多くの企業ではエージェントの動作に「Human-in-the-Loop」、つまり人間が必ず関わる仕組みを取り入れています。重要な操作の前に必ず人間が確認・承認するステップを設けることで、暴走を防ぎます。
エージェントの基本的な動作フローを図にすると、次のようになります。
flowchart TD
Start[目標の指示] --> Plan[計画立案]
Plan --> Tool[ツール呼び出し]
Tool --> Check{重要な操作か?}
Check -- いいえ --> Continue[そのまま続行]
Check -- はい --> Human[人間が確認・承認]
Human --> Continue
Continue --> Done{タスク完了?}
Done -- いいえ --> Plan
Done -- はい --> End[結果出力]
注目したいのは、ひし形で示した「重要な操作か?」の分岐です。データの書き換え・メール送信・課金などの重要操作だけに人間の確認を挟むことで、安全性と効率を両立させます。
⚠️ 注意 AIエージェントを業務に導入する際は、「何を任せ、何は人間が確認するか」の境界線を最初に決めることが大切です。情報の参照や下書きの作成は任せても、最終的な発信や金銭的な決定は人間が行う、といった区分けが基本です。
RAG——AIに自社の知識を持たせる仕組み
RAG(ラグ)は、Retrieval-Augmented Generationの略で、日本語では「検索拡張生成」と訳されます。生成AIが回答を作るときに、外部のデータベースから関連情報を検索し、その情報を参考にして回答を組み立てる仕組みです。
RAGの動作は3つのステップで進みます。1つ目は「検索」、ユーザーの質問に関係する情報を社内文書などのデータベースから探します。2つ目は「拡張」、見つけた情報をプロンプトに追加します。3つ目は「生成」、追加された情報を踏まえてLLMが回答を作ります。
図にすると、ユーザー・外部の知識ベース・LLMの3者が次のように関わり合います。
flowchart LR
U[ユーザーの質問] --> R[検索]
R <--> DB[(外部の知識ベース<br/>社内文書・FAQなど)]
R --> A[プロンプト拡張<br/>質問+参考情報]
A --> L[LLMが回答を生成]
L --> O[回答]
通常のチャット型AIが「ユーザーの質問→LLM→回答」だけの構造なのに対し、RAGでは外部の知識ベースを参照する経路が加わるのがポイントです。
RAGを導入する利点は2つあります。1つは、ハルシネーションを大きく減らせること。AIが自分の記憶頼みで答えるのではなく、参照した文書の内容に沿って回答できます。もう1つは、自社の独自情報を活用できること。社内マニュアル、業務規程、過去のFAQなど、AI標準では知り得ない情報をAIに「持たせる」ことができます。
業務での主な活用シーンは、社内向けのチャットボット、製品サポート、社内文書の検索アシスタント、研修用のQ&Aツールなどです。社内の知識資産をAIで活用したい場合、RAGはほぼ必須の選択肢になっています。
📝 補足 2026年時点で、企業の86%がすでにRAGを活用しているという調査結果もあります(出典:Note記事)。AIを業務に組み込むうえでの基本要素として、定着しつつあります。
ファインチューニングと小規模言語モデル
ファインチューニングは、レッスン2でも触れたように、既存のモデルを特定の用途に合わせて追加学習させる手法です。法律文書、医療用語、自社のブランドトーンといった特定領域に強いAIを作りたい場合に使われます。
ただし、ファインチューニングは時間とコストがかかります。多くの場合、まずプロンプトエンジニアリングとRAGで十分な結果が得られないかを試し、それでも要件を満たせない場合の手段として検討するのが実務的です。
一方、近年は「小規模言語モデル」(Small Language Model、略してSLM)も注目されています。SLMは、大規模言語モデルよりサイズが小さく、特定領域に特化したモデルです。スマートフォンや社内の独自サーバーで動かしやすく、機密データを外部に出さずに使える利点があります。汎用性は劣るものの、用途を絞った業務であれば十分実用的です。
💡 ポイント 「すべての業務に最大規模のLLMを使う必要はない」という発想が広がっています。簡単な分類や定型処理は小規模なモデルで十分ということもあります。コストとセキュリティを考えると、適材適所の使い分けが現実的です。
まとめ
このレッスンでは、以下のことを学びました。
- マルチモーダルAIは、テキスト・画像・音声・動画など複数の形式の情報を同時に扱える
- 画像生成AIは広告・資料制作で実用化が進み、動画生成AIは音声同時生成のトレンドが進んでいる
- AIエージェントは、目標を伝えれば計画・実行・修正までを自律的に進めるAIである
- AIエージェントの導入には、Human-in-the-Loopによる人間の確認が重要である
- RAGは、外部の情報源を参照させることでハルシネーションを減らし、自社知識を活用するための仕組みである
- ファインチューニングや小規模言語モデルは、用途に合わせた選択肢として活用が広がっている
最後のレッスンでは、生成AIを安全に使うための知識を整理します。著作権・情報漏えい・利用ガイドラインといった、業務でAIを使ううえで避けて通れないテーマを学びましょう。
確認クイズ
このレッスンの理解度をチェックしましょう。