本文へスキップ
スキルアップカレッジ

大規模言語モデルの仕組み——なぜAIは文章を生成できるのか

レッスン2:大規模言語モデルの仕組み——なぜAIは文章を生成できるのか

このレッスンで学ぶこと

  • 大規模言語モデルの基本的な役割と特徴を説明できる
  • トークン・確率予測・トランスフォーマーといった基本概念を理解する
  • 学習・ファインチューニング・推論の3つの段階を区別できる
  • ハルシネーションがなぜ起きるのかを仕組みから理解する

レッスン1では、生成AIの種類や歴史、2026年現在の主要サービスを概観しました。このレッスンでは、ChatGPTClaudeGeminiといったテキスト生成AIの中身、つまり「大規模言語モデル」の仕組みを学びます。中身を知ると、生成AIが得意なこと・苦手なことの理由が見えてきます。

大規模言語モデルとは

大規模言語モデル(Large Language Model)は、単語のつながり方の傾向を膨大な文章データから学習したAIです。略してLLMと呼ばれます。

「大規模」と呼ばれるのは、学習に使われる文章の量と、モデル内部のパラメータ(学習で調整される無数の数値)の数が桁違いに大きいためです。インターネット上の記事、書籍、論文、プログラムのコードなど、人類が積み上げてきたさまざまな文章を学習素材としています。

LLMの中核的な役割は、ひとつだけです。「ある文章の続きとして、次にどの言葉が来るかを予測する」こと。これだけです。文章を要約したり、英語を日本語に翻訳したり、メールを書いたりといった多彩な仕事は、すべてこの「次の単語の予測」を繰り返すことで実現されています。

💡 ポイント LLMは文章の意味を「理解」しているのではなく、文章の続きとして自然な単語を「予測」しているだけ、と一度割り切って捉えると、後々のハルシネーションの話が腑に落ちやすくなります。

トークン——AIにとっての言葉の単位

LLMは、文章をそのまま処理しているわけではありません。文章をいったん「トークン」と呼ばれる小さな単位に分解してから扱います。

トークンは、英語であれば単語や単語の一部、日本語であれば数文字単位の塊のことが多いです。例えば「こんにちは」という言葉は、モデルによって「こんにちは」のように一語として扱われたり、「こん」「にちは」のように複数のトークンに分かれたりします。

LLMは、このトークンの並びを見て、次にどのトークンが来るかを確率的に予測します。文章を生成するときも、トークンを1つずつ順番に予測しながら、徐々につなげていきます。

📝 補足 AIサービスの料金は、入出力のトークン数に応じて課金されることが一般的です。「1,000トークンあたり◯円」という形で価格が設定されています。トークンは料金の単位でもあるため、長文をAIに渡したり長い回答を引き出したりすると、それだけコストもかさみます。

トランスフォーマーとアテンション

LLMの内部で実際に予測を担っているのが、レッスン1でも触れたトランスフォーマーという構造です。トランスフォーマーは、2017年にGoogleの研究者らが発表した機械学習のモデルで、現在の主要な生成AIすべての土台になっています(出典:論文 "Attention Is All You Need")。

トランスフォーマーの中核となるのが、「アテンション」という仕組みです。アテンションは日本語で「注意」と訳されます。文章の中のある単語を予測するときに、文中のほかのどの単語に「注意を向けるか」を計算する仕組みです。

例えば「彼はりんごを食べた。それはとても甘かった。」という文を考えてみましょう。「それ」が指しているのは「りんご」です。アテンションの仕組みは、「それ」を処理するときに「りんご」に強く注意を向けることで、こうした文脈の理解を可能にしています。

トランスフォーマーが画期的だったのは、文章を頭から1単語ずつ順番に処理する従来の仕組みではなく、文章全体を並列して処理できる点でした。この並列性のおかげで、巨大なデータを使った大規模な学習が現実的になりました。

🔰 初学者の方へ トランスフォーマーやアテンションの数学的な詳細は、入門段階では覚える必要はありません。「文中のどの単語に注目すべきかを賢く選びながら、文章全体を一度に処理する仕組み」というイメージで十分です。

学習・ファインチューニング・推論

LLMが完成するまで、そして使われるまでには、大きく3つの段階があります。

1. 事前学習

最初の段階は「事前学習」と呼ばれます。インターネット上の大量の文章を読み込ませ、「次の単語を予測する」訓練を延々と繰り返します。これにより、モデルは言語の構造、世の中の知識、論理の組み立て方などを獲得していきます。

事前学習には、巨大な計算資源と長い時間が必要です。GPUと呼ばれる高性能な計算装置を多数使い、数か月にわたって学習を行うのが一般的です。

2. ファインチューニング

事前学習が終わった段階のモデルは、文章の続きは作れるものの、人間が望む形で答えてくれるとは限りません。例えば、質問に対して別の質問を返してきたり、危険な内容をそのまま生成したりすることがあります。

そこで「ファインチューニング」を行います。ファインチューニングは、特定の目的に合わせてモデルを追加で訓練する作業です。「人間にとって役立つ・正直・無害」な振る舞いをするように、人間が用意したお手本の対話例を学習させたり、人間からのフィードバックを使って学習させたりします。

📝 補足 人間からのフィードバックを使った学習を「RLHF(人間のフィードバックによる強化学習)」と呼びます。ChatGPTが自然な対話ができるようになった大きな理由のひとつが、このRLHFの導入だと言われています。

3. 推論

学習を終えたモデルが、ユーザーの入力に対して実際に文章を生成するときの動作を「推論」と呼びます。私たちがChatGPTやClaudeを使うとき、内部ではこの推論が行われています。

推論時、モデルは入力されたプロンプトの続きとして、トークンを1つずつ予測しながら回答を組み立てます。1トークン生成するごとに、これまでの全文を読み返し、次のトークンを予測する。この繰り返しで文章ができあがります。

ハルシネーションが起きる理由

ここまでの仕組みがわかれば、生成AIが誤った情報を堂々と語ってしまう「ハルシネーション」という現象も理解できます。ハルシネーションは日本語で「幻覚」と訳されます(出典:OpenAI 公式)。

LLMは事実を確認しながら答えているのではなく、「文章として自然に続きそうな単語」を確率的に選んでいるだけです。学習データの中に正しい情報が含まれていても、その情報を確実に取り出せるわけではありません。学習時に出会わなかった事柄については、もっともらしいが事実とは異なる文章を作ってしまうこともあります。

例えば、「◯◯という本の著者は誰ですか」と尋ねたとします。LLMは「この種の文脈で続きそうな名前」を予測して回答します。学習データに正解があれば正しく答えられますが、なかった場合や記憶が曖昧な場合でも、それらしい答えを返してしまいます。

⚠️ 注意 ハルシネーションは、現在の技術では完全には防げないとされています。AIの回答を業務や学習に使うときは、重要な事実関係は必ず公式サイトや一次情報で裏付けを取る習慣をつけましょう。

なぜ知識の更新には弱いのか

LLMには、もうひとつ大事な特徴があります。学習が終わった時点までの知識しか持たない、という点です。

事前学習に使われたデータには「カットオフ日」と呼ばれる区切りがあります。それより後の出来事、新しい商品、最新のニュースについては、原則として知りません。例えば「カットオフは2025年12月」というモデルに「先週のニュース」を聞いても、適切に答えられないわけです。

この弱点を補うために、LLMにWeb検索機能を組み合わせる方法や、社内文書などの外部情報を参照させる仕組みが広がっています。後者は「RAG」と呼ばれ、レッスン5で詳しく扱います。

文脈の長さ——コンテキストウィンドウ

LLMが一度に扱える文章の長さには上限があります。これを「コンテキストウィンドウ」と呼びます。トークン数で表され、例えば「20万トークン」のようにモデルごとに決まっています。

コンテキストウィンドウの中には、ユーザーの質問、過去のやり取り、AIへの指示文(システムプロンプト)、参考資料などすべてが含まれます。窓の大きさを超えると、古いやり取りからモデルの記憶外に押し出されてしまいます。

2026年時点のClaude Opus 4.7では最大100万トークン、ほかの主要モデルでも数十万〜100万トークン規模の長いコンテキストを扱えるようになっています。本1冊分・小規模なソースコードのリポジトリ全体を、一度にAIに見せられる時代になっています。

💡 ポイント 「会話が長くなったら、最初の話を忘れてしまう」というAIの性質は、このコンテキストウィンドウの上限が関係しています。重要な前提は何度かに分けて伝え直したり、長い会話は新しい会話に区切ったりするのも、覚えておくと便利な使い方の工夫です。

まとめ

このレッスンでは、以下のことを学びました。

  • 大規模言語モデルは、膨大な文章データから「次の単語の予測」を学んだAIである
  • 文章はトークンという単位に分解されて処理される
  • トランスフォーマーとアテンションが、現在の生成AIの中核技術である
  • 学習・ファインチューニング・推論の3段階を経てモデルが使われる
  • ハルシネーションは、確率的に次の単語を選ぶ仕組みそのものに由来する避けがたい現象である
  • 学習データのカットオフを超えた情報や、コンテキストウィンドウの上限といった制約もある

次のレッスンでは、ChatGPT・Claude・Geminiという3大生成AIサービスを並べて比較します。それぞれの提供元、モデルの特徴、得意分野を整理し、用途に応じた使い分けを学びましょう。


確認クイズ

このレッスンの理解度をチェックしましょう。