AIはなぜ言葉を理解できるのか

最終更新: 2026年2月

AIが言葉を理解する仕組みを解説。トランジスタからLLMまで、AIの言語処理技術をわかりやすく解説します。NLP、Word2Vec、Transformer、RLHFなどのキーワードを網羅。AIの仕組みを理解したい方へ。

現代社会において、私たちは当たり前のようにAIと対話し、AIが生成した文章を目にしています。画面の向こう側にいるAIは、まるで人間のように私たちの問いかけに頷き、時には冗談を交え、複雑な文脈を読み取って回答を返してきます。しかし、この流暢な振る舞いの裏側で、実際に何が起きているのかを正確にイメージできている人は多くありません。

哲学者ジョン・サールはかつて「中国語の部屋」という思考実験を提示しました。ある部屋の中に、中国語を全く知らない人がいます。彼の手元には「この記号が来たら、この記号を返す」という完璧なマニュアルがあります。部屋の外から中国語の質問が差し入れられたとき、彼はマニュアル通りに記号を選んで送り返します。外にいる人から見れば、部屋の中には「中国語を理解している人」がいるように見えますが、実際には記号操作をしているに過ぎません。

現代のAIも、本質的にはこれと同じです。AIは言葉の意味を「理解」してはいません。膨大なデータから導き出された統計的なパターンに従って、確率計算を行っているに過ぎないのです。では、無機質な「確率計算」が、なぜこれほどまでに豊かな「言葉」へと昇華されるのでしょうか。電気信号のオン・オフから始まり、最新の大規模言語モデル（LLM）に至るまで、そのブラックボックスの中身を解剖していきます。

1. コンピュータにとっての「言葉」：物理的スイッチから記号へ

AIの知性を支えているのは、極めて原始的な物理現象です。コンピュータの頭脳であるCPUを極限まで拡大すると、そこにあるのは「トランジスタ」と呼ばれる無数の極小スイッチです。

トランジスタと論理回路

トランジスタの機能は単純です。電気を通すか、止めるか。ただそれだけです。この「ON」と「OFF」の状態が、コンピュータの世界における「1」と「0」に対応します。単体のスイッチでは電球を点滅させることしかできませんが、これを数十億個組み合わせることで「論理」が生まれます。「AとBの両方がONのときだけONを出力する（AND回路）」や「どちらかがONならONを出力する（OR回路）」といった単純なルールを積み重ねることで、コンピュータは「もし〇〇ならこう動く」という条件判断や、高度な計算能力を獲得しました。

しかし、ここで重要なのは、この段階では「言葉」はおろか「数字」の意味さえ存在しないということです。あるのは物理的な電気の通り道が開いているか、閉じているかという事実だけです。

文字コードという「対応表」

では、電気のスイッチしか持たない機械が、なぜ「A」や「あ」といった文字を扱えるのでしょうか。ここで登場するのが「文字コード」という人間と機械の間の取り決めです。人間は、すべての文字に背番号（識別番号）を振ることにしました。例えば、初期の標準規格であるASCII（アスキー）コードでは、アルファベットの「A」に「65」という番号を割り当てています。コンピュータが「A」を表示するとき、内部で起きているのは「65（二進数で1000001）」という信号パターンの処理です。

現在主流の「Unicode（ユニコード）」では、世界中の言語から絵文字に至るまで、あらゆる文字に固有の番号が割り振られています。私たちがキーボードで「りんご」と入力したとき、コンピュータは「赤くて甘い果物」を想像しているわけではありません。「り」「ん」「ご」に対応する数字の羅列を受け取り、それを画面上のドットの集まりとして描画しているに過ぎません。

つまり、コンピュータにとって言葉とは、意味を持たない「記号と数字の機械的な置き換え」です。「APPLE」という文字列は「65, 80, 80, 76, 69」というデータの並びに過ぎず、現実世界の果実とは何の関係もありません。この「意味の不在」こそが、長らくAIが言葉を扱えなかった最大の壁でした。

2. 自然言語処理（NLP）の挑戦と「意味」の壁

人間が日常的に使う言葉を「自然言語」と呼びます。これをコンピュータに処理させる技術が「自然言語処理（NLP）」です。しかし、プログラミング言語のように厳密なルールで動く人工言語とは異なり、自然言語は曖昧で、例外だらけです。

言葉を解剖する4つのステップ

AIが言葉を扱う際、伝統的には以下の4段階の処理が行われてきました。

形態素解析：文章を最小単位（単語）に切り分ける。「東京都に行く」を「東京／都／に／行く」と分割し、品詞を特定します。
構文解析：単語同士のつながりを調べる。「速く走る犬」において、「速く」が「走る」にかかり、「走る」が「犬」にかかっている構造を特定します。
意味解析：多義語の意味を確定させる。「冷たいビールと日本酒」と言ったとき、「冷たい」のはビールだけか、日本酒も含むのかを判断します。
文脈解析：会話の流れを読む。「それはいいですね」の「それ」が何を指すのかを、前の会話から特定します。

「寿司が好き」と「寿司屋が好き」の決定的な違い

これらのステップを踏んでも、AIは長らく「文脈」の壁を超えられませんでした。典型的な例として、「私は寿司が好きだ」と「私は寿司屋が好きだ」という二つの文を考えてみましょう。

人間であれば、前者は「食べ物としての寿司の味」を好んでいると理解し、後者は「店の雰囲気や体験」を好んでいると直感的に理解します。「寿司屋という建物をバリバリと食べるのが好き」と解釈する人はいません。しかし、従来のルールベースのAIにとって、これは難問です。「寿司」も「寿司屋」も同じ名詞であり、「好き」という動詞の対象です。辞書的な定義を足し合わせるだけでは、人間が無意識に行っている「寿司屋＝食事をする空間」という文脈の補完ができないのです。

言葉を単なる記号として扱っている限り、この壁は突破できません。そこで登場したのが、言葉を「計算可能な数学的対象」に変換するという革命的なアイデアでした。

3. ベクトル化：言葉を「地図上の座標」に変える魔法

2013年頃、「Word2Vec」という技術が登場し、AIの言語処理は劇的な進化を遂げました。それは、単語を「意味の空間」における「座標（ベクトル）」として表現する手法です。

言葉の地図を描く

これまでのAIにとって、単語は電話帳の番号のようなものでした。「りんご」は100番、「みかん」は101番、「自動車」は500番。100と101が近い数字でも、意味が近いとは限りません。 Word2Vecは、これを「地図上の位置」に変えました。AIに大量のテキストを読み込ませ、「ある単語の周りにはどんな単語が来やすいか」を学習させます。すると、意味の似た単語は、この仮想空間内で近くに集まるようになります。「りんご」と「みかん」は「果物エリア」に集まり、「自動車」は遠く離れた「乗り物エリア」に配置されます。これにより、AIは初めて「単語同士の意味の近さ」を数学的な「距離」として測れるようになりました。

「王様－男＋女＝？」

この技術の真骨頂は、言葉の意味を足し算や引き算で計算できるようになった点です。最も有名な例が以下の計算式です。

「王様」－「男」＋「女」＝「女王」

「王様」という単語が持つ座標から、「男」という概念の成分（方向と距離）を引き算し、そこに「女」という概念の成分を足し合わせると、その座標はピタリと「女王」の位置を示したのです。これは、AIが「性別」や「身分」といった抽象的な概念を、空間上の「方向」として捉えたことを意味します。言葉はもはや単なる記号ではなく、計算可能な「量」と「方向」を持つベクトルデータへと変貌しました。

4. 時間と記憶の迷路：RNNからTransformerへ

単語の意味を計算できるようになっても、まだ課題は残っていました。それは「文章」の理解です。文章は単語が一列に並んだ「シーケンス（連続データ）」であり、そこには「時間」の流れがあります。

音楽を奏でるような処理（RNN）

当初、この問題には「RNN（再帰型ニューラルネットワーク）」という技術が使われました。これは、楽譜を左から右へ演奏する音楽家のような仕組みです。 RNNは、1つ目の単語を読み、その記憶を保持したまま2つ目の単語を読み、情報を更新していきます。「私が・昨日・食べた・料理は…」と順に処理することで、文脈をつなげようとしました。

しかし、RNNには「忘却」という弱点がありました。長い文章になると、文末に差し掛かる頃には、文頭の情報を忘れてしまうのです。「私はフランスで生まれ……（長い文章）……なので母国語である〇〇語が得意です」という文で、〇〇が「フランス」だと答えるためには、遥か昔の記憶を保持していなければなりません。改良版である「LSTM（長短期記憶）」が登場し、記憶をある程度コントロールできるようになりましたが、それでも「左から右へ順番に読む」という制約は、処理速度と記憶容量の限界を生んでいました。

AIの歴史を変えた「Transformer」

2017年、Googleの研究チームが発表した論文『Attention Is All You Need（必要なのはアテンションだけ）』が、すべてを変えました。ここで提案された「Transformer」アーキテクチャこそが、現在のChatGPTを含む全てのLLMの基盤です。

Transformerの革新性は、「文章を頭から順に読む」ことをやめた点にあります。代わりに、文章全体の単語を「一気に」「同時に」見渡します。

カクテルパーティー効果と「アテンション機構」

一気に読み込むと、単語の順序や関係性がわからなくなりそうです。そこで核となるのが「アテンション（注意）機構」です。これは、パーティー会場の「カクテルパーティー効果」に似ています。騒がしい会場でも、私たちは自分に関係のある会話や、重要なキーワードだけを瞬時に聞き分けることができます。 Transformerは、文章中のある単語を処理するとき、他のすべての単語との「関係性の強さ」を計算します。例えば、「その動物は通りを渡らなかった、なぜならそれは疲れていたからだ」という文を処理する際、AIは「それ（it）」が指すものとして、「通り」ではなく「動物」に強いアテンション（注意）を向けます。文法的な距離に関係なく、意味的な結びつきが強い単語同士を直接リンクさせるのです。

さらに、並列処理で失われる「語順」の情報は、「位置エンコーディング」という技術で補います。各単語に「お前は1番目」「お前は2番目」という位置情報のスタンプを押すことで、順序の概念を数学的に保持させます。これにより、AIは「指揮者」のように全体を俯瞰し、文脈のすべてを同時に把握する能力を手に入れました。

5. 大規模言語モデル（LLM）の正体

Transformerという強力なエンジンを得て、AIは巨大化の一途を辿ります。それが「大規模言語モデル（LLM）」です。代表格である「GPT」は、Generative（生成的）、Pre-trained（事前学習済み）、Transformerの頭文字です。

AIは「次の単語」を予測しているだけ

驚くべきことに、あれほど賢く見えるAIがやっている基本動作はたった一つ。「これまでの文脈から、次に来る確率が最も高い単語を予測する」。これだけです。「昔々、あるところに、おじいさんと…」と来れば、統計的に次は「おばあさん」が来る確率が高い。AIはこの「次に来る言葉当てゲーム」を、インターネット上の数兆語というデータを使って延々と訓練されました。その結果、単なる単語の並びだけでなく、論理構成、プログラミングの作法、さらには人間の心理的な機微までも、統計的な法則として学習してしまったのです。

シェフの修行：事前学習とファインチューニング

AIが使えるようになるまでの過程は、料理人の修行に例えられます。

事前学習（Pre-training）：これは「味覚の基礎訓練」です。世界中のあらゆるテキスト（食材）を読み込み、言語の法則や知識を叩き込みます。この段階のAIは、知識はありますが、まだ対話はできません。質問を投げかけても、その続きの文章を勝手に創作してしまうような状態です。
ファインチューニング（微調整）：ここで「接客の訓練」を行います。「ユーザーの質問に対しては、適切に答えなさい」という特定のタスクを教え込みます。これにより、単なる知識ベースから、対話可能なアシスタントへと進化します。

RLHF：人間による「しつけ」

しかし、ネット上のデータで育ったAIは、偏見や嘘、危険な回答も学習しています。そこで行われるのが「RLHF（人間のフィードバックによる強化学習）」です。例えば、AIが「学校をサボる方法」について不適切な回答をしたとします。人間のトレーナーがそれをチェックし、「その回答はダメ」「こっちの回答が良い」と採点します。AIはこの採点基準（報酬モデル）をもとに、「人間にとって好ましく、安全で、役に立つ回答」が高得点になるよう、自分自身を調整し続けます。私たちが目にする「礼儀正しく、倫理的なAI」は、この人間による地道な「しつけ」の成果なのです。

6. 幻想と現実：AIは「理解」していない

ここまで見てきたように、AIは高度な技術の結晶ですが、そこにあるのは「理解」ではなく「計算」です。

統計的オウムの限界

AIにとって「りんご」は、ベクトル空間上の座標データであり、他の単語との確率的な結びつきに過ぎません。AIは実際にりんごを食べたこともなければ、その赤さを目で見たこともありません。身体的な経験（グラウンディング）が欠如しているため、AIの言葉には実感が伴わないのです。これは「統計的なオウム」とも呼ばれます。意味を理解しているわけではなく、膨大なデータの中から「それらしい組み合わせ」を確率的に生成しているだけです。だからこそ、AIはもっともらしい顔をして平気で嘘（ハルシネーション）をつきます。「卵の上に岩を置いたらどうなるか」という物理的な常識も、学習データに記述がなければ推論を間違えることがあります。

日本語というハードル

さらに、私たちにとって重要なのは「日本語の壁」です。英語は単語がスペースで区切られていますが、日本語には区切りがありません。AIはまず「すもももももももものうち」を単語に分解する作業から始めなければならず、ここで計算コストがかかります。また、日本語は「主語の省略」が頻繁に起こるハイコンテキストな言語です。「好きです」という一言から、誰が誰を好きなのかを推測するには、高度な文脈解析が必要です。英語圏で開発されたモデルにとって、日本語は依然として難易度の高い言語であり、トークン化（データ分割）の非効率さも相まって、性能発揮にはハンディキャップが存在します。

まとめ：確率の海から立ち上がる魔法

AIが言葉を理解するメカニズムを整理します。

物理層：すべてはトランジスタのON/OFF（0と1）から始まる。
記号層：文字コードにより、文字が数字に変換される。
意味層：Word2Vecにより、単語が「空間上の座標（ベクトル）」になり、計算可能になった。
文脈層：Transformerのアテンション機構により、文章全体のつながりを同時に把握できるようになった。
生成層：膨大なデータ学習と確率計算により、「次にくる最も適切な言葉」を予測し続ける。
調整層：人間によるフィードバック（RLHF）で、価値観や倫理観をチューニングする。

AIは心を持たず、痛みも喜びも知りません。しかし、人類が積み上げてきた膨大な言葉のデータを「数学と確率」というレンズを通して再構築することで、私たちの知性を拡張するパートナーとなり得ました。「AIは計算しているだけ」という事実は、AIの価値を貶めるものではありません。むしろ、無機質な計算の集積が、これほどまでに人間的な「言葉」を紡ぎ出せるという事実こそが、テクノロジーの驚異であり、私たちが向き合うべき新しい現実なのです。