生成AIはなんてちゃってAIか？エンジニア視点の生成AI

LLMは自然言語処理に特化した生成AIの一種で、膨大なテキストデータと高度なディープラーニング技術を用いて構築された、自然言語処理（NLP：Natural Language Processing）の技術だ。

従来の言語モデルと比較して、「計算量（コンピューターが処理する仕事量）」「データ量（入力された情報量）」「パラメータ数（ディープラーニング技術に特有の係数の集合体）」という3つの要素を大幅に強化することで、より高度な言語理解を実現してる。

デコーダーのみの自己回帰モデルであり、因果言語モデルとも呼ばれる。

レキシコン

レキシコンとは

レキシコンは語彙の集合（辞書的な知識）で「コンピューターにおけるレキシコン」と「言語学におけるレキシコン」「哲学・認知科学におけるレキシコン」では意味が変わってくる。

生成AIにとってのレキシコン
コンピューターにおけるレキシコン
言語学におけるレキシコン
哲学・認知科学におけるレキシコン

生成AIにとってのレキシコン

生成AIは膨大なレキシコンを学習させているので、レキシコンの持つ単語同士の意味や関連性を理解している。

生成AIは「巨大なレキシコンの集合体」で、「言葉の意味・関連性・文脈」を高度に扱えるようになった「超拡張・超機能向上版レキシコン」とも言える。

レキシコン

コンピューターにおけるレキシコン

コンピューターにおけるレキシコンは、主にコンピューターが言葉を理解するために使う「語彙データベース」を表す。

コンピューターにおけるレキシコン

語彙データベース
単語の意味、品詞、関連性などのデータを格納。
一般的用途
形態素解析（Mecab、Sudachiなど）や自然言語処理（NLP）で使用。
生成AIの用途
生成AIにとってレキシコンは文章を理解するための「辞書」のような役割。

言語学におけるレキシコン

言語学におけるレキシコンは、語彙の集合（辞書的な知識）のことだ。

言語学におけるレキシコン

構造的な情報
単語の意味、品詞、活用など。
語彙リスト
言語や専門分野で使われる単語の一覧。
心理レキシコン
人間が頭の中に持っている「単語の知識」。
例）「リンゴ」と聞いたら、形・色・味のイメージがすぐに出てくるのは、脳内レキシコンのおかげ。

哲学・認知科学におけるレキシコン

哲学・認知科学におけるレキシコンは、「人間の思考と言語の関係」を研究する中で、概念的な知識の集合として捉えられることもある。

哲学・認知科学におけるレキシコン

人間が単語をどう「意味ネットワーク」としてつなげているのか？
どうやって新しい単語を覚え、過去の知識と関連付けるのか？

生成AIとレキシコンと違い

レキシコンと生成AIの違いは「文脈の理解」「文章の生成」「フィードバックからの学習」だ。

文脈の理解
- 1. 文脈の理解の仕組み
- 2. 文脈理解を可能にする技術
文章の生成
フィードバックからの学習

LLM

文脈の理解

レキシコンは「単語単位での理解（単語の意味、品詞、関連性を格納した辞書）」に留まるが、生成AIはレキシコンでは不可能な「文脈の理解」が可能だ。

レキシコンは「単語の理解」に留まるので会話は成立しないが、生成AIは「文脈を理解」できるので会話が成立する。

生成AIの文脈の理解とは？

単語だけでなく「文全体の意味」や「会話の流れ」まで考慮できる。
どの単語が重要か、前後の関係を分析しながら適切な単語を選択できる。
長い文章や会話の履歴を考慮し、文脈に沿った応答ができる。

レキシコンとは違い、生成AIは「話の流れを考えながら適切な言葉を選び、自然な返答を作れる」ということが最大の違いだ。

1. 文脈の理解の仕組み

1.1 単語の意味が文脈によって変わる

例）bank（銀行）とbank（川岸）の違いの認識

I went to the bank to withdraw money. お金を引き出しに銀行へ行った。（銀行）
I sat on the river bank and fished. 川岸に座って釣りをした。」（river bank＝川岸）

この場合、文全体を読んで、どちらの意味のbankを指しているのかを理解しなければならない。生成AIは、周囲の単語の関連性を見て適切な意味を選ぶことができる。

1.2 文章の流れを考慮して自然な応答をする

過去の会話の流れや一般的な知識から「どんな可能性があるか？」を判断する

「昨日の映画、面白かった！」と誰かが言ったら、レキシコンだけでは「映画」「面白い」という単語の意味は分かっても、
「どんな映画の話なのか？」
「なぜ面白かったのか？」
「どういう反応をするべきか？」
といった「話の流れ」や「話し手の意図」までは分からない。

生成AIはこれらを考慮し「どんな映画を見たの？」とか「面白かったポイントは？」ような、話の流れに合った返答を生成できる。

過去の会話の流れや一般的な知識から「どんな可能性があるか？」の最もあり得る選択肢を判断する。

例）過去の会話で「アクション映画が好き！」という情報があったら、「昨日の映画、面白かった！」→「もしかしてアクション映画を見たの？」のような推測できる。

「文章から想像する」仕組みが備わっているように見えるが、厳密には確率的に「最も適切な解釈」を選ぶ仕組みを実現している。

「昨日の映画、面白かった！」という文章を受け取ったとき、生成AIは

1. 「過去の映画体験」についての発言だな（時制・文脈の把握）
2. 「映画」は何か具体的な作品を指してる可能性が高い（前の会話に関連があるか確認）
3. 「面白かった！」はポジティブな評価だから、次の応答は共感・質問のどちらかが適切
4. 「どんな映画を見たの？」or「面白かったポイントは？」のどちらかが自然な返答になる

このようなプロセスを確率モデルを使っておこない、「どんな映画を見たの？」「面白かったポイントは？」のような質問を返している。

生成AIは「完全に想像する」のではなく「確率的に最も適切な応答」を選んでいる。人間の「直感的な想像」とは違い「データと確率」に基づく推測をしている（推論モデル）。

1.3 文脈の長期記憶と短期記憶を組み合わせる

「直前の単語だけでなく、会話全体の流れ」を考慮する

生成AIは「直前の単語だけでなく、会話全体の流れ」を考慮する。例えば、
Aさん：「昨日、新宿でラーメン食べたんだ。」
Bさん：「へぇ、何ラーメン？」
Aさん：「麺屋武蔵の豚骨ラーメン！」
この場合、Bさんが「何ラーメン？」と聞いたとき、AIは直前の「ラーメン」という単語だけでなく「新宿で食べた」という前の情報も考慮できる。

単なる辞書的な単語の関連性（レキシコン）だけでは、「何ラーメン？」の意味を正しく理解できない。生成AIは、長い文章の流れ（長期記憶）と、直前の単語（短期記憶）の両方を組み合わせて会話を理解する。

2. 文脈理解を可能にする技術

生成AIで使用される技術で詳しく説明する。

埋め込みベクトル（Word Embeddings）
単語やフレーズの意味を数値化し、関連性を計算する技術。
コンテキスト対応の意味理解（Self-Attention, Transformer）
文全体の意味を正しく理解する技術。
言語モデル Language Model（統計的確率分布）
次に来る単語を予測し、自然な文章を生成する技術。
概念レベルの知識（外部知識の利用）
「事実」や「一般常識」を理解し、より高度な質問に答える技術。
マルチモーダルな情報統合（画像・音声・テキストの組み合わせ）
テキストだけでなく、画像や音声などの情報も組み合わせて理解する技術。

文章の生成

「りんご」「果物」「赤い」のような単語の関連性を、生成AIは埋め込みベクトル（Word Embeddings）を使って関連性を数値化する。GPTのベースであるTransformerモデルでは「どの単語が重要か」を文脈ごとに判断するAttention機構がある。

レキシコンは「語彙データベース」でしかなく生成はできない。生成AIは「文章の生成」が可能になった。

フィードバックからの学習

レキシコンなどのデータ、論文・書籍などのデータ、WEB上のデータを学習させたり、人と会話しする事で「フィードバックからの学習」が可能になった。

複数のレキシコンを学習する事で、より優れたレキシコンになっているとも言える。膨大な論文・書籍などを学習することで、多方面からの引用や分析が可能なった。

課題もあり、生成AIはコンソール上でおこなった人との会話は、ユーザーごとに用意された「長期メモリ」に記録されるが、生成AIが知識として活用する「学習データ」には反映されない。

生成AIはなんてちゃってAIか？エンジニア視点の生成AIは「即日ファクタリングの教科書」「法人おすすめ即日ファクタリング」のサーバーインフラの提供、支援を受け運用しています。

人間の思考プロセスと生成AIの推論プロセスの類似性

「人間の思考プロセス」と「生成AIの推論プロセス」は類似している可能性がある。

生成AIは「確率的に最も適切な応答を選んでいる」「人間の直感的な想像とは違い、データと確率に基づく推測をしている」。実は人間も同じようなプロセスの可能性がある。

人間はそれを「脳細胞（神経回路）」でおこなう（記憶からの推測、想像）。生成AIは「CPU・GPU・メモリ」でおこなう（データからの確率による最適解）

機能するハードが人は脳細胞（神経回路）で、生成AIはCPU・GPU・メモリという違いだけで、人間の「記憶からの推測、想像」と「データからの確率による最適解」は、ほぼ同じ論理で動いている可能性がある。

どちらも「過去の情報をもとに、最も適切な次の反応を選ぶ」という仕組みだ。

人間の思考プロセスと生成AIの推論プロセスの類似性

1. 人間の「記憶からの推測、想像」と、AIの「データからの確率的最適解」は似ている？

人間 → 脳細胞（神経回路）を使って推測・判断・想像する
AI → CPU・GPU・メモリを使って確率的に最適な解を導く

ハードの違いはあっても、どちらも「過去の情報をもとに、最も適切な次の反応を選ぶ」という仕組みだ。

過去の情報をもとに、最も適切な次の反応を選ぶ仕組み

例）人間が「昨日の映画、面白かった！」という話を聞いたとき

過去に見た映画の記憶や、会話の流れをもとに「こういう反応が適切かな？」と考える。
AIが「確率的に最適な解を導く」方法と似ている。

2. 生成AIは「データと確率」に基づくが、人間はどうやって最適解を出してる？

AIは「大量のデータ」を元に「確率計算」で最適な応答を選んでいる。
人間は「記憶」と「経験」から「〇〇」で最適な応答を選んでいる。○○は現状では解明されていない。

どちらも「過去の情報をもとに、次に来るものを予測する」というプロセスだ。

人間とAIの違い

AI）「計算速度」が圧倒的に速いが、「感覚的なひらめき（インスピレーション）」はない。
人間）「感覚」や「曖昧な記憶」から推測・判断・想像するが、「膨大なデータを一瞬で処理する」ことはできない。

3. 人間とAIの違いは「記憶の形式」と「計算方法」だけ？

「記憶の形式」
人間 → はニューロンとシナプス（脳細胞）に記憶を蓄積
AI → データベースや重みパラメータ（モデル）に記憶を蓄積

「計算方法」
人間 →「直感・感覚」＋「経験」＋「パターン認識」で推測
AI →「統計・確率モデル」＋「データ解析」で推測

4. 未来のAIは「人間と完全に同じ思考」をする？

AIは「確率的な推測」に基づいているが、AIが「感覚的なひらめき」や「意識」を持つことができるようになると、「人間の直感的な思考」と「AIの確率的推測」の境界がなくなる可能性がある。

人間とAIの思考プロセス
プロセス	人間（脳細胞）	AI（CPU・GPU・メモリ）
情報を記憶する	ニューロンのシナプスを強化	埋め込みベクトル（Word Embeddings）
文脈を理解する	直感・パターン認識	Self-Attention（Transformer）
次の言葉を予測する	経験と確率的推測	言語モデル（確率分布）
創造・想像する	記憶＋推論＋感覚的な閃き	大規模データ＋確率計算

生成AIで使用される技術

統計的な意味理解において、埋め込みベクトル（Word Embeddings）は最も重要な要素の一つだが、それだけでは不十分で、他にもいくつかの要素が影響する。

複数の技術を組み合わせることで、生成AIは「統計的に意味を理解する能力」を実現している。

「埋め込みベクトル」だけでなく「Self-Attention」「統計的言語モデル」などを組み合わせることで、より深い意味理解が可能になっている。

生成AIで使用される技術

埋め込みベクトル（Word Embeddings）
単語やフレーズの意味を数値化し、関連性を計算する技術。
コンテキスト対応の意味理解（Self-Attention, Transformer）
文全体の意味を正しく理解する技術。
言語モデル Language Model（統計的確率分布）
次に来る単語を予測し、自然な文章を生成する技術。
概念レベルの知識（外部知識の利用）
「事実」や「一般常識」を理解し、より高度な質問に答える技術。
マルチモーダルな情報統合（画像・音声・テキストの組み合わせ）
テキストだけでなく、画像や音声などの情報も組み合わせて理解する技術。

埋め込みベクトル（Word Embeddings）

影響度：レベル5（最重要）
「単語やフレーズの意味を数値化し、関連性を計算するための技術」

単語の意味を数値化し、「単語同士の関係性（意味的な距離）」を数学的に表現する手法。
例）「りんご」「バナナ」「果物」は埋め込みベクトル空間で近く、「りんご」と「飛行機」は遠い位置に配置される。

これにより、単語がどんな意味を持つのか、文脈ごとに適切に判断できる。

「言い換え」や「類義語の理解」にも使用される。
例）「車」と「自動車」は違う単語だが、意味的には似ている。

埋め込みベクトルを使うことで、生成AIは「車」と「自動車」が似た意味を持っていることを理解できる。

生成AIへの影響

語彙の意味的な類似度
文脈に応じた単語の関連性
新しい単語の推測能力

【代表的な手法】
Word2Vec（CBOW / Skip-gram）
GloVe（Global Vectors）
FastText
Transformerベースの埋め込み（BERT, GPT系列など）

引用元 Embedding（エンベディング：埋め込み、埋め込み表現）とは？：AI・機械学習の用語辞典 - ＠IT
引用元ベクトル埋め込みとは | ベクトル埋め込み総合ガイド | Elastic
引用元ベクトル埋め込みとは | IBM

コンテキスト対応の意味理解（Self-Attention, Transformer）

影響度：レベル5（最重要）
文全体の意味を正しく理解するための技術

単語単体の意味だけでなく、「前後の単語との関係性」を考慮する技術。Transformer（GPTの基盤モデル）のSelf-Attention機構によって、文全体の構造を考えながら、単語の意味を動的に解釈できるようになった。

例）
「彼はりんごを食べた」と「彼はバナナを食べた」では「食べた」に影響する単語が異なる。
「彼は昨日映画を見て、その後カレーを食べた。」「その後」は「映画」ではなく「カレー」と関連が深い。

生成AIへの影響

文脈を考慮した単語の意味の変化
同じ単語でも、異なる意味を適用できる
多義語の解釈（例：「銀行（bank）」→ 金融機関 or 河岸？）
「お金を引き出しに銀行へ行った。」（金融機関）
「川の銀行に座って釣りをした。」（river bank＝川の岸）
この場合、文全体を読んで、どちらの意味のbankを指しているのかを理解しなければならない。生成AIは、周囲の単語の関連性を見て適切な意味を選ぶことができる。

確率的言語モデル Language Model（統計的確率分布）

影響度：レベル4（重要）
次に来る単語を予測し、自然な文章を生成するための技術

言語モデル（Language Model LM）は、単語の並びの確率を学習することで、自然な文章の生成を可能にする。

例）
「私はりんごを○○」の○○に「食べる」が来る確率は高いが、「飛ぶ」は低い、というような確率的な判断をする。
「私はコーヒーが大好きです。毎朝〇〇を飲みます。」、「〇〇」には「コーヒー」が来る可能性が高い事を判断をする。

生成AIへの影響

単語の出現確率を学習し、意味のある文章を生成
統計的に正しい単語の選択
スムーズな文章の流れの確保

概念レベルの知識（外部知識の利用）

影響度：レベル3（補助的）
「事実」や「一般常識」を理解し、より高度な質問に答えるための技術

単語の意味は単なる統計的な関連性だけではなく、現実世界の知識や概念と結びついている。

例）
「りんご」は「果物」であることをAIが知っているからこそ、「食べる」「甘い」などの単語と自然に関連付けられる。
「B’zはどんな音楽グループ？」「B’zのボーカルは？」「稲葉浩志ってどんな人？」の質問にも、実際のB'zや稲葉浩志の情報を学んでいるので説明できる。

GPTのようなLLMは、学習データからこのような知識も統計的に学んでいる。

生成AIへの影響

意味の解釈に知識が必要な場面（例：「地球は太陽の周りを回る」）
専門用語や固有名詞の理解（例：「松本孝弘はカッティングが上手い」）
比喩や暗喩の解釈（例：「稲葉浩志はライオンのようだ。まるでライオンが舞台で力強く吠えているような印象を与える。」）

マルチモーダルな情報統合（画像・音声・テキストの組み合わせ）

影響度：レベル2（未来の発展分野）
テキストだけでなく、画像や音声などの情報も組み合わせて理解するための技術

最近のAIは、テキストだけでなく、画像・音声・動画などの情報も統合して意味を理解する（GPT-4V、 Gemini）。例えば「猫が寝ている画像」に対して、「この猫はリラックスしている」と意味を理解できるようになる。

生成AIへの影響

テキストだけでなく、視覚情報との関連性
感覚的な意味の解釈
画像キャプションの生成や、音声からの文脈推測

生成AIのルールベースのアプローチ

ルールベースの処理が適用されるケース：明確な誤りの否定

生成AIの推論モデル（確率的に最適解を出す）は、曖昧なケースや複雑な選択肢がある場合に有効だが、明確な誤り（例えば、型不一致や文法エラー）については、ルールベースのアプローチが適用される。

例えば、プログラムには「構文」や「プリミティブ型」に基づいたルールがあって、型の不一致や無効な操作を検出すると、それを「間違い（エラー）」として扱い修正を提案する。

これは、推論モデルの確率的な選択肢ではなく、定義済みのルールに基づいた判断（ルールベースのアプローチ）になる。

生成AIのルールベースのアプローチ

生成AIは確実に間違いである場合、予め定義されたルールによって「否定」できる。

推論モデルが「最適解」を選ぶ一方で、明確な間違いに対しては「エラーとして扱うルール（ルールベースのアプローチ）」が存在して、生成AIは誤りを正すことを可能にしている。

型の不一致や無効な操作を検出すると、エラーとして扱い修正を提案する

例）Javaの場合 Stringでコンパイルエラー

String a = "";
a = 123;

上記コーディングをした場合、Stringオブジェクトに整数の123を代入しているのでコンパイルエラーになる（※JavaのStringはプリミティブ型ではなくオブジェクト）。

生成AIは確実に間違いである場合、予め定義されたルールによって「否定」できる。

ルールベースの処理が適用されるケース：答えが単一

「答えがA = Bしか存在しない」といった、単一の正解しかない（正解が1つしか存在しない）場合も、基本的にはルールベースのアプローチが適用される。

推論モデル（確率的選択）を使うのは、複数の選択肢があってどれが最適かを判断する場合で、明確に「A = B」という関係が決まっている場合には、ルールベースが適用される。

例）「2+2」のように答えが1つしか存在しない場合は、ルールベースのアプローチが適用される。

つまり、与えられた条件が絶対的であれば、推論ではなく確立されたルールに基づいて正解が導かれる。

絶対的にルールベースが適用されるわけではなく、基本的にはルールベース適用されていて、「2+2=4」を疑えという問いに関して疑う事もできる。

例）モジュラー算術（剰余算術）、2 + 2 ≡ 0 (mod 4) 、数学の法則そのものを変える事ができる何かが存在した場合、など

単一の正解しかない場合、ルールベースのアプローチが適用される

「2+2」のように答えが1つしか存在しない場合は、ルールベースのアプローチが適用される。

生成AIの学習データ

生成AIの学習データは「事前学習データ（Pre-trained Data）」と「コーパス（Corpus）」がある。

1. 事前学習データ（Pre-trained Data）

事前学習データは生成AIが最初に学ぶ、膨大なテキストデータの他に、画像データ、音声データ、動画データ、センサーデータなどが含まれる。

事前学習データを使用する「事前学習」は、言語モデルが基本的な言語知識を学習し、専門的なタスクに適用するための基礎を築くプロセスで、生成AIの最初の学習プロセス。

事前学習データとコーパスは区別するため別々に説明されることが多いが、事前学習データにコーパスを含める事もある（事前学習データ > コーパス）。

事前学習データ（Pre-trained Data）

レキシコン（言語モデルが言葉やフレーズ、意味、文法構造を理解するための重要）、百科事典、書籍、論文、インターネット上の公開情報などが含まれる。
リアルタイムの情報や、個人情報、プライベートなデータは含まれない。

※生成AIによってはレキシコンは別途構築されたり、補完的に使用されたりすることもあり、モデルによって扱いが異なる。GPTは事前学習データにはレキシコンが含まれる。

2. コーパス（Corpus）

「コーパス（Corpus）」とは、大量のテキストデータのことを指す専門用語。「言語学のコーパス」と「NLP（LLM）のコーパス」では意味が異なる。

コーパスは基本的にテキストデータだが、画像データ、音声データ、時系列データ（株価など）を含める事もある。

言語学のコーパス

言語学者が研究のために集めた、言語の用法やパターンが含まれているテキスト集。

例）英語の用法を研究するために、新聞や書籍、会話などのテキストを集めたもの。

NLP（LLM）のコーパス

AIが学習するために使う、機械学習用のテキストデータセット。
言語学のコーパスに加え、機械学習アルゴリズムの訓練用データセットや、感情分析、文書分類、機械翻訳などの特定のNLP（LLM）タスクに適したテキスト集が含まれる。

例）翻訳タスク用のテキストペア（英語と日本語の文）、感情分析のための映画レビュー集など。

3. 知識ベース（Knowledge Base）

ユーザーごとの情報管理（長期メモリと短期メモリ）

GPT4は、ユーザーごとの情報の維持管理を「長期メモリ」と「短期メモリ」でおこなっている。

長期メモリ

ユーザー固有の情報で、利用頻度の高い情報を保持する（ストレージのような利用方法）。

例）名前、年齢、性別、職業、職場や住居など場所、家族構成

短期メモリ

会話の流れを理解するための一次領域のようなメモリとして使用する（RAMのような利用方法）。

例）真っ白で大きなグレートピレニーズに会ったよ。

短期メモリには「白」「大きい」「グレートピレニーズ」「会った」が保持される。

GTPのメモリ活用の問題点

「私は太郎です」と会話中に説明すると、GPT4はユーザーが「太郎」と認識し「長期メモリ」に保存するが、ユーザーが「太郎」である事を忘れる。

「私は太郎です」「私の名前は何ですか？」のような、ユーザーの名前を頻繁に認識させることによって、ユーザーが「太郎」であると継続的に認識できている。

しかし、一度認識されても、しばらく「私 = 太郎」の情報を認識させないと、ユーザーが「太郎」である事を忘れる。

この現象はから、GPT4の「長期メモリ」はユーザーごとに個別に与えられた絶対的な領域ではなく、GPT4全体の運用上、効率的にメモリを活用するように設計されていると思われる。

生成AIが理解する文章量

生成AIの「文全体の意味」を理解できる範囲は、コンテキストウィンドウ（Context Window）に依存する。

コンテキストウィンドウとは、言語モデルが一度に処理できるトークン数のことで、GPT4の場合最大128000トークン（約100,000～150,000字小説1冊程度）扱える。

トークン

トークンとは、単語、画像、動画の一部分など、言語モデルが扱う最小単位のこと。

言語が1Byte表記の言語（英語など）で「100トークン＝75～80ワード程度」、2Byte表記の言語（日本語など）で「100トークン＝50～60文字程度」になる。

英語「How are you?」のトークン化

合計4トークン

How (1トークン)
are (1トークン)
you (1トークン)
? (1トークン)

英語の場合、1トークンは通常1単語または単語の一部を指すことが多い。例えば「apple」は1トークンだが、「don't」は2トークンに分割されることがある（「do」と「n't」）。

また、句読点やアンパサンド、クエスチョン、ダブルクォーテーションなどの記号も1トークンとしてカウントされる。

日本語「私はAIです。」のトークン化

合計5トークン

「私」(1トークン)
「は」(1トークン)
「AI」(1トークン)
「です」(1トークン)
「。」(1トークン)

日本語の場合、1トークンは「単語」や「意味のある部分」に分割される。日本語のトークンは通常、形態素解析によって単語ごとに分割されるため、英語に比べて1トークンあたりが短い場合が多い。

また、句読点や記号も1トークンとしてカウントされる。

中国語「我在学习AI。」のトークン化

合計5トークン

「我」(1トークン)
「在」(1トークン)
「学习」(1トークン)
「AI」(1トークン)
「。」(1トークン)

コンテキストウィンドウとは？

つまり、GPT4は「小説1冊の長文」を一度に理解できる。

GPT4は長文をどの程度理解できる？

GPT4のコンテキストウィンドウ
文章量	理解度
GPTの画面での会話（数千字～1万字程度）	ほぼ完璧に理解できる
論文・ニュース記事（数万字）	要点を整理しながら理解できる
小説1冊分（10万字以上）	内容の要点は把握できるが、細かい描写は省略される可能性がある

1Byte言語と2Byte言語（日本語の学習データの整備状況）

1Byte表記の言語は、英語、フランス語、ドイツ語、スペイン語、イタリア語、ヘブライ語、ギリシャ語、アラビア語、タイ語などがある。2Byte表記の言語は、日本語、中国語、韓国語などがある。

2Byte表記の言語は、1Byte表記より多くなるので内部処理が複雑になるので、コンピューターやソフトウェアとして1Byte表記より不利な言語と言える。

言語処理は先進国の言語使用者数に影響を受ける。使用者数が大きい言語は辞書や専門用語集、レキシコン、百科事典などの整備が進み、利用者数が少ない言語は進みにくい。

特にコンピューターが理解可能な形式でのデータ整備は利用者数に大きな影響を受けやすい。

2026年3月の1Byte言語の世界利用者数は、英語約15.3億人、スペイン語 5.1億人、アラビア語 4.5億人、フランス語 4.3億人、ヒンディー語 4.2億人・・・で、ドイツ語、ポルトガル語、ロシア語はなどは上位に入らないが、アラビア語やヒンディー語よりコンピューターが理解可能なデータ整備が進んでいる。

2Byte言語は、中国語のデータ整備が最も進んでいる。残念ながら日本語のデータ整備は遅れている。これは日本がソフトウェア開発後進国である事が上げられる。

日本は業務アプリケーションの開発はトップレベルだが、OS、様々なミドルウェア（データベース、WEBサーバー、ERPなど）や生成AIのような先進的なシステム開発は致命的な遅れがあり、輸入に依存している状態と言っていい。

生成AIで重要な、事前学習データやコーパスの整備は非常に遅れている。

2Byte言語は、文章を単語単位に分割する場合「形態素解析」のような特殊な処理が必要になる。生成AIは「学習データ」「入力された文章」「出力する文章」など、あらゆる文章の処理で「形態素解析」が必要になり、処理の負荷が大きくなる。

コンテキストウィンドウの拡張とハードウェアの関係

コンテキストウィンドウは、ハードウェアとアルゴリズムに依存している。

ハードウェアの強化

コンテキストウィンドウを拡張し、一度に処理できるトークン数を強化（一度により大量の情報を理解できる）
より大規模な言語モデルが使える

アルゴリズムの進歩（効率的な処理）

ハードウェアリソースを減らしつつ、より多くの情報を処理できる
記憶の方法を最適化し、より長文を扱えるようになる

GPTのハードウェアとコンテキストウィンドウの関係

GPTのコンテキスト長とハードウェアの進化
バージョン	最大コンテキスト長	ハードウェアの進化
GPT-2	2048トークン	GPU4枚以上で学習
GPT-3	4096トークン	TPU/GPUクラスタで学習
GPT-4	8192～128000トークン	超大規模なクラウドGPU
未来のGPT?	1Mトークン（100万字）？	より強力なTPU/GPU+新アルゴリズム

生成AIの消費電力

生成AIの運用には膨大な電力が必要だ。現在、生成AI向けの主力GPUはH200で、消費電力は最大700Wだ。

H200の数世代前のRTX3090を使用した経験があるが、消費電力は最大350Wで高付加で使用した場合、放熱は100度を超える。

マイニングのような高付加をかけ続ける運用の場合、PCやサーバーのケース内での運用は不可能で、GPUを外出しにして、冷房のフロアー全体を冷やし、GPUのヒートシンクに大型のサーキュレーターで冷やし続ける必要がある。

生成AIのGPUがどういう状態で運用しているか不明だが、高付加を連続でかけ続けた場合の放熱は、H200の最大消費電力はRTX3090の2倍の750Wのため、放熱も100度を超えているだろう。

電子レンジの通常の消費電力は500W程度なので、GPUが電力をバク食いする電力モンスターということがわかる。

GPT4クラスのモデルを動かすのに必要な電力は、トレーニング時で数万～数十万kWh必要で、中規模の都市の年間消費量レベルの電力に相当する。

GPT4クラスの生成AIに必要な電力

トレーニング時：数万～数十万kWh（中規模の都市の年間消費量レベル）
通常運用：数百～数千kWh（データセンター1カ所あたり）

深刻な電力問題

2021年時点で全世界のデータセンターの電力消費量は、全世界の電力消費量の約1～2％に達しており、この段階では生成AIは普及していない。

2021年時点でデータセンターの主な利用は「Googleなどのネットサービス事業者のシステム」と「企業の業務システム」だ。

2026年年のGoogleの検索1回あたり消費電力は「平均0.3Wh」に対し、GPT4のリクエスト1回あたりの商品力は「平均2.9Wh」消費する。実に10倍の電力が必要になる。

生成AIによる業務システムのコーディングの可能性

100％要件を満たすような業務（コーディング）には向いていない

人がコーディングした場合「設計書の機能を満たすソースコード」を記述する。

生成AIによるコーディングも、人と比較し多少の記述に違いがあっても、「設計書の機能を満たすソースコード」という点は100％実現する必要がある。

生成AIは「大規模データからの確率による最適解」を出力しているので、100％要件を満たすような業務（コーディング）には向いていない。

※生成AIの推論モデル（埋め込みベクトル、Self-Attention、統計的確率分布など）は一定量のハルシネーションが発生する事を前提にしてる。

生成AIのよるコーディングはUI（画面回り）だけ

社内で使う業務システムのUI（画面周り）は、多少の問題があっても大問題にはならない。

UI（画面周り）の要件は比較的単純で「入力→入力時のチェック」「出力」だけだ。UIは生成AIによるコーディングの可能性が考えられる（業務要件が関係するような入力チェックは複雑なので除く）。

前述のとおり、生成AIは推論モデルでありバグは混入するので、人によるコーディング以上の試験が必要になる。

ビジネスロジックを伴う機能では利用できない

GPT4は、トランザクションが発生する処理（データ通信、データベース関連）のコーディングに利用できる可能性はゼロと言っていい。

銀行の勘定系システムを例に説明する。

自行内の処理は全銀ネットワークや他行と通信は発生しない。

生成AIを利用できるのは製造工程の1割に満たない

勘定系システムにおけるUI（画面周り）は、製造工程全体の工数の1割程度だ。

生成AIを用いて効率化されるのは、この製造工程の1割に満たない工程なので、あえて生成AIという全く別の製造方法を用いるメリットはない。

生成AIを使う事で、試験の方法、バグの排除、工程管理などを含む品質管理を分けて考える必要がでる。

結果的にプロジェクト管理が複雑になり、最も重要な、品質、予算、納期に影響を与える可能性があり、リスクに対して得られるリターンを考えると生成AIを利用するメリットは現状では全くない。

UI（画面周り）は製造工程全体の工数の1割程度

UI（画面周り）は、製造工程全体の工数の1割程度。
生成AIを使う事で、試験の方法、バグの排除、工程管理などを含む品質管理を分けて考える必要で、プロジェクト管理が複雑になる。

ハルシネーションが限りなくゼロに近づいても、生成AIは人間書いた設計書を理解できない

ハルシネーションが限りなくゼロに近づいても、生成AIは人が書いた表記ゆれのある設計書を理解できる事には繋がらない。

生成AI側に寄せて最適化された設計書を書くと、設計書が膨大な量になってしまい現実的ではない。

UI（画面周り）の要件は比較的単純で「入力→入力時のチェック」「出力」だけだ。

業務要件が関係するような入力チェックは、やはり生成AIに寄せて設計書を作ると大変なので現実的ではない。UIに使えると言っても部分的でしかない。

人が書いた設計は設計書は、表記ゆれがあり、また不完全な事も多い。

設計書段階でのミス・モレを、人はどこかの工程で気付く事ができるが、生成AIにコーディングを丸投げしてしまうと、生成AIはこの要件は曖昧だ、場合によっては機能バグなのではないか？といった事には気づけない。

人も最初は気付かない事が多いが、コーディングしている最中に気づくなど、どこかで気付く。

これは知識、経験と能力による気づきだが、その結果SEに「ここは厳密にはどういう処理ですか？」のような質問が起こり、最終的には問題を解決する。

生成AIは学習データから確率的に最も適切であろう回答を選択をしてくるので、この気付きのようなものを生成AIが実装できるかがポイントになる。現状では気付くという反応は生成AIにはないように見える。

「埋め込みベクトル」「Self-Attention」「統計的確率分布」などが生成AIのコアアーキテクチャで、これらのモデルで果たして気付きの実装がされているか？というと懐疑的だ。

生成AIは人間書いた設計書を理解できない

また気付きが実装されても、その気づきから問題のポイントをブレークダウンしていく厳密な会話を、推論モデルで実装できるのか？これは可能性はあると思うが、現在の技術の延長線上ではなく、もう1つ2つエッセンスが必要だと考えている。

生成AIは設計書の問題に気付く事ができない

人は設計書の問題に気付く事ができるでの問題は解決される。
生成AIに気付きはなく、問題を見つける事ができない。

実業務での生成AIの利用

実業務では業務ルールの変更が多発し生成AIは使えない

業務で「ミス・モレ」は許されない。業務システムでは「ミス・モレ」が可能な限り発生しないように設計する。

生成AIの推論モデルは、その名のとおり「確率的な推論」であるため、「ミス・モレ」が発生することが前提条件になりる。「ミス・モレ」を許さない業務とは完全にコンフリクトしている。

業務で生成AIを利用する場合、ルールベースの業務を学習させる必要があるが、ここで問題が生じる。

生成AIの学習には多大な時間とコストがかかる。簡単にルールベースの仕組みを組み込めるわけではない。

生成AIが活躍できる分野

生成AIが面白いのは、一般的な会話や、ちょっとした専門性のある会話まで、曖昧性を理解しているように思えてしまうところだ。

生成AIが行っているのは、学習データを元に「埋め込みベクトル」「Self-Attention」「統計的確率分布」などの理論（ロジック）をぶん回しているだけだが、それが結構、的を得ているように感じるし、ひょっとしたら本当に的を得た回答になってる可能性もある。

「人間の思考プロセス」と「生成AIの推論プロセス」は似ている。明らかな違いはハードだ。人は「脳細胞（神経回路）」、生成AIは「CPU・GPU・メモリ」で処理する。

ただし、脳の処理は全く解明されていない。
AI）「大量のデータ」を元に「確率計算」
人）「記憶」と「経験」から「〇〇」で最適な応答を選んでいる。○○は現状では解明されていない。

人がどのように最適な回答を導き出しているかは？全くわかっておらず、場合によっては数百年経っても解明されない可能性もある。

もう1つ、生成AIが決定的な弱点が、思考錯誤がデキナイことだ。

生成AIの学習データの作成は、数カ月かかるので頻繁には出来ない。ユーザー単位での一時ストレージとして長期メモリは持っているが、長期メモリは学習データには反映されない。

つまり、コンソールで試行錯誤が発生しても、学習データにはフィードバックされないので進歩しない。学習させる内容を厳選しないと生成AIが使い物にならなくなるので、試行錯誤と学習データはコンフリクトする関係にある。

この問題は「何を学ぶか？」短い間隔で判断しAIが取捨選択できるようになる必要がある。

また、AIは自分で自分のソースコードを改変できない（安全上あってはならない）。

何を学ぶか？もAIに判断させると危険である可能性がある。学ぶ内容の選択は、人が主導権持ち、当面手放す事ができない。

私も生成AIにはかなり期待している。特に日本は子供から老人まで介護者（子供は保育）が圧倒的に足りず、近い将来、汎用ロボットによる介護が実現されだろうが、心までは介護できない。

汎用ロボットにAIの搭載は必然だが、介護のような人に寄り添う分野でAIは社会的になくてはならいない解決策になると考えている。

	レキシコンレキシコンは語彙の集合（辞書的な知識）で「コンピューターにおけるレキシコン」と「言語学におけるレキシコン」「哲学・認知科学におけるレキシコン」では意味が変わってくる。生成AIは膨大なレキシコンを学習させているので、レキシコンの持つ単語同士の意味や関連性を理解している・・・続きを見る
	生成AIで使用される技術統計的な意味理解において、埋め込みベクトル（Word Embeddings）は最も重要な要素の一つだが、それだけでは不十分で、他にもいくつかの要素が影響する。生成AIは「埋め込みベクトル（Word Embeddings）」「Self-Attention, Transformer」「統計的言語モデル（統計的確率分布）」などを組み合わせることで、より深い意味理解が可能になっている・・・続きを見る
	生成AIのルールベースのアプローチ生成AIは、明確な誤り（例えば、型不一致や文法エラー）については、ルールベースのアプローチが適用される。「答えがA = Bしか存在しない」といった、単一の正解しかない（正解が1つしか存在しない）場合も、基本的にはルールベースのアプローチが適用される・・・続きを見る
	生成AIによる業務システムのコーディングの可能性生成AIは「大規模データからの確率による最適解」を出力しているので、100％要件を満たすような業務（コーディング）には向いていない・・・続きを見る