chatGPTに代表される生成AI、めっちゃ流行っちゃってるねぇ。
2023年にchatGPTを触ったときは「こりゃオモチャで、なんちゃってAIじゃん。大袈裟な名前つけるなよ。使えねぇ。」だった。
「AはBである!」と思いっきり自信ありげに嘘をつく。これを「ハルシネーション」と呼ぶ。
2年後(2025年2月)、chatGPTがスゴイと話題になっているので久しぶりに触ってみると、かなり実用的になっていた。2023年より推論モデルが大幅に進歩していて、2023年のような簡単な問いに「ハルシネーション」を起す事はなくなっている。
「ハルシネーション」がなくなったのか?というと違う。専門性の高い分野では、普通に自信ありげに嘘をつく。
データセットをカスタマイズすれば実業務に利用可能なレベルまで行けるかもしれない。
2023年段階では「本格的に調査」「生成AIの学習理論」「具体的な生成AIの学習方法」「生成AIの設計・実装」「APIの利用」などを学ぶ必要はないと考えたが、2023年に見送った調査・学習を始めることにした。
実業務、例えば市役所の受付業務で「ハルシネーション」が発生しては使い物にならない。100%の精度で正しい回答ができる必要がある。
専門性のまったくない通常の会話レベルを「基本データセット」と定義した場合、基本データセット段階で「ハルシネーション」が発生してしまうようでは使い物にならない。
この段階では「ハルシネーション」は発生せず、知らないものは知らないと答える必要がある。
基本データセット段階で問題ない場合、市役所業務の専門的なデータセットを学習させる。100%の精度で正しい回答を出来れば実業務でも利用可能になる。
LLM(Large language Models)と、従来のレキシコンベースの言語処理モデルとの違いは「パラメータ数(ディープラーニング技術に特有の係数の集合体)」だ。
元々、レキシコンやレキシコンベースの言語処理モデルでも「データ量(登録する情報量)」「計算量(コンピューターが処理する仕事量)」は膨大であり、実行形式のデータやファイルを生成するプロセスは、労働集約的かつ膨大な作業量だ。
その点でLLMとレキシコンに違いはない。
大きな違いは「パラメータ数(ディープラーニング技術に特有の係数の集合体)」にある。
LLMは自然言語処理に特化した生成AIの一種で、膨大なテキストデータと高度なディープラーニング技術を用いて構築された、自然言語処理(NLP:Natural Language Processing)の技術だ。
従来の言語モデルと比較して、「計算量(コンピューターが処理する仕事量)」「データ量(入力された情報量)」「パラメータ数(ディープラーニング技術に特有の係数の集合体)」 という3つの要素を大幅に強化することで、より高度な言語理解を実現してる。
デコーダーのみの自己回帰モデルであり、因果言語モデルとも呼ばれる。
レキシコンは語彙の集合(辞書的な知識)で「コンピューターにおけるレキシコン」と「言語学におけるレキシコン」「哲学・認知科学におけるレキシコン」では意味が変わってくる。
生成AIは膨大なレキシコンを学習させているので、レキシコンの持つ単語同士の意味や関連性を理解している。
生成AIは「巨大なレキシコンの集合体」で、「言葉の意味・関連性・文脈」を高度に扱えるようになった「超拡張・超機能向上版レキシコン」とも言える。
コンピューターにおけるレキシコンは、主にコンピューターが言葉を理解するために使う「語彙データベース」を表す。
レキシコンと生成AIの違いは「文脈の理解」「文章の生成」「フィードバックからの学習」だ。
レキシコンは「単語単位での理解(単語の意味、品詞、関連性を格納した辞書)」に留まるが、生成AIはレキシコンでは不可能な「文脈の理解」が可能だ。
レキシコンは「単語の理解」に留まるので会話は成立しないが、生成AIは「文脈を理解」できるので会話が成立する。
単語だけでなく「文全体の意味」や「会話の流れ」まで考慮できる。
どの単語が重要か、前後の関係を分析しながら適切な単語を選択できる。
長い文章や会話の履歴を考慮し、文脈に沿った応答ができる。
レキシコンとは違い、生成AIは「話の流れを考えながら適切な言葉を選び、自然な返答を作れる」ということが最大の違いだ。
バージョン | 最大コンテキスト長 | ハードウェアの進化 |
---|---|---|
GPT-2 | 2048トークン | GPU4枚以上で学習 |
GPT-3 | 4096トークン | TPU/GPUクラスタで学習 |
GPT-4 | 8192~128000トークン | 超大規模なクラウドGPU |
未来のGPT? | 1Mトークン(100万字)? | より強力なTPU/GPU+新アルゴリズム |
2021年時点で全世界のデータセンターの電力消費量は、全世界の電力消費量の約1~2%に達しており、この段階では生成AIは普及していない。
2021年時点でデータセンターの主な利用は「Googleなどのネットサービス事業者のシステム」と「企業の業務システム」だ。
2025年年のGoogleの検索1回あたり消費電力は「平均0.3Wh」に対し、GPT4のリクエスト1回あたりの商品力は「平均2.9Wh」消費する。実に10倍の電力が必要になる。
人がコーディングした場合「設計書の機能を満たすソースコード」を記述する。
生成AIによるコーディングも、人と比較し多少の記述に違いがあっても、「設計書の機能を満たすソースコード」という点は100%実現する必要がある。
勘定系システムにおけるUI(画面周り)は、製造工程全体の工数の1割程度だ。
生成AIを用いて効率化されるのは、この製造工程の1割に満たない工程なので、あえて生成AIという全く別の製造方法を用いるメリットはない。
生成AIを使う事で、試験の方法、バグの排除、工程管理などを含む品質管理を分けて考える必要がでる。
結果的にプロジェクト管理が複雑になり、最も重要な、品質、予算、納期に影響を与える可能性があり、リスクに対して得られるリターンを考えると生成AIを利用するメリットは現状では全くない。
UI(画面周り)は、製造工程全体の工数の1割程度。
生成AIを使う事で、試験の方法、バグの排除、工程管理などを含む品質管理を分けて考える必要で、プロジェクト管理が複雑になる。
ハルシネーションが限りなくゼロに近づいても、生成AIは人が書いた表記ゆれのある設計書を理解できる事には繋がらない。
生成AI側に寄せて最適化された設計書を書くと、設計書が膨大な量になってしまい現実的ではない。
UI(画面周り)の要件は比較的単純で「入力→入力時のチェック」「出力」だけだ。
業務要件が関係するような入力チェックは、やはり生成AIに寄せて設計書を作ると大変なので現実的ではない。UIに使えると言っても部分的でしかない。
人が書いた設計は設計書は、表記ゆれがあり、また不完全な事も多い。
設計書段階でのミス・モレを、人はどこかの工程で気付く事ができるが、生成AIにコーディングを丸投げしてしまうと、生成AIはこの要件は曖昧だ、場合によっては機能バグなのではないか?といった事には気づけない。
人も最初は気付かない事が多いが、コーディングしている最中に気づくなど、どこかで気付く。
これは知識、経験と能力による気づきだが、その結果SEに「ここは厳密にはどういう処理ですか?」のような質問が起こり、最終的には問題を解決する。
生成AIは学習データから確率的に最も適切であろう回答を選択をしてくるので、この気付きのようなものを生成AIが実装できるかがポイントになる。現状では気付くという反応は生成AIにはないように見える。
「埋め込みベクトル」「Self-Attention」「統計的確率分布」などが生成AIのコアアーキテクチャで、これらのモデルで果たして気付きの実装がされているか?というと懐疑的だ。
また気付きが実装されても、その気づきから問題のポイントをブレークダウンしていく厳密な会話を、推論モデルで実装できるのか?これは可能性はあると思うが、現在の技術の延長線上ではなく、もう1つ2つエッセンスが必要だと考えている。
人は設計書の問題に気付く事ができるでの問題は解決される。
生成AIに気付きはなく、問題を見つける事ができない。
生成AIの推論モデルは、その名のとおり「確率的な推論」であるため、「ミス・モレ」が発生することが前提条件になりる。「ミス・モレ」を許さない業務とは完全にコンフリクトしている。
業務で生成AIを利用する場合、ルールベースの業務を学習させる必要があるが、ここで問題が生じる。
生成AIの学習には多大な時間とコストがかかる。簡単にルールベースの仕組みを組み込めるわけではない。
![]() | レキシコン レキシコンは語彙の集合(辞書的な知識)で「コンピューターにおけるレキシコン」と「言語学におけるレキシコン」「哲学・認知科学におけるレキシコン」では意味が変わってくる。 生成AIは膨大なレキシコンを学習させているので、レキシコンの持つ単語同士の意味や関連性を理解している・・・ 続きを見る |