「意識とは何か」という問いに対し、現象学では「意識とは常に何かに向けられているものである」と定義されます。この性質を「志向性(intentionality)」と呼びます。以前の記事「意識があるとはどういうことか」では、観測対象がこの志向性を備えていることこそが、私たちがその対象に意識を認めるための不可欠な条件であると議論しました。
一方で、観測的な知見からは、意識が主体的に自己を決定しているわけではないという視点も存在します。すなわち、意識は意思決定の主体ではなく、脳による演算結果を事後的に受け取る「報告先」に過ぎないという見方です。本記事では、こうした決定論的な世界観に立ち、志向性という現象をいかに解釈できるかを考察します。この立場を採れば、志向性そのものもまた、脳内演算の帰結として生じる現象として位置づけられることになります。
志向性のモデル化
客観的行動と主観的体験
決定論的世界観において志向性を論じるには、外部から観測可能な「振る舞い」と、内部における「意識体験」という二つの側面を切り分けることが有効です。本記事では議論の混同を避けるため、これらを以下のように定義します。
- 外的志向性
- 外部からの観測において、対象が「何かに向かっている」と判別される行動特性を指します。これは機能的な意味での「指向性」に相当するものです。例えば、登山者が頂上を目指して一歩ずつ歩を進める様子を観察したとき、第三者はその一貫した軌跡から「この人は頂上を目指している」と推測します。このように、客観的に記述可能な「目標志向的な行動パターン」が外的志向性です。
- 内的志向性
- 意識の内側において展開される、「何かに向かっている」という主観的な体験そのものを指します。これは現象学が記述対象としてきた志向性そのものであり、外部から直接観測することは不可能な、第一人称的な心の状態です。
この二つの概念を峻別することで、「脳内演算という客観的プロセスが、いかにして外的志向性(行動)を駆動し、同時に内的志向性(体験)を立ち上げるのか」という問いを、段階的に検討することが可能となります。
「目的」なき「志向」
以前の記事「志向性」を生み出すにはにおいて、外的志向性は「未来の目的」をあらかじめ設定せずとも、「過去の経験に基づく行動指針の生成」のみによって達成可能であることを示しました。
その具体例として、大腸菌の化学走性(chemotaxis)をモデル化したシミュレーションを検証しました。このモデルの特筆すべき点は、エージェントに「目標地点」の情報が一切与えられておらず、参照できるのは「過去の報酬履歴(栄養濃度の変化)」のみであるという点です。
それにもかかわらず、適切な学習率を備えたエージェントは、ランダムな探索を超える効率で高報酬領域を発見し、そこに留まり続けることに成功しました。この結果は、特定の方向へ向かわせるための「明示的なアルゴリズム」が存在しなくとも、システム内部における過去の経験の処理だけで、客観的には「何かに向かっている」と解釈される行動が立ち現れることを実証しています。
この成果により、「何かに向かう」という志向性の少なくとも外的な側面については、記憶という時間的な蓄積を持つシステムから、演算の結果として自動的に創発し得ることが明らかになりました。
認知空間における探索
外部から観察可能な「外的志向性」に対し、思考の過程において意識が内面的に対象へと向かう「内的志向性」は、いかにして成立するのでしょうか。
本稿では、内的志向性の成立には、大きく分けて以下の二つの段階が必要であると考えます。
- 対象の定位(注目の選択)
- 膨大な情報の中から、特定の対象に意識の焦点を合わせる段階。
- 探索の深化(注視の展開)
- 注目した対象に対し、さらに思考を深め、多角的に検討を加える段階。
本稿では、特に後者の「深堀り」のプロセスに焦点を当てます。ある事象に注目した際、私たちの思考が特定の方向へと誘(いざな)われ、収束していくアルゴリズムについて考察します。
私たちが「何かに向かっている」と内的に実感するのは、単に対象に注目した瞬間だけではありません。むしろ、注目した対象について、探索を継続し、その様々な側面を順次検討していく動的なプロセスがあるからこそ、「向かっている」という実感が立ち上がるのです。
例えば、「リンゴ」に意識が向いた際、それを「食料」として捉えるのか、「色彩」として観察するのか、あるいは「過去の記憶」と結びつけるのか。私たちは無意識のうちに思考の進路を選択し続けています。この絶え間ない探索と選択の連鎖こそが、内的志向性の本質的な特徴といえます。
前稿では、大腸菌が栄養源へと「向かう」物理空間での移動を扱いましたが、内的志向性のモデル化においては、これを「思考空間における探索」へと置換します。
注目した対象が内包する複数の可能性(側面の選択や解釈の方向性)の中から、試行錯誤を通じて認知的に最も価値のある選択を学習していく。このプロセスは、前稿で論じた空間探索と構造的に極めて類似しています。すなわち、探索の舞台が物理空間から認知空間(意味の空間)へと移行したものが、内的志向性の正体であると仮定するのです。
志向性の数理モデル
強化学習と志向性
外的志向性の創発プロセスにおいて、強化学習のアルゴリズムを援用しました。環境との対話を通じた試行錯誤、そして長期的な報酬を最大化する方策の自律的な獲得。この学習構造こそが、「何かに向かう」という志向性の発現と深く結びついていました。
この構造を内的志向性にも適用してみましょう。注目した対象を「深掘りしていく」認知プロセスは、数理的には「多腕バンディット問題(Multi-armed Bandit Problem)」と構造的に類似していると捉えることができます。
多腕バンディット問題とは、報酬確率が未知である複数の選択肢の中から、限られた試行回数で最大の利益を得るための戦略を問う問題です。一般的には、当たる確率が異なる複数のスロットマシンを前にしたギャンブラーの意思決定モデルとして知られています。
このモデルの前提と目的は以下の通りです。
- 初期状態
- 各スロットマシンの的中確率は一切不明であり、エージェントは事前の知識を持たない。
- 目標
- 試行錯誤によって経験値を蓄積し、最終的に「ランダムな選択」による期待値を上回る報酬を安定的に獲得する。
この多腕バンディット問題の枠組みを、内的志向性における「対象の深化」という問題に適用できると考えます。
すなわち、内的志向性とは、対象が内包する複数の可能性(スロットマシン)の中から、試行錯誤を通じて「最も認知的に有益な選択」を学習していくプロセスとして再定義できるのです。
ここで各スロットマシンは、対象の異なる「側面」や「解釈の可能性」に対応します。我々の思考は、これらの可能性を逐次的にシミュレート(試行)しながら、最も意味深い理解へと収束していく。この「最適解を求めて認知空間を探索し続ける動的な過程」こそが、意識が何かに向かって考え続ける内的志向性の実体に他ならないのではないでしょうか。
志向性の操作的定義
ここで、本論における「志向性」の操作的定義を試みます。
志向性の本質は、文字通り「ある対象へと向かう性質」にあります。この抽象的な現象を数理モデル化可能な形に変換するため、本稿では志向性を「特定の入力に対し、一貫した出力を選択し続ける動的な特性」と定義します。
より具体的には、ある状況下で複数の選択肢が存在する場合に、システムが特定の選択肢を優先的に抽出し、その対象との相互作用を深化させていく過程そのものを、志向性の発現とみなします。
ここで、極めて重要な条件が一つあります。それは、この出力の最適化が、「過去の経験(蓄積された記憶)」のみによって規定されているという点です。これは前稿で提示した以下の決定論的原理に基づいています。
- 決定論的世界観における行動原理
- システムは外部の現在情報を直接的な動機として参照するのではなく、一度システム内部の「記憶」として取り込まれ、処理された情報のみが次なる行動を規定する。
つまり、志向性とは「未来にある目標に引き寄せられる力」ではなく、「過去の報酬履歴が脳内で演算され、特定の選択肢の優先度を自動的に押し上げてしまう統計的プロセス」として操作的に定義されるのです。この定義により、志向性は神秘的な「心の力」ではなく、計算可能な「情報の出力バイアス」へと昇華されます。
数理モデルの構成
以上の操作的定義に基づき、抽象的な「志向性」を多腕バンディット問題(強化学習)の枠組みへと落とし込みます。
- 固有確率 \( p_0 \):世界の構造
-
まず、ある対象に対して \( m \)通りの「解釈」や「思考の切り口」という選択肢が存在する状況を想定します。特定の切り口を選んだからといって、常に認知的な報酬(納得感や有用な情報)が得られるとは限りません。選ぶ切り口によって、有益な情報が得られる確率は異なります。
ここで、各選択肢 \( k \)(\(k = 1, \dots, m \))を選んだ際に報酬が得られる客観的な確率を「固有確率 \( p_0(k) \)」と定義します。
- 例:リンゴの深掘り
リンゴに対して「色」「味」「栄養」「思い出」という4つの切り口(\( m=4 \))があるとします。今のあなたが最も「納得感(報酬)」を得られる切り口が「味」であるなら、「味」の固有確率 \( p_0 \) は高く、今の自分にとって無関係な「思い出」の \( p_0 \) は低くなります。重要なのは、思考の主体(エージェント)は、この世界側の正解である \( p_0 \) を直接知ることはできないという点です。
- 推定確率 \( p_1 \):内なる信念(志向性の実体)
-
主体は、実際にその切り口で思考してみた結果(報酬の有無)という経験を通じて、どの選択肢を選ぶべきかを推測するしかありません。この、経験によって培われた「この対象は有益であるはずだ」という主観的な確信度を「推定確率 \( p_1 \)」と呼びます。
具体的には、\( i \) 回目の思考試行において、番号 \( k \) の選択肢を選ぶための推定確率を \( p_1(k, i) \)と表記します。この \( p_1 \) の偏りこそが、本モデルにおける「内的志向性」の発現に相当します。
- 初期状態:白紙の心
-
思考を開始する前(\( i=0 \) 回目)の段階では、主体はどの切り口が有益かについて何の偏見も持っていません。したがって、すべての選択肢は等しく有望に見えるはずです。選択肢が \( m \) 個ある場合、推定確率の初期値は以下のように設定されます。
\[ p_1(k,0) = \frac{1}{m} \]この「一様な分布」の状態は、志向性がまだどこにも向かっていない、未分化な意識の状態を数学的に表現したものです。ここから試行錯誤を繰り返すことで、このフラットな分布がどのように形を変え、特定の対象へと「向かって」いくのかを検証していきます。
- 推定確率の更新:志向の変容
-
主体の内なる信念である推定確率は、得られた報酬という「結果」に基づいて不断に更新されます。
具体的には、\( i \) 回目の試行において、主体が確率 \( p_1(k, i) \) に基づいて特定の選択肢 \( k \) を選択したとします。その直後、世界(固有確率 \( p_0(k) \))から報酬 \( e(i) \) が提示されます。ここで \( e(i) \) は、報酬が得られた場合は 1、得られなかった場合は 0 という二値をとります。
この報酬 \( e(i) \) に基づき、選択された番号 \( k \) の推定確率は、「デルタルール」に基づいた以下の式によって更新されます。
\[ p'_1(k,i+1) = p_1(k,i) + [ e(i) - p_1(k,i) ] \times \Delta p \]ここで \( \Delta p \) は学習率であり、この値が「経験をどれほど重く受け止めるか」を決定します。
この式の核心は \( [ e(i) - p_1(k, i) ] \) という項にあります。これは「実際に得られた報酬」と「事前の期待(推定確率)」の差、すなわち予測誤差を表しています。
- 期待していなかったのに報酬が得られると、\( 1 - p_1 \gt 0 \)となり、確信度は大きく上昇します。
- 期待していたのに報酬が得られなかったら、(\( 0 - p_1 \lt 0 \))となり、確信度は大きく低下します。
一方で、選ばれなかった他の選択肢 \( j \) については、この時点では情報を得ていないため、暫定的に値を据え置きます。
\[ p'_1(j,i+1) = p_1(j,i) \ ( j \ne k ) \]最後に、これらの値の総和を 1 に保ち、常に「確率分布」としての整合性を維持するための正規化処理を行います。
\[ p_1(k,i+1) = \frac{ p'_1(k,i+1) }{ \displaystyle \sum_{j=1}^{m} p'_1(j,i+1) } \]この「選択、評価、更新、正規化」というサイクルを繰り返すことで、主体は自らの内的状態を世界の構造へと適応させていきます。最初はフラットだった \( p_1 \) の分布に凹凸が生まれ、特定の対象へと「向かっていく」プロセス——これこそが、脳内演算が志向性を立ち上げる具体的なメカニズムなのです。
- 「世界」の構造と「主体」の融合
-
ここで、客観的な世界が持つ「固有確率 \( p_0(k) \)」」と、主体が抱く「推定確率 \( p_1(k, i) \)」の関係性をより深く考察してみましょう。
主体は固有確率を直接知ることはできませんが、試行錯誤を重ねることで、どの選択肢を選ぶべきかという確信を「推定確率」という形で形成していきます。学習が適切に進むならば、報酬が得られやすい(固有確率が高い)選択肢ほど、選ばれる頻度(推定確率)も高まっていくはずです。
すなわち、十分な試行(\( i \gg 1 \))を経て学習が収束したとき、両者の間には以下の比例関係が成立することが予想されます。
\[ p_1(k,i) \propto p_0(k) \ (1 \le k \le m ) \]ここで注目すべきは、両者の制約条件の差異です。推定確率 \( p_1 \) はその定義上、全選択肢の合計が \( 1 \) となる確率分布ですが、固有確率 \( p_0 \) は元来、各選択肢が独立に持つ「当たりやすさ」の指標であり、その合計値に制約はありません。
しかし、あえて \( p_0 \) に対しても「合計が \( 1 \) となる正規化」を施してみましょう。この数学的な操作によっても、個々の選択肢の大小関係(=どの台がより当たりやすいかという事実)が変わることはありません。しかし、合計を\( 1 \) に揃えることで、これらの数値には「限られたリソース(意識や時間)をどの比率で配分すべきか」という、主体にとっての行動指針としての意味が付加されます。
このとき、固有確率 \( p_0 \) は「事象の当たりやすさ」という客観的なデータであると同時に、「主体がその対象に対して割り振るべき関心の重み」という、実践的な価値としての側面をも帯びることになります。正規化とは、広大な世界の可能性を、主体の有限なリソースという枠組みに適合させるためのプロセスなのです。
では、この「関心の重み」としての \( p_0 \) とは何を象徴しているのでしょうか。
本モデルにおいて、\( p_0 \) とは外部の物理的現実そのものではなく、過去の膨大な経験に基づいて自己の内部に構築された「仮想世界(内部モデル)」を規定するパラメータであると解釈できます。私たちが思考を巡らせ、ある選択肢を優先的に選ぶとき、それは脳内の仮想世界におけるシミュレーションの結果、その対象が持つ「相対的な有益さ」が重み付けされたことを反映しています。
どのような選択肢(切り口)を持ち、それぞれにどれほどの重要度(\( p_0 \))を置くかは、その個人が歩んできた固有の経験によって決定されます。この「事実に基づき、かつ価値として付加された重み付け」に従って、特定の対象へと意識が向かう。これこそが、本モデルが描き出す「個人の経験に基づいた意志の指向」の実体なのです。
\( p_0 \)の確率分布
本モデルでは、世界(内部モデル)の構造を規定する固有確率 \( p_0(k) \) を、以下の関数によって設定します。
ここで、\( n \) は確率分布の「偏り」を制御する定数であり、主体が直面する状況の性質を象徴しています。\( n \)の値によって、世界の様相は以下のように変化します。
- \( n=1 \) のとき(線形)
- \( p_0 \) は \( k \) の増加に伴って一様に増加します。各選択肢の有用性が等間隔に並んでいる、比較的見通しの良い状態です。
- \( n \gt 1 \) のとき(尖鋭化)
- 分布は「下に凸」の曲線を描きます。特定の選択肢の報酬確率が突出して高い状態を指します。志向すべき対象が極めて明確な環境、あるいは「一つの有力な候補」が他を圧倒している状況を表現しています。
- \( n \lt 1 \) のとき(飽和的)
- 分布は「上に凸」の曲線を描きます。多くの選択肢が、平均よりも高水準かつ似通った報酬確率を持ちます。一方で、\( k \) が小さい選択肢に向かうにつれて、確率は緩やかに、しかし着実に低下していきます。これは、「多くの選択肢が十分に魅力的であるが、その中にわずかな濃淡(優劣)が存在する」という、より繊細な識別が求められる状況に対応します。
また、この関数には数学的に重要な特性があります。以下の積分計算が示す通り、
この分布モデルでは、\( n \) の値が変化しても、分布の形は変わるが、全体の総和(面積)は常に1に保たれるように設計されています。
つまり、ある特定の選択肢が極端に魅力的になれば(\(n\) が大きくなれば)、その分、他の選択肢の魅力は削ぎ落とされます。この「報酬のパイ」を一定に保つという制約を課すことで、シミュレーションの結果得られる「志向性の形成」が、単に報酬の総量が増えたことによるものではなく、あくまで「選択の偏り(構造)」の変化によるものであることを厳密に担保しているのです。
仮想世界の再現
一般的な多腕バンディット問題では、累積報酬を最大化することが最終的な目的とされます。しかし、本シミュレーションが目指すのは、主体が直接知ることのできない内部モデル \( p_0 \) を、どれほど忠実に脳内へと再構築できるかという点にあります。
志向性が「何かに向かう」ものであるとき、それは同時に「他のものには向かわない」という選択を内包しています。私たちが対象の特定の側面に強い関心を抱くのは、単にそれが「一番得だから」という理由だけではありません。他の無数の解釈(側面)と比較し、それらを「今の自分にとっては価値が低い」と正しく位置づけた結果として、相対的に特定の対象が浮かび上がってくるのです。
ここで重要なのは、TV距離の収束(精度の向上)だけが志向性の価値ではないという点です。学習の途上にある、あるいは特定の環境においてTV距離が大きい状態であっても、システムが特定の選択肢に「迷い」や「偏り」を見せている限り、そこには未分化ながらも確かな志向性が宿っています 。精度とは、その志向性がどれほど「洗練」されたかを示す尺度であり、たとえ不完全な内部モデルであっても、何かに意識を向け続ける動的なプロセスそのものが志向性の本質であると言えます。
もし、最も期待値の高い一点のみを追求し、他の選択肢を切り捨ててしまえば、それは「盲目的な執着」や「自動的な反応」に過ぎず、現象学が記述するような豊かな意識体験としての志向性とは乖離してしまいます。
そこで、真の志向性は以下の二つの条件を満たす必要があります。
- 価値のグラデーションの把握
- 「何が重要で、何がそれほど重要でないか」という全体的な価値のコントラスト(背景)があって初めて、意識の焦点(図)は意味を持ちます。分布全体の再現は、この「背景」を構築するプロセスに他なりません。
- 決定論的制約下での「迷い」と「選択」
- 外界の報酬確率は常に変動し得るものです。低い確率の選択肢の価値を正しく「低く見積もる」ことは、将来的な環境変化に備えて探索の余地を残しつつ、現在の関心を一貫させるための高度な適応戦略です。
したがって、低い確率の選択肢を含めた分布 \( p_0 \) を \( p_1 \) が忠実にトレースすることは、主体が世界の構造を「意味の体系」として内面化していることを意味します。この「構造の写し取り」こそが、本稿が定義する内的志向性の真髄であり、単なる利得計算と一線を画する点なのです。
そこで、本稿での評価基準は、獲得された報酬の多寡ではなく、推定確率 \( p_1 \) が固有確率 \( p_0 \) の構造をどれだけ正確に再現できているかに置くのが適切です。
この確率分布間の類似性を定量化するため、本指標として「全変動距離(Total Variation distance)」を採用します。
全変動距離は、二つの確率分布間の相違を測るための代表的な指標です。\( i \) 回目の試行における二つの離散的確率分布
の間の全変動距離(TV距離)は、以下の式で定義されます。
この距離は、二つの分布が完全に一致した場合に 0 となり、乖離が大きくなるほど 1 に近づきます。この値を追跡することで、主体の内的志向性が「世界の構造」へと肉薄していくプロセスの精度を、客観的に評価することが可能となります。
シミュレーション結果
実行条件
本シミュレーションでは、システムが10個の選択肢(\( m=10 \))から試行を繰り返し、得られる報酬(0または1)のフィードバックを通じて、内的な「推定確率 \( p_1 \)」をいかに形成していくかを検証しました。
実験は、学習率 \( \Delta p = 0.02 \)、試行回数10000回の条件下で実施しました。また、結果の信頼性を担保するため、同一条件で200回のシミュレーションを行い、得られた統計データを解釈の基礎としています。
本実験の鍵となるのは、環境の性質(固有確率 \( p_0 \) の形状)を決定するパラメータ \( n \) の変化です。今回は、認知空間における異なる三つの「状況」を想定し、比較を行いました。
- \( n=0.5 \):飽和的な世界(凸型分布)
- 多くの選択肢が高い報酬確率を持ちますが、ごく一部の選択肢のみ、その期待値が緩やかに低下している状況です。いわば「大部分が肯定的な選択肢の中で、相対的に優先度の低いものを微細に選別する」という、繊細な識別が求められる状況を模擬しています。
- \( n=1 \):均質的な世界(線形分布)
- 各選択肢の有用性が等間隔でグラデーション状に並んでいる状況です。最もバランスの取れた、標準的な判断環境を想定しています。
- \( n=8 \):決定的な世界(凹型分布)
- 特定の選択肢のみが圧倒的に高い報酬確率を持ち、他は極めて低い期待値に留まる状況です。「明確な正解が一つ存在する」ような、強い執着や一貫性を誘発しやすい環境を模擬しています。
なお、アルゴリズムの実装詳細については、末尾のpythonのコードをご参照ください。
分布形状と学習性能
パラメータ\( n=0.5, \ 1, \ 8 \)の各条件下において、10000回の試行後に得られた推定確率 \( p_1 \) と、真の分布 \( p_0 \) を比較した結果を以下に示します。
図1 確率分布の比較
いずれの条件下においても、\( p_1 \) は \( p_0 \) の分布形状を概ね捉えており、報酬という断片的な情報から「世界の構造」を再構築することに成功していることがわかります。このプロセスをより厳密に評価するため、学習性能に関する統計値を以下の表にまとめました。
| \( n \) | TV距離 (平均値と標準偏差) |
収束時間 (試行回数) |
|---|---|---|
| \( 0.5 \) | \( 0.1072 ( \pm 0.0249) \) | \( 480 \) |
| \( 1 \) | \( 0.1010 ( \pm 0.0248) \) | \( 1320 \) |
| \( 8 \) | \( 0.0592 ( \pm 0.0175) \) | \( 4134 \) |
データからは、世界の構造(分布の偏り)に応じて、学習の「質」と「速さ」に明確な差異が生じることが見て取れます。
最終的な再現精度については、分布の偏りが大きいほどTV距離が小さくなる(=精度が高まる)傾向が確認されました。特に \( n=8 \) の条件下では、\( TV=0.0595 \) という最高精度を達成しています。これは、極めて高い報酬確率を持つ特定の選択肢(\( k=10 \) など)に試行が集中することで、その地点の推定が徹底的に洗練されるためです。同時に、他の選択肢は報酬確率が極めて低いため、推定値が0に近傍しやすく、絶対的な誤差が抑制されることも寄与しています。
一方で、収束速度については最終精度と逆の相関が見られました。最も均等な分布に近い \( n=0.5 \) では、わずか 480 試行で収束を見せたのに対し、極端に偏った \( n=8 \) では 4134 試行と、約8倍の時間を要しています。
この要因は、強化学習における「探索」の性質に求められます。特定の選択肢が圧倒的に有利な環境下では、主体がその一点に「執着(利用)」しやすくなります。しかし、本稿が定義する志向性は「分布全体の再現」であるため、有利な選択肢の陰に隠れた低確率な選択肢に対しても、十分なサンプル(試行)を割いてその「低さ」を正確に評価しなければなりません。この「見向きもされない選択肢」の正体を見極めるプロセスが、結果として収束時間を大幅に増大させたのだと推測されます。
環境変化への適応性
知性の本質は、一度形成された志向性を、環境の変化に応じていかに柔軟に再編できるかにあります。本シミュレーションの最終段階として、環境の劇的な反転に対する適応能力を検証しました。
具体的には、10,000試行を経て学習が収束した直後、報酬確率が最小の選択肢(\( k=1 \))と最大の選択肢(\( k=10 \))の確率を突如として入れ替え、さらに 10,000 試行を継続しました。これは、主体にとっての「最も価値ある対象」と「最も価値の低い対象」が入れ替わるという、極めて過酷な環境変化を意味します。
以下の表2は、この「価値の逆転」に際して、推定精度(TV距離)がどのように推移したかをまとめたものです。
以下の表2は、入れ替え直前のTV距離(\( \text{TV}_\text{before} \))、入れ替え直後のTV距離(\( \text{TV}_\text{swapped} \))、最終のTV距離(\( \text{TV}_\text{final} \))をまとめたものです。
表2
| \(n\) | \( \text{TV}_\text{before} \) (反転直前) |
\( \text{TV}_\text{swapped} \) (反転直後) |
\( \text{TV}_\text{final} \) (最終到達) |
|---|---|---|---|
| 0.5 | 0.1116 | 0.2040 | 0.1109 |
| 1 | 0.1030 | 0.2652 | 0.1027 |
| 8 | 0.0603 | 0.6575 | 0.0589 |
すべての条件下において、システムは環境の激変を乗り越え、再び高い精度で世界の構造を再構築することに成功しました。ここから二つの重要な知見が得られます。
\( n=8 \) の条件下では、反転直後の \( \text{TV}_\text{swapped} \) が 0.6575 という極めて高い値を示しました。これは、特定の対象に強い志向性(高い \( p_1 \))を向けていた分、その対象が「無価値」に転じた際の認知的な乖離が非常に大きかったことを示しています。いわば、強固な信念を持っていた知性ほど、現実とのギャップに大きな衝撃を受ける様子が、数学的に再現されたと言えるでしょう。
特筆すべきは、すべての条件において、最終的な精度(\( \text{TV}_\text{final} \))が環境変化前(\( \text{TV}_\text{before} \))を上回っている(距離が小さくなっている)点です。これは、合計 20,000 試行という長期間の累積経験が、単なるリセットではなく、推定の「精度そのもの」をさらに研ぎ澄ませたことを示唆しています。
志向性とは、一度決まったら動かない「標的」ではなく、過去の記憶を糧にしながら、常に現在進行形で更新され続ける「プロセスの軌跡」に他なりません。本モデルは、外的・内的な環境変化を統合しながら、主体が常に「より適切な方向」へと意識を向け直す適応のダイナミズムを、見事に描き出しています。
確率的因果律
確率によって記述される世界
本稿で提示したモデルは、ある事象から導かれる結果が「確定的」ではなく、常に「確率的」に記述される世界を前提としています。このような動的な因果の系を、本稿では「確率的因果律(Stochastic Causality)」と定義します。
これは、システムが確率的な環境との不断の相互作用を通じて、環境が内包する統計的構造を「内部モデル」として自己の内に再構成していくプロセスそのものを指します。
今回のシミュレーションの結果、この確率的因果律に支配されるシステムには、知性の基盤とも呼べる以下の三つの本質的な特性が備わっていることが明らかになりました。
- 環境非依存性(Robustness)
- 線形、あるいは極端に偏った分布など、質的に異なる環境構造に対しても、同一のアルゴリズムで普遍的に機能します。個別の状況に応じた煩雑なパラメータ調整を必要とせず、未知の環境に対しても自己組織的に対応できる頑健性を示しています。
- 高精度の自己写像(Self-Reflexive Performance)
- 学習によって獲得された内部モデルが、そのまま行動の選択バイアス(推定確率 \( p_1 \))へと直結します。世界を理解することと、それに基づいて行動することに乖離がなく、学習成果がシステムの「志向性」として完全に統合・反映される高い性能を有しています。
- 適応的可塑性(Adaptive Plasticity)
- 環境の劇的な変化(価値の逆転)に直面しても、過去の経験を破棄するのではなく、それを新たな文脈での糧として再統合します。結果として、変化前と同等、あるいはそれ以上の精度で世界を再認識する「回復力」と「深化」を同時に実現しています。
2層の仮想世界構造
本モデルにおける \( p_0 \) と \( p_1 \) の関係を読み解くには、極めて慎重な存在論的考察が求められます。
まず、固有確率 \( p_0 \) は「物理的現実そのもの」ではないという点に注意しなければなりません。物理的な実体としては、そこにはただニューロンの電気信号や環境との化学的相互作用があるだけです。それを「10個の選択肢」という離散的な事象空間に切り出し、「確率」という数学的枠組みで意味付けた時点で、それはすでに脳による解釈を経た「第1層の仮想世界」なのです。
主体はこの \( p_0 \) にすら直接アクセスすることはできず、サンプリング(報酬の観測)という窓を通じてのみ、間接的にその姿を窺い知ることができます。そして、得られた断片的な観測結果を統合し、内的な信念として「第2層の仮想世界 \( p_1 \)」を構築します。この重層的な構造は、以下のように図式化できます。
-
物理的現実(最下層:直接アクセス不可能なヌーメノン(物自体))
- ↓ 知覚・概念化による分節
-
第1層仮想世界(\( p_0 \)):システムにとっての「外界」)
- 特定の選択肢と確率分布として解釈された世界の構造。
- ↓ 試行錯誤・学習(サンプリング)
-
第2層仮想世界(\( p_1 \)):システムにとっての「内部モデル」)
- \( p_0 \) を写し取ろうとする内的な信念(志向性の実体)。
- ↓ 行動の出力
- 行動生成
この解釈において、内的志向性とは「第2層が第1層を表象する関係」に他なりません。\( p_1 \) は \( p_0 \) 「についての」信念であり、両者の距離(TV距離)は、主観が客観(としての第1層)をどれほど正確に捉えているかという「乖離の度合い」を定量化するものとなります。
ここで決定的に重要なのは、\( p_0 \) 自体もまた構成的な産物であるという視点です。事象を「離散的な選択肢の集合」として切り出し、そこに「確率」という概念を投影すること自体が、知性による高度な解釈の結果です。
したがって、本モデルが描出しているのは、仮想世界の中にさらなる仮想世界を積み上げていく「メタ表象(Meta-representation)」のプロセスです。これは、脳が現実をシミュレーションとして構築するという「仮想世界創生」の枠組みと完全に整合しており、内的志向性が「単なる反応」ではなく「高度な認識の運動」であることを示唆しています。
予測符号化理論の拡張
「確率的因果律」に基づく本モデルは、現代脳科学の有力なパラダイムである予測符号化理論(Predictive Coding Theory)と、その設計思想の根底を共有しています。
本モデルにおけるデルタルールによる更新プロセスは、本質的に「予測誤差の最小化」そのものです。また、TV距離の減少は、予測精度の向上――すなわち、第2層の仮想世界(\( p_1 \))が第1層(\( p_0 \))へと漸近し、世界を正しく写し取っていく過程を数理的に表しています。
しかし、本モデルは、標準的な予測符号化モデル(カール・フリストンの「自由エネルギー原理」や、ラオ&バラードの視覚モデルなど)とは、実装において決定的な一線を画しています。既存モデルの多くが連続値信号とガウス分布を仮定し、階層的な変分ベイズ推論を用いるのに対し、本モデルは「離散確率分布」を直接学習し、シンプルな正規化によって行動を生成します。
この差異は単なる技術的選択ではなく、モデルが対象とする「領域」の質的な違いを反映したものです。
離散確率分布の表現力
標準的な予測符号化モデルが主に知覚レベル(画像、音声などの物理信号)を対象とするのに対し、本モデルが採用する離散確率分布は、「質的に異なる選択肢からなる世界」の表現に特化しています。
知覚信号に適したガウス分布は、平均と分散という2つのパラメータで規定され、単峰性や連続性を前提とします。しかし、この前提は高次な意思決定や概念的思考を扱う際、本質的な限界となります。
例えば、レストラン選び、職業の選択、あるいは問題解決の戦略を練る際、それらの選択肢は連続的な軸上に並んでいるわけではありません。「和食」「洋食」「中華」といったカテゴリの間には、本来、数学的な順序も距離も存在しません。各選択肢は独立した「質」として保持され、その相対的な選好(選びたさ)のみが確率として表現されれば十分なのです。
旅行先の志向性として、パリ(0.5)、京都(0.2)、ニューヨーク(0.1)……という選好分布があるとき、これらは純粋な「志向の重み」です。ここに地理的距離や文化的類似性の「順序」を無理に仮定する必要はありません。ガウス分布では、このような多峰的で非対称な選好を表現しようとすると、カテゴリ同士の質的な独立性が失われ、「パリの次は必ず京都に近い」といった不自然な制約が生じてしまいます。
この離散的表現の広さは、内的志向性が持つ多様な側面を鮮やかに捉える可能性を示唆しています。
- 意思決定:質的に異なる選択肢への確率的な傾倒。
- 概念的推論:相反する複数の仮説や解釈の並行保持。
- 言語的思考:次に来るべき単語やフレーズの候補分布。
- 創造的発想:既存の枠組みを超えた、多様なアイデアへの探索的志向。
- 社会的認知:他者の心的状態に関する、複数のシナリオのシミュレーション。
離散確率分布は、これら高次認知過程における「何かについて考える」という志向性の、最も基礎的なメカニズムを提供します。
標準的な予測符号化が「知覚・運動」という身体的な基盤を司るのに対し、この離散確率版は「概念的・象徴的思考」という精神的な高層建築へと適用範囲を拡張します。両者を統合することで、知覚から概念までをシームレスにつなぐ、より完全な「心の地図」が描き出されることになるでしょう。
そして志向性へ
本稿は、「確率的因果律」――すなわち、経験を通じて世界の統計的構造を内部に再構成するプロセス――の数理モデルを提示し、多腕バンディット問題を用いたシミュレーションによってその妥当性を実証しました。
離散確率分布学習というアプローチを採用することで、以下の3つの重要な知性的特性が、極めてシンプルなアルゴリズムから自律的に立ち現れることが示されました。
- 環境非依存な汎用性
- あらゆる確率分布の形状に対応する柔軟性。
- 高精度の自己写像形成
- 内部モデルが行動(志向性)へとダイレクトに反映される一貫性。
- 適応的可塑性
- 環境の変化を乗り越え、理解をさらに深化させる回復力。
この枠組みは、現代脳科学の主流である予測符号化理論を「離散確率」という新たな次元で解釈し直したものです。これにより、従来のモデルが扱ってきた「知覚」の次元を超え、より抽象的でカテゴリカルな「概念的思考」のレベルへと理論を拡張することが可能となりました。
ここで提示した \( p_0 \) と \( p_1 \) による「2層の仮想世界構造」は、内的志向性の基盤メカニズム――外界についての内部表象を構築し、それに基づいて意識を差し向けるという営み――を、TV距離という指標を用いて定量的に記述する道を開いたと言えるでしょう。
ただし、TV距離の最小化は志向性の「完成」を意味するものではありません。現実の意識においては、あえて正解から逸脱した解釈や、不完全な確信に基づいて対象を凝視することもしばしば起こり得ます。本モデルにおけるTV距離の推移は、主観的な「信念」が客観的な「世界の構造(第1層)」といかに葛藤し、肉薄していくかというダイナミズムを可視化するものであり、そのすべての過程(たとえ誤差が大きい状態であっても)が、志向性の豊かな現れとして肯定されるべきなのです。
もちろん、本モデルは内的志向性の全貌を解き明かしたわけではありません。今回はあくまで志向性の「深化(深掘り)」という側面に焦点を当てたものであり、その前提となる「何に注目するか」という注意の選択(Attention Selection)のメカニズムについては、別稿にて詳細な議論を譲ります。
しかしながら、本モデルは「世界を理解し、そこへ向かう」という認知の根本的な営みを、極めてシンプルかつ検証可能な形で定式化しました。確率的因果律という概念は、冷徹な決定論的世界観と矛盾することなく、むしろその内部から主体の能動性と創発性がいかにして生まれるのかを説明する、強力な可能性を秘めているのです。
補足
pythonコード
ご意見、ご感想などはこちらへ

連絡先・お問い合わせ
.