認知の窓という制約

2026/01/04

私たちは今、目に入るありとあらゆる物を「見て」いるのでしょうか。

実際には、この瞬間にも数百万の視覚情報が網膜に届いているにもかかわらず、私たちが意識的に認識しているのは、ごく一部の対象だけです。なぜ特定の対象だけに注意が向き、それ以外は「背景」として消えてしまうのでしょうか。

哲学では、この「何かについての」という意識の性質を「志向性」と呼びます。これまで問題とされてきたのは、「なぜ私たちは特定の対象を選ぶのか」でした。しかし前稿(「選んでいるという錯覚の正体」)で論じたように、実際には私たちは「選んでいる」のではなく、「選べない」のです。認知の窓があまりにも狭すぎて、ごく一部の対象しか処理できないのです。

「選んでいる」という錯覚の正体

「選んでいる」という錯覚の正体

私たちは、自らの意志で世界を見渡し、目的を持って歩んでいると...

本稿では、この「認知の窓」の物理的制約が、どのように志向性という現象を生み出すのかを、視覚を題材に明らかにします。

意識は「事後報告」

本論に入る前に、決定的に重要な前提を明示しておく必要があります。

私たちが体験する視覚世界は、脳内演算の結果報告であり、外部環境そのものではありません。別稿で論じたリベットの実験が示すように、脳は私たちが「見よう」と意識する前に、既に視覚情報の処理を完了しています。意識は行動の司令塔ではなく、既に完了した処理の報告を受け取る「広報担当」なのです。

「自由意志」は幻想か?

「自由意志」は幻想か?

私たちは、朝どの服を着るか、ランチに何を選ぶか、どのキャリアを...

したがって、本稿で行うのは、意識に現れる視覚体験の様子から、その背後で脳がどのような演算処理を行っているかを演繹的に推論することです。視覚体験から志向性が生まれるのではなく、脳の演算処理の制約が、結果として志向性という現象を生み出しているのです。

また、本稿で示す数値はすべてオーダーの推定です。重要なのは厳密な値ではなく、「数百なのか、数十なのか、それとも数個なのか」という桁のオーダーです。現段階の仮説では、細かい数値の特定は意味を持たず、むしろ全体像の把握が重要です。

志向性について

前稿では、大腸菌の化学走性シミュレーションを通じて、志向性が「過去の記憶」と「計算資源の制約」から創発しうることを示しました。このシミュレーションでは、100×100の2次元空間(10,000状態)での最適解探索を扱いました。

エージェントは、直前だけでなく、ある程度の時間幅を持った過去の報酬変化を参照して行動を決定しました。記憶の時間幅が短すぎても長すぎても効率的な探索はできず、中程度の時間幅が最適でした。

「志向性」を生み出すには

「志向性」を生み出すには

前回までの記事で、以下の2点を確認しました。...

この結果が示唆するのは、志向性とは主体の「選択」ではなく、限られた計算資源の中で過去の情報をどう利用するかという物理的制約の必然的な帰結だということです。

志向性は記憶の関数か

志向性は記憶の関数か

私たちは、自らの意志で何かを選び、目標に...

本稿では、この抽象的な原理が、視覚という具体的な認知プロセスにおいてどのように現れるのかを明らかにします。

「認知の窓」

「認知の窓」とは、外部環境を自己にとって意味のある情報に変換するための入力インターフェースです。演算に必要な情報を外部から取り込む入り口、と言い換えてもよいでしょう。

本稿では、この認知の窓を通じて外部環境が「存在」として構成されるプロセスを考察します。ここで「存在」とは、物理的な物体だけでなく、性質、関係、理念など、私たちが認知の対象として扱うあらゆるものを指します。私たちは「リンゴがある」と感じるのと同じように、「美しさがある」「友情がある」「問題がある」と感じます。これらすべてが、脳によって「存在するもの」として構成されているのです。

仮定としての存在

仮定としての存在

誰しも自分の存在を疑う人はいないでしょう。しかし、...

心理学の研究によれば、同時に意識的に保持・操作できる情報のチャンク(意味の塊)は、一般に4〜7個程度とされています。これは「ワーキングメモリの容量」として知られる制約で、例えば、初めて聞いた電話番号を覚えられる桁数がこの範囲に収まることからも実感できるでしょう。

ワーキングメモリがこの程度であることを考えれば、脳が何らかの判断を下す際に同時に考慮しうる異なる独立な現象の数にも限りがあることは想像に難くありません。ここで言う「独立な現象」とは、判断に影響を与える独立した変数(パラメータ)のことです。例えば、捕食者から逃げる際には、「敵との距離」「敵の速度」「自分の体力」「地形の障害物」といった複数の要因を同時に評価して、最適な逃走経路を決定する必要があります。

組み合わせの爆発

脳内で独立に扱える変数の幅がこれほどまで限られているのはなぜでしょうか。それは、変数の数が増えるほど探索空間が指数関数的に増大する「次元の呪い」があるからです。

例えば、捕食者から逃げる場合を考えてみましょう。判断に必要な変数は、敵との距離、敵の速度、敵の方向、自分の体力、地形の障害物、逃げ道の方向、足場の状態、他の敵の有無...と、すぐに10個を超えます。

もしこれらを各10段階で評価しようとすれば、1010(100億)通りの状態空間が生まれます。変数をより高解像度(各100段階)にすれば、わずか7個のパラメータ(7次元)で1007=1014(100兆)のパターンです。

前稿のシミュレーションでは、2次元空間の100×100=10000状態での最適解探索が可能でした。しかし、10次元になると10010通り、つまり(10010÷10000=1016)1京倍の探索空間になります。瞬間的に、生死を分ける判断を下さなければならない状況で、この天文学的な組み合わせをすべて検討することは物理的に不可能です。

脳の物理的制約

脳には約1000億個(1011個)の神経細胞があります。一見すると膨大な計算資源ですが、問題はこれらの活動を統合して意識的な判断に至るプロセスにあります。

低レベルでは、個々の神経細胞が並列に視覚情報を処理しています。しかし、最終的に「これはリンゴだ」「危険だ」という統一された判断を下すには、これらの並列処理を収束させ、階層的に統合する必要があります。この統合過程において、扱える情報は劇的に圧縮されます。

特別な最適化アルゴリズムを実装していない限り、一瞬(数十ミリ秒から長くても数秒程度)で処理できる状態空間は、脳の物理的リソース(細胞数、結合数、処理速度)から考えて、せいぜい脳の細胞数と同程度のオーダーが上限と推定されます。

これまでの検討を総合すると、高速に意思決定を行うためには、同時に扱える独立したパラメータの数を10程度(100でも1000でもなく、10個前後)に制限する必要があると考えられます。これが正確に何個なのかは特定できませんが、「10程度」だとすれば妥当ではないかということです。

視覚情報の処理

途方もない情報量

では、この「窓の狭さ」は、視覚においてどれほど深刻なのでしょうか。

人間の網膜には約1億の視細胞があります。これを高解像度のフルカラー画像と考え、視覚の変化を捉えるフレームレートとして保守的に10〜60Hz程度の頻度で10分間処理するとします。もしすべてのピクセルの変化を個別に記録しようとすれば、必要な情報量はテラバイトのオーダーに達します。これは膨大な情報量です。

しかし、私たちの脳はこの膨大な情報を、ほぼリアルタイムで処理し、意味のある世界として体験しています。どうやって?

物理刺激から「存在」へ

答えの一つは、「存在を仮定するOS」にあります。

存在を仮定するOS

存在を仮定するOS

私たちは日々、ものごとが「そこにある」と感じながら...

脳は、すべてのピクセルを個別に処理するのではなく、焦点の合った領域だけを「物体が存在する」と仮定します。すると、何千というピクセルの配列が、「位置」「形状」「色」といった数個のパラメータに圧縮されます。

前稿の情報学的な試算によれば、理想的な条件下(単純な図形が一つだけ存在する状況)では、存在仮定を導入することで情報量を6億9000万分の1にまで削減できる可能性があります。もちろん、現実の複雑な視覚世界では圧縮率はこれより低くなりますが、それでも桁違いの情報削減が実現されていることは確かです。

存在仮定による情報の圧縮

存在仮定による情報の圧縮

私たちの脳が世界を認識する際、無意識のうちに...

これが、私たちが限られた認知の窓で複雑な世界を生きることができる理由です。しかし、この圧縮には代償があります——画面内のすべてを「存在」に変換することはできないのです。

クオリアによる圧縮

さらに、脳はクオリア(主観的質感)という圧縮フォーマットを使って、情報量を削減します。

私たちは光の波長そのものを見ているのではありません。光の連続的なスペクトラムを、「赤」「青」「緑」といった離散的なカテゴリに変換すれば、情報量は劇的に削減されます。

前稿で論じたように、クオリアは単なるラベルではなく、「評価を含んだ圧縮」——生存に必要な意味を質感という形で凝縮したフォーマット——なのです。「痛み」というクオリアには、既に「これは避けるべきことだ」という評価が込められています。 こうして、連続→離散、評価の付与、という二重の圧縮により、認知(記憶)の働きによって、波長データは「赤」や「青」といった質感へと変換され、意識に現れます。

「選んでいる」という錯覚の正体

「選んでいる」という錯覚の正体

私たちは、自らの意志で世界を見渡し、目的を持って歩んでいると...

ここで重要なのは、この視覚体験の生成が純粋に内部システムによるものだということです。その証拠が、寝ている時に見る「夢」です。夢には外部からの視覚入力は一切ありません。それでも私たちは鮮明な色彩、形、動きを体験します。これが示すのは、視覚体験とは外界の忠実な再現ではなく、脳が記憶を元に内部で構築する「シミュレーション」だということです。

意識の中の”自己”と”他者”

意識の中の”自己”と”他者”

前回の考察では、意識を「意味が生成する場」として捉え、...

このことは、私たちの視覚体験が外界の物理的刺激そのものではなく、脳による解釈・構成であることを示しています。外部刺激は、この内部生成プロセスへの入力の一つに過ぎないのです。通常の覚醒時には、外部環境からの情報を使うことで、より外界に近い精度の高い視覚世界を生成できますが、本質的には、一定以上の記憶の蓄積さえあれば、脳は内部システムだけで視覚体験を作り出すことができるのです。

「存在」への変換

では、この内部生成される視覚体験において、脳はどのように情報を処理しているのでしょうか。

現実の世界では、このレンダリング・エンジンを高速で回し続ける必要があります。

高速な背景生成

単純に波長を色に変換して表示するだけであれば、画素数分の計算で済むため比較的軽量です。脳はまず、第一段階として、視界全体を「色の分布」として高速に処理し、背景イメージを生成します。

この処理速度は、人間の視覚の時間分解能から推測できます。明るい環境での視覚は最大で60Hz程度(約17ミリ秒間隔)まで変化を検出できますが、意識的な認知や統合のレートはもっと低く、研究によれば4〜10Hz程度(100〜250ミリ秒間隔)とされています。この第一段階は、眼球を動かしたとき(サッカード運動)に視界がほぼ瞬時に更新されることからも、数十ミリ秒程度で完了していると考えられます。

この段階では、まだ高レベルの解釈はありません。波長スペクトラムが色のクオリアに変換されるという低レベルの処理が行われているだけで、「それが何であるか」という意味は抽出されていません。

深い意味抽出

しかし、画像そのままでは「意味」を扱えません。そこで脳は、第二段階として、焦点の合ったごく一部の領域だけを、「存在仮定OS」によって「存在」へと変換していると考えられます。

ここで「存在」と呼ぶのは、物理的な物体に限りません。私たちは「リンゴ」という物体だけでなく、「美しさ」という性質、「友情」という関係、「正義」という理念さえも、何らかの「存在するもの」として認知します。形があろうとなかろうと、私たちが認知の対象として扱えるものは、すべて脳によって「存在」として構成されているのです。

「存在仮定OS」とは、感覚データや記憶、抽象概念などを「一つのまとまり」として扱えるように構造化する認知メカニズムだと考えられます。視覚の場合は、何千というピクセルの配列が、例えば「リンゴ」のような単一の存在へと圧縮されます。これが、私たちが注目した瞬間に「厚み」や「実存感」を感じる正体ではないかと考えられます。

「存在」に変換された対象をさらに深く理解し、記憶と照合して「それが何であるか」という深い意味を引き出すには、より長い時間が必要です。私たちが重要なものを「凝視」するのは、この狭い認知のスロットをその対象に占有させ、時間をかけて深い演算を行うためです。

このような二段階の視覚情報認知は、クリストファー・チャブリスとダニエル・シモンズによる「見えないゴリラ」の実験結果とも整合性があります。

一部しか「存在」に変換できない

では、なぜ一部しか「存在」に変換できないのでしょうか。ここが本稿の核心です。

各対象を認識するには、位置、形状、色、動きといった複数の属性を統合する必要があります。これらが構造化されていても、ある程度の処理資源を消費します。

もし独立して扱えるパラメータが10程度なら、同時に「存在」として処理できる対象の数は、数個程度に制限されると推定されます。この推定には多くの仮定が含まれており、実際の数値は状況や対象の複雑さによって変動するものの、「数個程度」とするのが妥当だと思われます。

この計算資源の物理的ボトルネックにより、脳は必然的に以下の戦略を取ると考えられます:

  • 視界全体を低解像度の「背景」として処理(第一段階:低レベルの解釈)
  • 焦点の合った極めて限られた領域だけを「存在」に変換(第二段階:高レベルの解釈)
  • 焦点を高速で移動させ、記憶で補完することで「全体を見ている」感覚を作る

『同時に』多数の対象を見る

ここで、誰もが感じる疑問に答えなければなりません。「でも私は、机の上の本、コップ、ペン、スマホ...多数の対象を『同時に』見ているではないか?」

実際に起きているプロセスは、以下のように推測されます。

高速な焦点移動
眼球は頻繁に焦点を移動させており(サッカード運動)、その頻度は状況により変動しますが、典型的には1秒間に数回程度です。この間に、異なる対象を順次「存在」として処理しています

記憶による補完
一度「存在」として処理された対象は記憶に保存され、視界から消えた後も「そこにある」という感覚が維持されます 背景としての処理:焦点の合っていない周辺視野は、「色の分布」として低解像度で処理されているだけで、「存在」としては処理されていません

認識の階層性
粗い認識(「何か物がある」レベル)は比較的高速に複数対象に対して可能ですが、詳細な認識(「それが何か」の深い理解)は限られた数の対象にしか向けられません

私たちが世界を広く見渡せていると感じるのは、これらのメカニズムが組み合わさった結果です。実際には、この狭い窓を高速で動かし続け、過去の記憶で隙間を埋めているに過ぎません。

この「極めて限られた領域だけが存在として立ち現れる」状態こそが、外から見れば「特定の対象への志向性」として観察されるのです。

認知の窓を「内側」へ解放する

この「リソースの奪い合い」という視点に立つと、瞑想という行為の合理性が浮き彫りになります。

瞑想で目を閉じるのは、脳の処理資源の大きな割合を占める視覚情報の処理を停止させるためだと考えられます。視覚情報は外部から絶え間なく流入する強制的な入力であり、私たちが制御することはできません。この最大の帯域を占有する視覚をシャットダウンすることで、わずか10個程度しかない貴重な「独立パラメータのスロット」を、すべて内部的な感覚や抽象的な思考へと振り向けることが可能になります。

内的感覚は、視覚とは異なり、注意を意図的にコントロールできます。呼吸に集中する、身体の特定部位の感覚に意識を向ける、といった選択が可能です。この制御可能性により、瞑想では外部世界の観察では得られない深い認知が可能になると考えられます。

目を閉じることで初めて、私たちは認知の窓を「外側の存在」から「内側の感覚や思考」へと解放することができるのです。

物理的制約から志向性へ

本稿で明らかになったのは、志向性が生じる具体的なメカニズムです。

視覚情報は膨大です。もしすべてを処理しようとすれば、テラバイトオーダーの情報を扱う必要があります。脳は「存在仮定OS」やクオリアという圧縮技術により、この情報量を劇的に削減しますが、それでもなお、同時に処理できる対象数には物理的な限界があります。

同時に扱える独立したパラメータが10程度に制限されている以上、「存在」として認識できる対象は、数個程度が限界です。それ以外の視覚情報は、低レベルの解釈にとどまる「背景」として処理されるに過ぎません。

この物理的ボトルネックの結果として、私たちの意識には、焦点の合った極めて限られた対象だけが「存在」として立ち現れます。哲学が「志向性」と呼んできた「特定の何かについての」という意識の構造は、実はこの計算資源の制約が生み出す必然的な帰結だったのです。

前稿で論じた「なぜ特定の対象を選ぶのか」という問いに対する答えは、「選んでいるのではなく、物理的に一部しか処理できない」でした。本稿はその答えを、視覚という具体的なプロセスを通じて示しました。脳内の演算処理が既に完了した結果として、意識には限られた数の対象だけが「存在」として報告される。これが志向性の正体です。

認知の窓が狭いことは、欠陥ではなく、限られた計算資源という物理的制約の下での、一つの解決形態だと考えられます。ただし、その代償として、私たちは世界の一部しか「見る」ことができないのです。この不自由なまでに狭い窓こそが、私たちがこのカオスな世界に「意味」を見出すための、唯一の鍵なのです。


image

ご意見、ご感想などはこちらへ

連絡先・お問い合わせ

連絡先・お問い合わせ

.

QooQ