存在仮定による情報の圧縮

2025/08/23

column

私たちの脳が世界を認識する際、無意識のうちに「そこに何かがある」と仮定していることは、別の記事で「存在を仮定するOS」として考察しました。この仮説を情報学の観点から検証すると、興味深い事実が浮かび上がります。「存在を仮定する」という認知プロセスは、実は驚異的な情報圧縮技術として機能しているのです。

もし私たちが世界をありのままに記録しようとすれば、すべてのピクセル、すべての瞬間を個別に保存する必要があります。しかし「そこに物体がある」と一度仮定すれば、その物体の属性(位置、形状、動き)だけを記録すれば済むようになります。これは単なる効率化ではなく、認知そのものの本質に関わる根本的なメカニズムかもしれません。

情報爆発の現実

まず、存在を仮定しない世界がどれほど情報量を要求するかを見てみましょう。縦 \(2^n\)、横 \(2^n\) の白黒ピクセルからなる画面で、時間が \(2^n\) ステップ進む世界を想定します。各ピクセルは白(0)か黒(1)の2つの状態を取るため、この世界全体を記録するには \(2^n \times 2^n \times 2^n = 2^{3n}\) ビットが必要です。

具体的に \(n = 8\) の場合を考えてみましょう。これは \(256 \times 256\) ピクセルの画面が256フレーム変化する、ごく普通の動画と同程度です。必要な情報量は \(2^{24} = 16,777,216\) ビット、約2.1MB(補足参照)になります。現代のスマートフォンで撮影する数秒の動画でさえ、膨大な情報量を要求することがわかります。

これが「何も仮定しない世界」の現実です。すべてのピクセルの変化を個別に記録するため、情報量は文字通り爆発的に増大します。

「存在仮定」による情報の圧縮

ここで、同じ「1つの正方形が移動している」という現象でも、それをどう捉えるかで必要な情報量が劇的に変わることを示しましょう。存在を仮定せずに記録するなら、やはり全ピクセルの変化として約2.1MBが必要です。しかし「そこに正方形という物体が存在し、それが移動している」と仮定した途端、状況は一変します。もはやすべてのピクセルを記録する必要はありません。必要なのは、その正方形の存在と属性、そして動きに関する情報だけです。

具体的には、初期位置の x座標と y座標(それぞれ \(2^n\) 通りなので各 \(n\) ビット)、正方形の一辺の長さ(\(2^n\) 通りなので \(n\) ビット)の合計 \(3n\) ビットで初期状態を記述できます。

動きの記録はさらに効率的です。物体は瞬間移動せず隣接位置にのみ移動するため、各時間ステップで「上・下・左・右・静止」の5通りの選択肢があります。\(2^n\) ステップの動きを記録するには \(\log_2(5^{2^n}) = 2^n \log_2 5\) ビットが必要です。ここで \(\log_2 5 \approx 2.32\) なので、\(n = 8\) の場合は約 \(256 \times 2.32 = 594\) ビットとなります。

初期状態の \(3 \times 8 = 24\) ビットと合わせて、総計約\( 594 + 24 = 618 \)ビット、すなわち77バイト(補足参照)で同じ世界を表現できるのです。

驚異的な圧縮率

圧縮効果を数値で確認してみましょう。圧縮率 \(R(n)\) は次式で表されます。

\[R(n) = \frac{2^{3n}}{3n + 2^n \log_2 5}\]

\(n = 8\) の場合、圧縮率は

\[ \displaystyle \frac{16,777,216}{618} \approx 27,150\]

となります。つまり、データが約\( \displaystyle \frac{1}{27000} \)に圧縮されたのです。これは現在最高性能の動画圧縮技術をはるかに上回る効率です。

脳における「存在仮定OS」

この数学的分析は、人間の認知プロセスについて重要な示唆を与えます。私たちの脳は、膨大な感覚データに対して「存在」を仮定することで、この世界と同様の劇的な情報圧縮を実現している可能性があります。

人間の視覚システムを例に、この「存在仮定」がどれほどの情報圧縮をもたらしているかを具体的に試算してみましょう。

人間の網膜には約1億(\(10^8\))の視細胞が存在します。そこで、具体的に、一辺が\(2^{13} = 8192\)画素の正方形なので約6700万画素(\((2^{13})^2=2^{26}=67108864\))の画像で考えてみます。フレーム数は同じく\(2^{13} = 8192\)です。人間の視覚の時間分解能がおよそ数十Hz程度(1秒間に数十枚の画像を認識)なので80~800秒、大雑把に言えば10分程度の画像データです。

また、人間の視覚は一般的に約1000万色を識別できると言われています。より正確には、標準的なRGB表現(各色8ビット)では \(2^{24} = 16,777,216\)色が表現可能で、これは人間の識別能力をほぼカバーしています。

24ビットカラー表現を考慮した圧縮率の式は

\[R(n) = \frac{24 \times 2^{3n}}{3n + 24 + 2^n \log_2 5}\]

\(n\)が十分に大きい(\(n > 10\))場合、 \(3n+24\) ビットは \(2^n \log_2 5\) ビットに比べて無視できるようになります。

この場合、圧縮率は

\[R(n) \approx \displaystyle \frac{24 \times 2^{3n}}{2^n \log_2 5} = \frac{24 \times 2^{2n}}{\log_2 5} \approx 10.3 \times 2^{2n}\]

と近似できます。この式に人間の視覚システムの例(\(n=13\))をあてはめると、

\[10.3 \times 2^{2 \times 13}=691,221,299.2\]

つまり、「存在仮定」というOSを導入するだけで、生データをそのまま扱う場合に比べて、情報の記述量を一気に 6億9000万分の1 にまで削減できる可能性があるということです。ただし、これは画像の中に単色の正方形が1個しかない条件下での試算です。現実はこのように単純ではないので、圧縮率はこれほどではないかもしれません。しかし、この結果は、なぜ複雑な世界を生きる私たちにとって「存在仮定OS」が不可欠なのかを明確に示しています。

人間の脳が本当にこのレベルの情報圧縮を実現しているとすれば、約10分の視覚体験(1.65TB相当)を、わずか2.3KB程度の「意味のある表現」に変換していることになります。

これは単なる効率化ではなく、認知そのものの本質的メカニズムである可能性を示唆しています。



補足

ビットとバイトの変換

8ビットが、コンピュータの最小単位である1バイトです。存在を仮定しない場合に要求される情報量は16,777,216ビットなので、

\(16,777,216 \div 8 =2,097,152 \) バイト
\( 2,097,152 \div 1,000,000 \approx 2.09 \) MB

となります。一方で、存在を仮定すると約618ビットですから、

\( 618 \div 8 = 77.25 \) バイト

となり、劇的に情報量が減ります。


image

ご意見、ご感想などはこちらへ

連絡先・お問い合わせ

連絡先・お問い合わせ

.

QooQ