2003年3月2日 —— ネタふり。脳は音がどのくらいの早さで進んで来るか正確に知っている: これは現実世界での実験である。引用すると「実世界において多くの場合、音は眼に見えるものの動きによって生み出されるが、眼に見えるもの(光)と、耳に聞こえるもの(音)とには時間差が生じている。脳は、音の時間遅れを計算に入れて、聞こえた音と見えた光(映像)を統合していることが明らかになった。この視聴覚間情報統合における距離補完の限界が約40メートル近辺であることを明らかにした」
では、仮想的な音源位置がアニメ(ゲーム)空間内部にある場合どうなるだろう。 動画制作の観点から、経験上、字幕は本当の音タイミングより100msほど早く出したほうがぴったりだと感じられる。 字幕は視覚なので事実上、瞬時に目に届いている。ヘッドフォンを使っていれば、音も本当は同時のはずだ。 なぜ100msずらしたほうがいいかについて「文字言語入力の処理は、音声言語入力の処理より遅いのかな?」などと前からふしぎに思っていたのだが、 産業技術総合研究所の上記実験データ(@現実世界)と照合すると、もしかして「脳はアニメの世界を現実に換算して30~40メートルほど向こう」 に認識しているのかもしれない。つまり脳にとって、アニメや映画のキャラたちは30メートルほど先でしゃべっている?
もしこの憶測の通りだとすると、40メートルが補完限界であるということは、仮想的なオーディオ・ビジュアルは、 脳にとって、あたかも「現実空間で処理可能ないちばん遠い地点から発せられているかのごとく」認識されていることになる。 端的に言うと、脳が統合的に認識できる現実空間の「いちばん遠い点」にアニメ空間の座標が張られている(笑)
「アニメ空間と現実空間の距離」の脳内距離空間への射影は補完限界ぎりぎり? 意外に「遠い」ゲーム・アニメの世界 —— というネタを考えてみましたが。 いかがでしょう。あなたの脳にとって、巨大ロボの操縦席にいる若者は何メートル先で叫んでますか……? もし「主人公のこころの声のときは字幕がぴったりで同時に感じられるが、遠方で叫んでるシーンの声は字幕が100ms早くないと同時に感じられない」なんて実験結果が出たらおもしろいですね。
「視聴覚統合」に関するほかの興味深い例。静かな環境で、目をとじて、うとうとしているときなど、天井のきしみなどの「ぴしっ」という鋭い響きが聞こえるのと同時に、まぶたのうらに閃光のようなものが見えるときがある。これも「音がインプットされたことが原因で、視覚刺激が(誤って)発生している」わけだが、 そのような時系列に反して実際には「同時」に感じられる。たぶん、変な音が聞こえたからには何かが動いているに違いないという脳内モーションサーチアルゴリズムが起動され、動き検出のために視覚野をスキャンしているときの信号が(たまたま静かに目を閉じているので)ノイズみたく感じられ、 さらに、「音とほぼ同時にこのノイズが出たのだから両者は関係あるに違いない」という音ズレ自動補正機能(再シンクロ)が働くのだろう……。 このことを単純に言い表すと、いきなり変な音がしてびっくりして目から星が出たのである。
以上のことをべつの角度から言い表すと、脳はある程度まで時間軸を操作して「自分のロジックにとってつごうの良い過去」をでっちあげている。 夢のなかと現実で同時に落下物が頭にぶつかるような場合、「絶対時間」では現実側でものがぶつかったから夢のストーリーが発生したはずだが、 脳にとっては、夢のストーリーの進行速度に合わせて現実を遅らせて認識していることになる。 (あるいは脳自身は現実をわざと遅らせたというログをとっているが、その秘密を「あなたには」教えてくれない。) なにせ脳自身がストーリーの作者なのだから、そのへんは自由自在なのだ。いや……本当にそうなのだろうか。本当に「脳があるから夢がある」のだろうか。 あんがい、夢というものが先にあって、それを脳のドライバーが検出しているのかもしれない。 ふたり同時に同じ夢を見たりすることがあるのを思えば、脳よりも夢のほうが絶対的な現実かもしれないという可能性も否定できないのだ。
2003年3月2日: Media Player Classic 6.4.3.0 - さまざまな改善があるが、 Matroskaのデフォルト字幕フォーマットUSFへの対応が表明されたことに注目したい。 USFをサポートするプレーヤーは、すでに The Core Media Player (TCMP) があるが、VobSub作者である「字幕のグル」Gabest が動いたのは大きい。 ところで、現在のDirectVobSubから例えばカラオケ字幕を動的に生成するのは大変だろうなぁと予測していたが、 TCMP で USF再生を試したところ、何と既存のDirectVobSubよりかえってずっと軽い。 もちろんユニコードなので日本語のサポートも完璧、しかもSRTと違ってフォントの色、サイズそのほかもろもろ指定できる。 字幕をMUXしたい場合、MKV(MCF)/USFは、少なくとも現在のOGM/SRTよりは、格段にすぐれているが、 「すぐれているけどCPU負荷も高いのではないか」と思っていた。それはそうかもしれないが、思ったほど重くないのかもしれない。 Pentium II とか 100MHz が速いと言われていた時代は、そんな昔ではないのだ。 「USFはクロック・ギガのCPUを必要とするから重くて大変」などというのは未来をみすえたフォーマットを策定するにあたって、 どうでもいいことなのかもしれない。というか、850MHz の古いマシンでもカラオケ字幕が完全にソフト再生できたので、 今の DVobSub よりかえって軽い。もっとも、今のTCMPでは、RTL言語がエディタレイヤーのプレゼンテーションになってしまう。 プレフォーマットしてHTMLでいうBIDI強制上書き風に出さない限り、文字位置がずれてしまう。 それにしても、USFでは日本語とアラビア語がすでにふつうに混在でき、何の設定もしないでちゃんとソフト字幕出力されるのだ。 おまけに双方向アルゴリズムが要らない単純なアラビア語文なら、今でも右から左にきちんと出力される。 Windows そのもののAPIを使ってるだけなのだろうが、すでに初期のモジラよりいいぞと。