字幕は、実際の声の出だしより0.1~0.2秒早く表示開始するのが良い。 カラオケの色変化は、歌より0.2~0.3秒早めに進行するのが良い。
きちんと同期させず「ずらす」ことで、かえって快適になるのはなぜか。 ずらす量が一般の字幕とカラオケで異なっているのはなぜか。 「0.2~0.3秒」のように幅があるのは、状況によって加減することを意味するが、 「状況」とは具体的にどのようなことか。
字幕作成では、基本的には音声の立ち上がり・立ち下がりと字幕のオン・オフを同期させるわけだが、
実際には、字幕と音声のタイミングを少しずらす方が良い。
もちろん、でたらめにずらして良いのでなく、うまくずらす。
ジャズでいうスイングに似ている。
スイングとは、即物的に言うと、本来のリズムより4分の1拍くらい早く音を鳴らし始めること、
前の小節の拍の裏などから、長い音符にタイをかけることだ(伝統和声学では「
字幕のスタートが音声より少し早めがいいことは基本的で、タイミング入門でも取り上げている。 それは実際に字幕をいじればすぐ実感できる。 しかし、なぜ早めで良いのだろうか。
観客が、せりふの開始(人物がしゃべり始めること)と同時に字幕の表示開始を見た場合、 何が起きるだろうか。
(1) 音声については「理解できない外国語」として、言語として解析しようとはしていない。 たまたま聞き取れる単語があるかもしれないが、特別、意識して聞いてはいない。 声の種類や調子だけ聞き流す。たいして頭を使うことはない。
(2) 字幕については、それが目に入った後、文字を読んで、言語として理解し、 文脈に照らして発話の意図を考える、といったかなり複雑な作業を行っている。
明らかに (1) より (2) の方が頭を使い、処理時間がかかる。 (1) は単に音が耳に入ってくるというだけだが、 (2) は文字認識・言語処理だからだ。 だから (1) と (2) を同時に開始すると、処理完了するのは (1) が先で (2) が遅れる。 「理解できない外国語が耳に入ってきたが、まだ字幕は理解できていない」ことになる。 この状態は潜在的にストレスとなり、観客を不安にする。
そうならないために、字幕が少し早めに出た方が良い。 声が始まる0.2秒ほど前に字幕が出れば、文字認識・言語解析が終わったちょうどそのころ、 音声がスタートし、あたかもその外国語の意味が分かっているような安心した気持ちになれるだろう。 ずらした方が快適に感じる理由はそこにあり、 100~200msという時間の正体は、(1) と (2) の処理時間差と考えられる。
ストーリーに没入している観客は、 心のなかでせりふを音声化している。 「オリジナル言語の声で、字幕言語の台詞を読んだらどうなるか」という脳内アフレコを行っている。 アフレコすべき「せりふ」を認識するより前に声が既に始まっていたら脳内アフレコがやりづらい。
カラオケ字幕については、 色変化を目で見て楽しむカラオケもどき(アイキャンディー)と、 実際に歌うための実用カラオケでアプローチが違う。
アイキャンディーでは、人間は、視覚で色変化を認識しつつ、聴覚で歌の進行を認識する。 単にそれだけで、事実上、多少ずれていようがいまいが、どうでもいい。
実用カラオケでは「色変化」を素早く認識し、 それに合わせて文字を読み上げ、正しい音程とリズムで声を出す、という複雑な動作が行われる。 アイキャンディーでは歌う必要がないのだから、文字をちゃんと読む必要すらないが、 歌う場合、色変化を認識したときには既に歌がそこに達しているのでは、声を出すのが間に合わない。 よって、実際の音声の立ち上がりより字幕の色変化が「前のめり」に先行する文字ごとのスイングが必要になる。 実用カラオケで、色変化は実際に歌っている場所より、約200~300ms先行する。 視覚刺激をキューに発声を行うのに必要な、人間の反応時間のディレイ(プラス多少の余裕)に相当する。
一般の字幕の行タイミングのスイング幅と、 カラオケの文字ごとのスイング幅で、適量に差があるのは、 「色変化刺激を引き金に、文字を読んで、声を出す」というカラオケ動作より、 単に聞こえている音の意味を黙読で理解すればいい一般字幕の方が、処理が速いからだ。
カラオケの場合、文字ごとのスイング幅とは別に、 行タイミングのスイング(リードイン)がある。 概念的には一応区別するが、実際には、行頭トークン(事実上、すべての「まとも」なカラオケではヌルトークン)のスイングが行全体のスイングに含まれることに注意。行スイングは行頭のヌルトークンのスイングとして実装される、 と言い換えても良い。(詳しくは、カラオケ字幕の基礎)
カラオケの行リードイン(=行頭スイング)は、 文字ごとのスイング幅以上であることが望ましい。 行が変わったとたんにもう色変化しているのでは歌詞を読む暇がなく、 まして歌えないからだ。 たいていの人は、歌う準備をしながら同時に行全体に目を走らせるので、 リードインは文字ごとのスイング幅より必ずしも大である必要はなく、イコールでも良い。 しかし、リードインが文字ごとのスイング幅未満では、結局、その行の出だしの部分のスイング幅が圧縮されてしまうことになり、 歌いにくい。よって、実用カラオケでは、リードインは、最低でも約200ms、できれば500ms程度が望ましい。 実際に歌うわけではないアイキャンディーでは、より短い100ms程度のリードインでも良い。
以上のように、人間は、黙読にせよ、歌うにせよ、 音声に対して、字幕を先読みする。 声のせりふが終わらないうちに、字幕は最後まで読み終えていることは、珍しくない。
そのため、字幕のスタートタイムは音声の立ち上がりより早くて良い一方、 字幕のエンドタイムは、音声の立ち下がりより早くても、あまり気にならない。 既に読み終わっているものが消えても、別に困らないからだ。
大原則としては、音声が終わるのと同時に字幕を消す。 しかし、この原則にはプラスとマイナス両方向の考慮事項がある。
プラスのディレイ: たまたまよそ見していたり、まばたきをしたりしていて、 字幕の開始を見逃すことがあるから、 その意味では、少し遅れて読み始めても最後まで字幕を読めるように、 エンドタイムはゆっくりの方が良い。 これはプラスのディレイを意味する(声が終わってもすぐ字幕は消えずちょっと待つ)。
マイナスのディレイ(行末圧縮): 実際には、 エンドタイムをルーズにすると、映像タイミングとの矛盾が生じやすい。 人物の口は既に閉じているのに、いつまでも字幕が残っているのは、 必ずしも理想的とは言えない。 スタートにスイング感があるのに、エンドがあまりぐずつくのは、字幕全体のリズムを悪くする。 特に、せりふが何行かに分かれて字幕が切り替わるとき、 スタートがスイングすることと、前の行のエンドがディレイすることとは、両立しない。
実際、フレームタイミング(特にシーンチェンジ)との関連で必要なら、 エンドタイムは約200msまでは安全に前倒しできる。 200~400msは必ずしも望ましくないが、可能である(中級編参照)。 必要ないのに無意味にエンドタイムを早めてはいけないが、 エンドタイムの頃には実際にはもうほとんど誰も字幕を読んでいないという事実を認識することは、 重要だ。
エンドタイムを前倒ししても、スタートタイムがスイングしているのだから、 字幕の表示時間はトータルでは整合がとれている。もし、エンドを前倒しすることで表示時間が短くなり過ぎるようなら、 スタートのスイングを増加させれば良い。(目安として、最短でも800msは表示する。)
行末タイミングの圧縮とは、基本的には、字幕のエンドタイムを音声の立ち下がりより早くすることだ。 もちろん必要ないのに、やってはいけない。 一方、カラオケでは「行末に近付くと少し色変化を加速すること」を含み、しばしば望ましい。
実用カラオケでは、行末のトークンは実際の音符の長さに合わせてゆっくり色変化する必要なく、 音の頭の位置だけ教えたら、もう役目は終わっている。 そこでのろのろするより、行末まで来たら、さっさと次の行の歌い出しを教えるべきだ。 行末付近、特に、最後の空でないトークンの持続時間を短縮できる。 アイキャンディーの場合でもそうした方が良い。 行が変わったとたんに色変化するのは慌ただしく、「アイキャンディー」としての優雅さに欠ける。
この項ではマイナスのディレイは「字幕が音声イベントより先行」することを、 プラスのディレイはその逆を意味する。
注意: カラオケでは「もうすぐ色変化する」ことを示す何らかのエフェクトがある場合、 それ自体が一種のスイングなので、色変化のスイング幅を小さくとることができる可能性がある。 例えば、カラオケトークンがZ方向に上下するエフェクトで、 「色変化の少し前(アクティブになる少し前)に文字が上昇する」場合(色変化の「予兆」がある場合)と、 「アクティブになったとき文字が上昇する(上昇が始まるのと色変化が始まるのが同時)」とでは、 色変化のスイング幅に対する感じ方が異なる。
例えば200~300msと言うのは、状況によって200だったり250だったり300だったりするということだが、 「状況」とはどんな要素か。
カラオケ字幕は本来、初見またはそれに近い(歌詞に慣れていない)人を対象とするものであり、 歌を完全に覚えているなら字幕を見る必要はなく、字幕は必要ない。 ということは、歌を覚えているカラオケアーは、カラオケ字幕を本来のあるべき視点で眺められない。
「自分は熟練したカラオケアーだから自分の感覚の方が正しい」と思わないこと。 確かにカラオケアーは42msを当たり前に見切るが、素人は0.2秒くらいずれていても気付かない。 しかし、熟練したカラオケアーの感じ方は、一般の人と異なっているという意味で、間違っている。 「素人の目にはこれがどう見えているのか」を理解できてこそ真の「プロ」だ。
カラオケアーは、カラオケ字幕があると、映像も歌詞も無視して、カラオケ効果だけに全神経を研ぎ澄ますという悲しいさがあるが、 これは明らかに一般人の視点とずれている。
同様に、一般の字幕でも、オリジナル音声がまったく理解できない人がどういうふうに字幕を見ているのか、 それを考える必要がある。
機会があるごとに、いろいろな人(特に字幕の技術的なことを知らない人)にコメントを求めよう。 返ってきた感想が自分の感覚とずれているときには、「素人だから分からないのだ」と無視したり、 腹を立てたりせず、なぜ相手はそう感じたのか掘り下げて考えてみることが大切だ。 確かに個人の感覚の違いもあるが、基本的には「見ていて気になる」ことを避け、 字幕の流れが変に意識されないということが最も良い。