考察が出ます。外部通信にかかる時間<Scratch側が音声を再生して待ってくれる時間という説を立てました。すなわち、fpsの問題であるという説です。 https://scratch.mit.edu/discuss/topic/750728/?page=157#post-9201164 についてですが、意図的な仕様というよりかは、fpsから必然的に起こりうると考えました。 もし実験で検証するのならば、turbowarpのFPS機能を使って(危険ですが)、例えば60FPSにしても4秒待たされる⇒遅延の正体はサーバーの意図になりますが、それが2秒になるのであればやはりfpsの問題となります。
原作それぞれのセリフを約4秒以上にすれば発声が遅れないを作ったabeeさんに感謝します。