今回の講義において僕は音声合成に一番興味をもちました。前々から興味のあった分野なので、レポートはこれを中心にのべさしてもらいます。音声合成をする際の苦労などを実際の体験談なども引用しながらまとめました。
音声の収録にはこんなにかかる!
音声合成システムはどんな日本語でも音声にしなければなりません。そもそも日本語にはどのくらいの音があるでしょうか。普通「日本語50音」といいます。でもこれには「が」や「ぱ」などの濁音と半濁音、「きゃ」などの拗音が含まれていません。その他に「ファイル」の「ファ」、「ジェット機」の「ジェ」など、外来語を発音するための音も必要です。そういう音をいれると、全部で150〜200音節の音声を用意しなくてはいけません。(この数は正確にきまっていません、システムによって異なります)
さて、次に「青い」と「赤い」という言葉を考えてください。先頭の音はどちらも「あ」ですが、実はその音声波形を比べるとずいぶん違います。「青い」の「あ」の音の後ろの方は、ちょっと「お」の音に近づき、「赤い」の「あ」の音の後ろの方は、次の「か」を発音するための準備をしています。日本語は1音節で色々な波形をもっています。例えば、富士通の合成音声では、全部で約5000個の波形を用意しています。それだけの波形を用意するには、たくさんの音声データが必要になります。この音声データを収録するのに全部で24時間かかったそうです(ずっとしゃべっていると疲れてきますから、毎日少しずつ録音して、その合計時間が24時間)。それに、その音声データの内、どの波形をどういうふうに使うか、人間が音声を聞いたり、波形を目で見たりして決めますが、その作業に3ヶ月かかったそうです。このような大変な作業の結果、品質の高い合成音声ができるようになったそうです。
今回の講義において僕は音声合成に一番興味をもちました。前々から興味のあった分野なので、レポートはこれを中心にのべさしてもらいます。音声合成をする際の苦労などを実際の体験談なども引用しながらまとめました。
音声の収録にはこんなにかかる! 音声合成システムはどんな日本語でも音声にしなければなりません。そもそも日本語にはどのくらいの音があるでしょうか。普通「日本語50音」といいます。でもこれには「が」や「ぱ」などの濁音と半濁音、「きゃ」などの拗音が含まれていません。その他に「ファイル」の「ファ」、「ジェット機」の「ジェ」など、外来語を発音するための音も必要です。そういう音をいれると、全部で150~200音節の音声を用意しなくてはいけません。(この数は正確にきまっていません、システムによって異なります) さて、次に「青い」と「赤い」という言葉を考えてください。先頭の音はどちらも「あ」ですが、実はその音声波形を比べるとずいぶん違います。「青い」の「あ」の音の後ろの方は、ちょっと「お」の音に近づき、「赤い」の「あ」の音の後ろの方は、次の「か」を発音するための準備をしています。日本語は1音節で色々な...