什么是tts呢?它是一種能把文字信息轉(zhuǎn)換成我們能聽到的語音信號的技術(shù),就像給文字裝上了嘴巴,讓它可以用不同的音色說話。它在我們生活中的應用可廣泛啦,像汽車導航、機器人,還有很多語音軟件里都有它的身影。
一、技術(shù)原理
它分為前端的語言分析部分和后端的聲學系統(tǒng)部分。前端要對輸入的文本進行很多處理。首先要判斷語種,像中文、英文等,然后把文字按照語法規(guī)則切成句子。
如果有阿拉伯數(shù)字或字母,還得轉(zhuǎn)化成文字,不過這個轉(zhuǎn)化是有規(guī)則的哦。比如說手機號碼的數(shù)字就不是完全按照數(shù)字的完整讀法來轉(zhuǎn)化的。
接著要把文字轉(zhuǎn)成音素,這就像我們漢語里把字轉(zhuǎn)成拼音一樣,但是要注意多音字的情況,得通過分析判斷正確的讀音和音調(diào)。
最后還要預測句讀韻律,就像我們?nèi)苏f話一樣,要有停頓、重音和輕音,這樣合成出來的聲音才會有高低曲折、抑揚頓挫的感覺。
后端的聲學系統(tǒng)部分也有幾種不同的技術(shù)。像波形拼接語音合成,它是通過錄制大量的音頻,然后用這些音頻拼接成對應的文本音頻。
優(yōu)點是錄音量夠大的話效果好,但缺點是需要的錄音量太大,而且字間過渡不自然。參數(shù)語音合成技術(shù)則是通過數(shù)學方法對錄音進行建模,它的優(yōu)點是錄音量小,字間過渡平滑,但是音質(zhì)沒有波形拼接的好,還有機械感和雜音。
端到端語音合成技術(shù)是通過神經(jīng)網(wǎng)絡學習,直接輸入文本就能輸出音頻,它對語言學知識要求低,合成的音頻很像人說話,不過性能會降低,而且不能人為調(diào)優(yōu)。
二、技術(shù)邊界
雖然TTS技術(shù)已經(jīng)很厲害了,但它還是有一些不足的地方。
在擬人化方面,雖然已經(jīng)很接近真人了,但專業(yè)人員還是能聽出來是合成的,因為合成音的韻律沒有真人那么自然,不會隨著文本內(nèi)容有很大的起伏變化,單個字詞可能還有機械感。
在情緒化方面也有欠缺,比如讀小說的時候,小說里有很多不同的情緒場景,但合成的音頻感情和情緒比較平穩(wěn),沒有很大的起伏。
不過,它在我們生活中的應用還是給我們帶來了很多便利。比如在汽車導航里給我們提示路線,讓機器人能和我們聊天,在語音軟件里給我們讀小說、讀新聞。