本文由中科院-極限元“智能交互聯(lián)合實驗室”投稿
語音合成又稱文語轉(zhuǎn)換(Text-To-Speech),簡稱TTS,指通過機械的、電子的方法生成語音的技術(shù)。
隨著科技的發(fā)展,合成語音的自然度和音質(zhì)均得到了明顯的改善。目前,語音合成技術(shù)在我們生活中具有廣泛的應(yīng)用,如電子閱讀、車載語音導(dǎo)航、銀行醫(yī)院排號系統(tǒng)、交通播報等等,這些應(yīng)用場景都離不開語音合成。
簡單來說語音合成分為文本分析、韻律分析和聲學(xué)分析三個部分。通過文本分析提取出文本特征,在此基礎(chǔ)上預(yù)測基頻、時長、節(jié)奏等多種韻律特征,然后通過聲學(xué)模型實現(xiàn)從前端參數(shù)到語音參數(shù)的映射,最后通過聲碼器合成語音。整個過程類似于“編碼、信息匹配,解碼的過程”。
語音合成常用的兩種方法:
一種是參數(shù)語音合成,另一種則是拼接合成。波形拼接語音合成的過程更容易理解,即在語料庫中抽取合適的拼接單元,拼接成為句子。參數(shù)語音合成則需要對音庫進行參數(shù)化建模,根據(jù)訓(xùn)練得到的模型預(yù)測出韻律參數(shù)和聲學(xué)參數(shù)。
波形拼接語音合成需要對錄音人進行長達幾十個小時以上的錄音采集,而參數(shù)語音合成則只需要十個小時的錄音采集,即可完成一套定制化語音包的制作 。在體驗效果上,拼接拼接合成的語音更加貼近真實發(fā)音,但是通過參數(shù)合成的語音更穩(wěn)定。
下圖為基于波形拼接:
下圖為基于統(tǒng)計參數(shù):
如何讓機器說話更自然,有情感
從合成的發(fā)展歷史來看,表現(xiàn)力、音質(zhì)、復(fù)雜度和自然度一直是合成技術(shù)所追求的四點。但是目前水平下的合成語音很難體現(xiàn)出情感特征,例如在韻律表現(xiàn)上不夠靈活,聲調(diào)變化上相對死板。
讓機器擁有自然、有情感、高表現(xiàn)力的聲音,依舊是語音合成技術(shù)的一大難點。
擺脫平鋪直敘,使合成語言更具有表現(xiàn)力高立足于以下條件:
1、情感豐富的大數(shù)據(jù),如:更自然的發(fā)音、更豐富的情感、更高更強的表現(xiàn)力
2、新技術(shù)的應(yīng)用
(1)深度神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)成功應(yīng)用到韻律模型、聲學(xué)模型預(yù)測,并集成端到端的語音合成模型;
(2)彈性單元挑選技術(shù),讓合成語音更逼近真人發(fā)音;
(3)立足于大量數(shù)據(jù)的文本分析技術(shù)讓合成系統(tǒng)更理解人類的語言;
3、強需求應(yīng)用場景,如:語音導(dǎo)航、小說播報、個性化需求等
語音合成技術(shù)已全面支持多方言、多語種、多音色的選擇,專業(yè)MOS評分可達4.0以上,為用戶提供渾厚男聲、甜美女聲,并可根據(jù)用戶需求實現(xiàn)音庫定制,滿足用戶的個性化應(yīng)用,例如:明星聲音定制、童聲定制、方言定制等。 從兩個角度來說,一. 音色的定制化,需要跟蹤錄大量的音庫,重新訓(xùn)練一個模型;二. 個性化表示方法的定制化,可以錄一些數(shù)據(jù),通過深度學(xué)習(xí)訓(xùn)練模型,自適應(yīng)的方法來實現(xiàn)。
(審核編輯: 林靜)
分享