三级黄色在线视频中文,国产精品一二三区,在线观看三级,成人午夜久久,日韩国产一区二区,韩日免费av,日韩成人一级

動(dòng)態(tài)

登陸

注冊(cè)

申請(qǐng)企業(yè)空間

讓機(jī)器說(shuō)話更自然語(yǔ)音合成還能干什么？

2017-09-11 00:00:00

來(lái)源：網(wǎng)絡(luò)

點(diǎn)擊：1514

A⁺ A^-

所屬頻道：新聞中心

關(guān)鍵詞：語(yǔ)音技術(shù),機(jī)器人

讓機(jī)器說(shuō)話更自然語(yǔ)音合成還能干什么？

本文由中科院-極限元“智能交互聯(lián)合實(shí)驗(yàn)室”投稿

語(yǔ)音合成又稱文語(yǔ)轉(zhuǎn)換（Text-To-Speech），簡(jiǎn)稱TTS，指通過機(jī)械的、電子的方法生成語(yǔ)音的技術(shù)。

隨著科技的發(fā)展，合成語(yǔ)音的自然度和音質(zhì)均得到了明顯的改善。目前，語(yǔ)音合成技術(shù)在我們生活中具有廣泛的應(yīng)用，如電子閱讀、車載語(yǔ)音導(dǎo)航、銀行醫(yī)院排號(hào)系統(tǒng)、交通播報(bào)等等，這些應(yīng)用場(chǎng)景都離不開語(yǔ)音合成。

讓機(jī)器說(shuō)話更自然語(yǔ)音合成還能干什么？

簡(jiǎn)單來(lái)說(shuō)語(yǔ)音合成分為文本分析、韻律分析和聲學(xué)分析三個(gè)部分。通過文本分析提取出文本特征，在此基礎(chǔ)上預(yù)測(cè)基頻、時(shí)長(zhǎng)、節(jié)奏等多種韻律特征，然后通過聲學(xué)模型實(shí)現(xiàn)從前端參數(shù)到語(yǔ)音參數(shù)的映射，最后通過聲碼器合成語(yǔ)音。整個(gè)過程類似于“編碼、信息匹配，解碼的過程”。

讓機(jī)器說(shuō)話更自然語(yǔ)音合成還能干什么？

語(yǔ)音合成常用的兩種方法：

一種是參數(shù)語(yǔ)音合成，另一種則是拼接合成。波形拼接語(yǔ)音合成的過程更容易理解，即在語(yǔ)料庫(kù)中抽取合適的拼接單元，拼接成為句子。參數(shù)語(yǔ)音合成則需要對(duì)音庫(kù)進(jìn)行參數(shù)化建模，根據(jù)訓(xùn)練得到的模型預(yù)測(cè)出韻律參數(shù)和聲學(xué)參數(shù)。

波形拼接語(yǔ)音合成需要對(duì)錄音人進(jìn)行長(zhǎng)達(dá)幾十個(gè)小時(shí)以上的錄音采集，而參數(shù)語(yǔ)音合成則只需要十個(gè)小時(shí)的錄音采集，即可完成一套定制化語(yǔ)音包的制作。在體驗(yàn)效果上，拼接拼接合成的語(yǔ)音更加貼近真實(shí)發(fā)音，但是通過參數(shù)合成的語(yǔ)音更穩(wěn)定。

下圖為基于波形拼接：

讓機(jī)器說(shuō)話更自然語(yǔ)音合成還能干什么？

下圖為基于統(tǒng)計(jì)參數(shù)：

讓機(jī)器說(shuō)話更自然語(yǔ)音合成還能干什么？

如何讓機(jī)器說(shuō)話更自然，有情感

從合成的發(fā)展歷史來(lái)看，表現(xiàn)力、音質(zhì)、復(fù)雜度和自然度一直是合成技術(shù)所追求的四點(diǎn)。但是目前水平下的合成語(yǔ)音很難體現(xiàn)出情感特征，例如在韻律表現(xiàn)上不夠靈活，聲調(diào)變化上相對(duì)死板。

讓機(jī)器擁有自然、有情感、高表現(xiàn)力的聲音，依舊是語(yǔ)音合成技術(shù)的一大難點(diǎn)。

擺脫平鋪直敘，使合成語(yǔ)言更具有表現(xiàn)力高立足于以下條件：

1、情感豐富的大數(shù)據(jù)，如：更自然的發(fā)音、更豐富的情感、更高更強(qiáng)的表現(xiàn)力

2、新技術(shù)的應(yīng)用

（1）深度神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)成功應(yīng)用到韻律模型、聲學(xué)模型預(yù)測(cè)，并集成端到端的語(yǔ)音合成模型；

（2）彈性單元挑選技術(shù)，讓合成語(yǔ)音更逼近真人發(fā)音；

（3）立足于大量數(shù)據(jù)的文本分析技術(shù)讓合成系統(tǒng)更理解人類的語(yǔ)言；

3、強(qiáng)需求應(yīng)用場(chǎng)景，如：語(yǔ)音導(dǎo)航、小說(shuō)播報(bào)、個(gè)性化需求等

讓機(jī)器說(shuō)話更自然語(yǔ)音合成還能干什么？

語(yǔ)音合成技術(shù)已全面支持多方言、多語(yǔ)種、多音色的選擇，專業(yè)MOS評(píng)分可達(dá)4.0以上，為用戶提供渾厚男聲、甜美女聲，并可根據(jù)用戶需求實(shí)現(xiàn)音庫(kù)定制，滿足用戶的個(gè)性化應(yīng)用，例如：明星聲音定制、童聲定制、方言定制等。從兩個(gè)角度來(lái)說(shuō)，一. 音色的定制化，需要跟蹤錄大量的音庫(kù)，重新訓(xùn)練一個(gè)模型；二. 個(gè)性化表示方法的定制化，可以錄一些數(shù)據(jù)，通過深度學(xué)習(xí)訓(xùn)練模型，自適應(yīng)的方法來(lái)實(shí)現(xiàn)。

(審核編輯: 林靜)

聲明：除特別說(shuō)明之外，新聞內(nèi)容及圖片均來(lái)自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán)，請(qǐng)聯(lián)系我們刪除。

分享

點(diǎn)擊排行

專題

<label id="i5chy"></label><span id="i5chy"></span>

<label id="i5chy"><xmp id="i5chy">

<rt id="i5chy"></rt>