為了讓機(jī)器聽(tīng)懂你的聲音,深度學(xué)習(xí)是如何發(fā)揮作用的?
深度學(xué)習(xí)在2006年嶄露頭角后,近幾年取得了快速發(fā)展,在學(xué)術(shù)界和工業(yè)界均呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)的趨勢(shì);伴隨著這項(xiàng)技術(shù)的不斷成熟,深度學(xué)習(xí)在智能語(yǔ)音領(lǐng)域率先發(fā)力,取得一系列成功的應(yīng)用。本文將重點(diǎn)分享近年來(lái)深度學(xué)習(xí)在語(yǔ)音生成問(wèn)題中的新方法,圍繞語(yǔ)音合成和語(yǔ)音增強(qiáng)兩個(gè)典型問(wèn)題展開(kāi)介紹。
一、深度學(xué)習(xí)在語(yǔ)音合成中的應(yīng)用
語(yǔ)音合成主要采用波形拼接合成和統(tǒng)計(jì)參數(shù)合成兩種方式。波形拼接語(yǔ)音合成需要有足夠的高質(zhì)量發(fā)音人錄音才能夠合成高質(zhì)量的語(yǔ)音,它在工業(yè)界中得到了廣泛使用。統(tǒng)計(jì)參數(shù)語(yǔ)音合成雖然整體合成質(zhì)量略低,但是在發(fā)音人語(yǔ)料規(guī)模有限的條件下,優(yōu)勢(shì)更為明顯。在上一期我們重點(diǎn)介紹了深度學(xué)習(xí)在統(tǒng)計(jì)參數(shù)語(yǔ)音合成中的應(yīng)用,本期將和大家分享基于波形拼接的語(yǔ)音合成系統(tǒng),圍繞Siri近期推出的語(yǔ)音合成系統(tǒng)展開(kāi)介紹,它是一種混合語(yǔ)音合成系統(tǒng),選音方法類(lèi)似于傳統(tǒng)的波形拼接方法,它利用參數(shù)合成方法來(lái)指導(dǎo)選音,本質(zhì)上是一種波形拼接語(yǔ)音合成系統(tǒng)。
單元選擇是波形拼接語(yǔ)音合成系統(tǒng)的基本難題,需要在沒(méi)有明顯錯(cuò)誤的條件下將合適的基元組合在一起。語(yǔ)音合成系統(tǒng)通常分為前端和后端兩個(gè)部分,前端模塊對(duì)于提高語(yǔ)音合成系統(tǒng)的表現(xiàn)力起到非常重要的作用。前端模塊將包含數(shù)字、縮寫(xiě)等在內(nèi)的原始文本正則化,并對(duì)各個(gè)詞預(yù)測(cè)讀音,解析來(lái)自文本的句法、節(jié)奏、重音等信息。因此,前端模塊高度依賴于語(yǔ)言學(xué)信息。后端通過(guò)語(yǔ)言學(xué)特征預(yù)測(cè)聲學(xué)參數(shù),模型的輸入是數(shù)值化的語(yǔ)言學(xué)特征。模型的輸出是聲學(xué)特征,例如頻譜、基頻、時(shí)長(zhǎng)等。在合成階段,利用訓(xùn)練好的統(tǒng)計(jì)模型把輸入文本特征映射到聲學(xué)特征,然后用來(lái)指導(dǎo)選音。在選音過(guò)程中需要重點(diǎn)考慮以下兩個(gè)準(zhǔn)則:(1)候選基元和目標(biāo)基元的特征必須接近;(2)相鄰兩個(gè)基元的邊界處必須自然過(guò)渡。可以通過(guò)計(jì)算目標(biāo)代價(jià)和拼接代價(jià)評(píng)估這兩個(gè)準(zhǔn)則;然后通過(guò)維特比算法計(jì)算最優(yōu)路徑確定最終的候選基元;最后通過(guò)波形相似重疊相加算法找出最佳拼接時(shí)刻,因此生成平滑且連續(xù)合成語(yǔ)音。
Siri的TTS系統(tǒng)的目標(biāo)是訓(xùn)練一個(gè)基于深度學(xué)習(xí)的統(tǒng)一模型,該模型能自動(dòng)準(zhǔn)確地預(yù)測(cè)數(shù)據(jù)庫(kù)中單元的目標(biāo)成本和拼接成本。因此該方法使用深度混合密度模型來(lái)預(yù)測(cè)特征值的分布。這種網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合了常規(guī)的深度神經(jīng)網(wǎng)絡(luò)和高斯混合模型的優(yōu)勢(shì),即通過(guò)DNN對(duì)輸入和輸出之間的復(fù)雜關(guān)系進(jìn)行建模,并且以概率分布作為輸出。系統(tǒng)使用了基于MDN統(tǒng)一的目標(biāo)和拼接模型,該模型能預(yù)測(cè)語(yǔ)音目標(biāo)特征(譜、基頻、時(shí)長(zhǎng))和拼接成本分布,并引導(dǎo)基元的搜索。對(duì)于元音,有時(shí)語(yǔ)音特征相對(duì)穩(wěn)定,而有些時(shí)候變化又非常迅速,針對(duì)這一問(wèn)題,模型需要能夠根據(jù)這種變化性對(duì)參數(shù)作出調(diào)整,因此在模型中使用嵌入方差解決這一問(wèn)題。系統(tǒng)在運(yùn)行速度、內(nèi)存使用上具有一定優(yōu)勢(shì),使用快速預(yù)選機(jī)制、單元剪枝和計(jì)算并行化優(yōu)化了它的性能,可以在移動(dòng)設(shè)備上運(yùn)行。
二、深度學(xué)習(xí)在語(yǔ)音增強(qiáng)中的應(yīng)用
通過(guò)語(yǔ)音增強(qiáng)可以有效抑制各種干擾信號(hào),增強(qiáng)目標(biāo)語(yǔ)音信號(hào);有效的語(yǔ)音增強(qiáng)算法一方面可以提高語(yǔ)音可懂度和話音質(zhì)量,另一方面有助于提高語(yǔ)音識(shí)別和聲紋識(shí)別的魯棒性。經(jīng)典的語(yǔ)音增強(qiáng)方法包括譜減法、維納濾波法、最小均方誤差法,上述方法基于一些數(shù)學(xué)假設(shè),在真實(shí)環(huán)境下難以有效抑制非平穩(wěn)噪聲的干擾。基于盲分離的非負(fù)矩陣分解方法也得到了一定關(guān)注,但是這類(lèi)方法計(jì)算復(fù)雜度相對(duì)較高;近年來(lái),基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法得到了越來(lái)越多的關(guān)注,接下來(lái)重點(diǎn)介紹幾種典型的基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法。
1.預(yù)測(cè)幅值譜信息
這類(lèi)方法通過(guò)深層神經(jīng)網(wǎng)絡(luò)模型建立帶噪語(yǔ)音和干凈語(yǔ)音譜參數(shù)之間的映射關(guān)系,模型的輸入是帶噪語(yǔ)音的幅值譜相關(guān)特征,模型的輸出是干凈語(yǔ)音的幅值譜相關(guān)特征,通過(guò)深層神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性建模能力重構(gòu)安靜語(yǔ)音的幅值譜相關(guān)特征;神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)可以是DNN/BLSTM-RNN/CNN等;相比于譜減、最小均方誤差、維納濾波等傳統(tǒng)方法,這類(lèi)方法可以更為有效的利用上下文相關(guān)信息,對(duì)于處理非平穩(wěn)噪聲具有明顯的優(yōu)勢(shì)。
2.預(yù)測(cè)屏蔽值信息
采用這類(lèi)方法建模時(shí)模型的輸入可以是聽(tīng)覺(jué)域相關(guān)特征,模型的輸出是二值型屏蔽值或浮點(diǎn)型屏蔽值,最常用的聽(tīng)覺(jué)域特征是Gamma濾波器相關(guān)特征,這種方法根據(jù)聽(tīng)覺(jué)感知特性將音頻信號(hào)分成不同子帶提取特征參數(shù);對(duì)于二值型屏蔽值,如果某個(gè)時(shí)頻單元能量是語(yǔ)音主導(dǎo),則保留該時(shí)頻單元能量,如果某個(gè)時(shí)頻單元能量是噪聲主導(dǎo),則將該時(shí)頻單元能量置零;采用這種方法的優(yōu)勢(shì)是,共振峰位置處的能量得到了很好的保留,而相鄰共振峰之間波谷處的能量雖然失真誤差較大,但是人耳對(duì)這類(lèi)失真并不敏感;因此通過(guò)這種方法增強(qiáng)后的語(yǔ)音具有較高的可懂度;浮點(diǎn)值屏蔽是在二值型屏蔽基礎(chǔ)上進(jìn)一步改進(jìn),目標(biāo)函數(shù)反映了對(duì)各個(gè)時(shí)頻單元的抑制程度,進(jìn)一步提高增強(qiáng)后語(yǔ)音的話音質(zhì)量和可懂度。
3.預(yù)測(cè)復(fù)數(shù)譜信息
目前主流的語(yǔ)音增強(qiáng)方法更多的關(guān)注于對(duì)幅值譜相關(guān)特征的增強(qiáng)而保留原始語(yǔ)音的相位譜,隨著信噪比的降低相位譜失真對(duì)聽(tīng)感的影響明顯增強(qiáng),在低信噪比條件下,有效的相位重構(gòu)方法可以有助于提高語(yǔ)音可懂度;一種典型的相位重構(gòu)方法是利用基音周期線索對(duì)濁音段的相位進(jìn)行有效修復(fù),但是這類(lèi)方法無(wú)法有效估計(jì)清音段的相位信息;復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)模型可以對(duì)復(fù)數(shù)值進(jìn)行非線性變換,而語(yǔ)音幀的復(fù)數(shù)譜能夠同時(shí)包含幅值譜信息和相位譜信息,可以通過(guò)復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)建立帶噪語(yǔ)音復(fù)數(shù)譜和干凈語(yǔ)音復(fù)數(shù)譜的映射關(guān)系,實(shí)現(xiàn)同時(shí)對(duì)幅值信息和相位信息的增強(qiáng)。
4.PIT說(shuō)話人分離
通過(guò)說(shuō)話人分離技術(shù)可以將混疊語(yǔ)音中不同的說(shuō)話人信息有效分離出來(lái),已有的基于深度學(xué)習(xí)的說(shuō)話人分離模型受限于說(shuō)話人,只能分離出特定說(shuō)話人的聲音;采用具有置換不變性的訓(xùn)練方法得到的說(shuō)話人分離模型不再受限于特定說(shuō)話人;這種方法通過(guò)自動(dòng)尋找分離出的信號(hào)和標(biāo)注的聲源之間的最佳匹配來(lái)優(yōu)化語(yǔ)音增強(qiáng)目標(biāo)函數(shù);模型的輸入是混疊語(yǔ)音的譜參數(shù)特征,模型的輸出包含多個(gè)任務(wù),每個(gè)任務(wù)對(duì)應(yīng)一個(gè)說(shuō)話人;在訓(xùn)練過(guò)程中,對(duì)于訓(xùn)練集中一個(gè)樣本內(nèi),每個(gè)任務(wù)固定對(duì)應(yīng)某個(gè)說(shuō)話人;可以采用BLSTM-RNN模型結(jié)構(gòu)建模。
5.DeepClustering說(shuō)話人分離
基于深度聚類(lèi)的說(shuō)話人分離方法是另一種說(shuō)話人無(wú)關(guān)的分離模型,這種方法通過(guò)把混疊語(yǔ)音中的每個(gè)時(shí)頻單元結(jié)合它的上下文信息映射到一個(gè)新的空間,并在這個(gè)空間上進(jìn)行聚類(lèi),工業(yè)機(jī)器人維修,使得在這一空間中屬于同一說(shuō)話人的時(shí)頻單元距離較小可以聚類(lèi)到一起;將時(shí)頻單元映射到新的空間跟詞矢量抽取的思想有些類(lèi)似,可以通過(guò)k均值聚類(lèi)的方法對(duì)時(shí)頻單元分組,然后計(jì)算二值型屏蔽值分離出不同說(shuō)話人的語(yǔ)音,也可以通過(guò)模糊聚類(lèi)的方法描述不同的時(shí)頻單元,工業(yè)機(jī)器人維修,然后計(jì)算浮點(diǎn)型屏蔽值后分離混疊語(yǔ)音。基于深層聚類(lèi)的方法和基于PIT的方法有著各自的優(yōu)勢(shì),為了更有效的解決問(wèn)題,可能需要將兩種方法有效的結(jié)合。
6.基于對(duì)抗網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)