近日,內(nèi)蒙古大學(xué)的自治區(qū)蒙古文信息處理技術(shù)重點實驗室高光來教授科研團(tuán)隊與香港中文大學(xué)李海洲教授科研團(tuán)隊合作在國際信號處理領(lǐng)域TOP期刊《IEEE/ACM音頻、語音和語言處理匯刊》(IEEE/ACM Transactions on Audio, Speech, and Language Processing)上發(fā)表了“神經(jīng)語音合成訓(xùn)練中的解碼知識遷移”(Decoding Knowledge Transfer for Neural Text-to-Speech Training)的最新成果。
該研究得到了2022年內(nèi)蒙古大學(xué)駿馬計劃高層次人才引進(jìn)項目以及國家重點研發(fā)計劃項目,國家自然基金項目,內(nèi)蒙古自然科學(xué)基金項目,內(nèi)蒙古自治區(qū)成果轉(zhuǎn)化項目,內(nèi)蒙古自治區(qū)應(yīng)用技術(shù)研究與開發(fā)資金項目等項目的支持。
該研究針對語音合成的魯棒性、表現(xiàn)力建模問題開展研究,提出了一種多教師知識蒸餾學(xué)習(xí)的語音合成聲學(xué)建模方法。
語音合成的主要目的是將輸入文本轉(zhuǎn)化為高質(zhì)量的合成語音,其中,端到端語音合成方法基于“編碼器-解碼器”結(jié)構(gòu)可以實現(xiàn)優(yōu)秀的語音合成表現(xiàn),成為當(dāng)前語音合成的主流方法。由于端到端語音合成模型的解碼器在訓(xùn)練階段和推理階段存在解碼方式不匹配的問題而導(dǎo)致模型在魯棒性和表現(xiàn)力方面表現(xiàn)欠佳。為了提升端到端語音合成模型在魯棒性和表現(xiàn)力兩方面的表現(xiàn),科研團(tuán)隊提出基于多教師知識蒸餾學(xué)習(xí)的聲學(xué)建模方法。整個系統(tǒng)包含兩個教師模型和一個學(xué)生模型:兩個教師模型分別采用Teacher-forcing和Scheduled-Sampling解碼機(jī)制,可以輸出真實穩(wěn)定的語音參數(shù);學(xué)生模型則采用模型推理階段的Free-Running解碼機(jī)制。在多教師知識蒸餾學(xué)習(xí)階段,通過添加多教師蒸餾損失函數(shù),利用教師模型的知識來對學(xué)生模型的輸出進(jìn)行指導(dǎo)。訓(xùn)練結(jié)束后,學(xué)生模型可以在推理階段直接使用,輸出穩(wěn)定可靠的聲學(xué)參數(shù)進(jìn)行合成語音的生成。最終,實驗結(jié)果證明本文方法與傳統(tǒng)端到端語音合成模型相比可以合成更加魯棒和表現(xiàn)力豐富的合成語音。
論文鏈接:https://ieeexplore.ieee.org/document/9767637
免責(zé)聲明:本網(wǎng)轉(zhuǎn)載自其它媒體的文章,目的在于弘揚科技創(chuàng)新精神,傳遞更多科技創(chuàng)新信息,宣傳國家科技政策,展示國家科技形象,增強(qiáng)國家科技軟實力,參與國際科技輿論競爭,提高國際科技話語權(quán),并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé),在此我們謹(jǐn)向原作者和原媒體致以崇高敬意。如果您認(rèn)為本網(wǎng)文章及圖片侵犯了您的版權(quán),請與我們聯(lián)系,我們將第一時間刪除。