近日,內(nèi)蒙古自治區(qū)蒙古文信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室(內(nèi)蒙古大學(xué)蒙古文智能信息處理技術(shù)國家地方聯(lián)合工程研究中心)有6篇論文被2022年IEEE音頻、語音與信號(hào)處理國際會(huì)議(2022 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2022)接收錄用。此次被錄用的論文涉及智能語音交互領(lǐng)域的語音增強(qiáng)、語音鑒偽、語音識(shí)別等研究領(lǐng)域。
ICASSP是由IEEE電氣電子工程師學(xué)會(huì)主辦的信號(hào)處理領(lǐng)域的頂級(jí)國際會(huì)議,是IEEE下語音方向最具代表性、最高榮譽(yù)的會(huì)議,在國際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。
內(nèi)蒙古自治區(qū)蒙古文信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室(以下簡稱重點(diǎn)實(shí)驗(yàn)室)高光來教授、張學(xué)良教授、飛龍教授帶領(lǐng)團(tuán)隊(duì)多年來針對(duì)語音識(shí)別、語音合成、語音增強(qiáng)與分離等領(lǐng)域進(jìn)行了深入的研究,提出了一系列創(chuàng)新性方法,在TASLP、ICASSP等語音信號(hào)處理領(lǐng)域國際頂級(jí)期刊和會(huì)議發(fā)表論文二十多篇,并且研發(fā)的蒙古語語音識(shí)別、蒙古語語音合成和語音增強(qiáng)等智能系統(tǒng)已實(shí)際落地應(yīng)用,對(duì)國家和自治區(qū)智能語音產(chǎn)業(yè)發(fā)展起到了積極推動(dòng)作用。
近幾年,該重點(diǎn)實(shí)驗(yàn)室不斷強(qiáng)化能力建設(shè),在科技創(chuàng)新、產(chǎn)學(xué)研結(jié)合和人才培養(yǎng)方面取得了一系列可喜的成績,為我區(qū)乃至全國多語言智能信息處理、大數(shù)據(jù)云計(jì)算服務(wù)提供了技術(shù)支撐。該科研團(tuán)隊(duì)引進(jìn)和培養(yǎng)了張懷文研究員(駿馬計(jì)劃B1崗)、劉瑞研究員(駿馬計(jì)劃B1崗)、張暉副教授等一批優(yōu)秀的年輕教師,并成為了重點(diǎn)實(shí)驗(yàn)室核心骨干力量。目前,重點(diǎn)實(shí)驗(yàn)室專業(yè)技術(shù)人員29人,其中教授10人、研究員2人,副教授7人、副研究員1人、博士生導(dǎo)師7人,27人具有博士學(xué)位,具有層次高、國際化和年輕化的特點(diǎn)。
附???論文名稱及摘要
01??《基于對(duì)齊學(xué)習(xí)單步解碼的非自回歸準(zhǔn)確快速語音識(shí)別方法》
本文提出一種基于對(duì)齊學(xué)習(xí)的非自回歸Transformer(AL-NAT)語音識(shí)別方法。受端到端模型中編碼器CTC的輸出和目標(biāo)序列具有單調(diào)相關(guān)性這一事實(shí)的啟發(fā)。我們將編碼器CTC的輸出作為解碼器的輸入,并定義了一種對(duì)齊損失函數(shù)用于最小化該輸入和目標(biāo)序列之間的對(duì)齊成本矩陣。我們的方法不需要長度預(yù)測(cè)機(jī)制,在識(shí)別準(zhǔn)確率和解碼速度方面相比已有的NAT模型取得了顯著提升。此外,為了學(xué)習(xí)上下文知識(shí)以提高識(shí)別準(zhǔn)確率,我們進(jìn)一步在編碼器和解碼器端分別增加了輕量級(jí)3-gram語言模型。實(shí)驗(yàn)結(jié)果表明,分別在編碼器和解碼器端增加語言模型對(duì)識(shí)別性能有很大提升。
02??《一種基于原地卷積神經(jīng)網(wǎng)絡(luò)的復(fù)數(shù)頻譜映射聲學(xué)回聲消除方法》
近年來,深度學(xué)習(xí)技術(shù)被引入到聲學(xué)回聲消除(AEC)中,并取得了顯著的效果。然而對(duì)于基于深度學(xué)習(xí)方法的AEC來說,最重要的問題是在多樣性場(chǎng)景下模型的泛化能力。與大多數(shù)處理整個(gè)頻段的方法不同,本文提出了用于端到端AEC的原地卷積遞歸神經(jīng)網(wǎng)絡(luò)(ICRN),它利用原地卷積和通道級(jí)的時(shí)間建模來確保近端信號(hào)信息得到保留。此外,本文采用復(fù)數(shù)頻譜映射與多任務(wù)學(xué)習(xí)策略,獲得更好的泛化能力。在多個(gè)不匹配的場(chǎng)景下進(jìn)行的實(shí)驗(yàn)表明,所提出的方法優(yōu)于以前的方法。
03??《DRC-NET:用于語音去混響的密集連接循環(huán)卷積神經(jīng)網(wǎng)絡(luò)》
基于作者之前在時(shí)頻域上使用Inplace CRN模型對(duì)每個(gè)頻率點(diǎn)進(jìn)行單獨(dú)處理得到的顯著性能提升。在本文中,該方法將單頻點(diǎn)特征作為基本的處理單元,這使得模型可以統(tǒng)一RNN在時(shí)頻域中對(duì)頻率維度和時(shí)間維度的處理方式。在此基礎(chǔ)上,該方法將卷積神經(jīng)網(wǎng)絡(luò)(CNN)和RNN緊密結(jié)合起來作為一種基本的時(shí)頻域處理單元,最終得到了密連循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(DRC-NET)。DRC-NET有效融合了RNN的無限沖擊響應(yīng)特性和CNN的有限沖擊響應(yīng)特性,使得性能得到了顯著提升。實(shí)驗(yàn)結(jié)果表明,無論是非因果版本的DRC-NET還是因果版本的DRC-NET,語音去混響的性能都優(yōu)于SOTA基線模型。
04??《使用奇異點(diǎn)檢測(cè)特征的深度音頻(拼接)偽造檢測(cè)》
本文針對(duì)偽造語音中的半真半假音頻鑒別提出了一種利用高頻奇異性檢測(cè)特征和序列信息進(jìn)行音頻鑒偽的方法,以彌補(bǔ)對(duì)于半真半假音頻檢測(cè)方法的缺失。給定當(dāng)前待檢測(cè)的音頻,該方法首先對(duì)音頻進(jìn)行小波分解,并提取分解后的高頻分量進(jìn)行重構(gòu),提取出音頻中的高頻奇異點(diǎn)以及突變特征。然后利用長短時(shí)記憶模塊(LSTM)進(jìn)行序列建模,進(jìn)行初步的奇異點(diǎn)上下文建模以及定位。為了消除音頻本身存在的固有奇異點(diǎn)干擾,該方法組合了線性頻率倒譜系數(shù)(LFCC)作為補(bǔ)充。該方法不僅實(shí)現(xiàn)了對(duì)于半真半假音頻數(shù)據(jù)的鑒別,同時(shí)也對(duì)偽造的音頻片段進(jìn)行定位。所提方法為一種新型的攻擊方式——半真半假音頻提供了一種有效方法,且實(shí)驗(yàn)結(jié)果表明,相對(duì)于已有鑒偽方法,該方法在精度和魯棒性方面都有了很大的提高。
05??《一種緩解有監(jiān)督單通道語音增強(qiáng)系統(tǒng)中損失-度量不匹配問題的算法》
在本文中,作者研究了有監(jiān)督的單通道語音增強(qiáng)系統(tǒng)的損失-度量不匹配問題。大多數(shù)現(xiàn)有的語音增強(qiáng)系統(tǒng)的性能并不令人滿意,因?yàn)樗鼈兏鶕?jù)經(jīng)驗(yàn)選擇的損失函數(shù)與不可微的評(píng)估指標(biāo)存在語義上的差距,又稱損失-度量不匹配問題。在這項(xiàng)工作中,作者提出了一種簡單而有效的方法,為真實(shí)的前端語音增強(qiáng)場(chǎng)景生成合適的損失函數(shù),以緩解損失-度量不匹配的問題。具體來說,該方法采用了函數(shù)平滑技術(shù),通過一組基函數(shù)及其線性組合來逼近不可微的評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果表明,由該方法生成的損失函數(shù)能夠幫助語音增強(qiáng)系統(tǒng)在大多數(shù)評(píng)價(jià)指標(biāo)上取得更顯著的性能。
06??《基于注意力融合的復(fù)數(shù)域骨傳導(dǎo)和空氣傳導(dǎo)語音增強(qiáng)方法》
骨傳導(dǎo)(BC)麥克風(fēng)通過將人類頭骨的振動(dòng)轉(zhuǎn)換為電信號(hào)來捕獲語音信號(hào)。BC傳感器對(duì)噪聲不敏感,但帶寬有限。另一方面,傳統(tǒng)或空氣傳導(dǎo) (AC)麥克風(fēng)能夠捕獲全頻帶語音,但容易受到背景噪音。我們通過使用執(zhí)行復(fù)雜頻譜映射的卷積循環(huán)網(wǎng)絡(luò)結(jié)合AC和BC麥克風(fēng)的優(yōu)勢(shì)。為了更好地利用來自兩種麥克風(fēng)的信號(hào),我們采用了基于注意力的融合以及早期融合和晚期融合策略。實(shí)驗(yàn)證明了所提出的方法優(yōu)于其他最近結(jié)合BC和AC信號(hào)的語音增強(qiáng)方法。此外,我們的增強(qiáng)性能明顯優(yōu)于傳統(tǒng)的語音增強(qiáng)對(duì)應(yīng)物,尤其是在低信噪比場(chǎng)景中。
免責(zé)聲明:本網(wǎng)轉(zhuǎn)載自其它媒體的文章,目的在于弘揚(yáng)科技創(chuàng)新精神,傳遞更多科技創(chuàng)新信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),在此我們謹(jǐn)向原作者和原媒體致以敬意。如果您認(rèn)為本站文章侵犯了您的版權(quán),請(qǐng)與我們聯(lián)系,我們將第一時(shí)間刪除。