近日,內(nèi)蒙古自治區(qū)蒙古文信息處理技術(shù)重點實驗室(內(nèi)蒙古大學蒙古文智能信息處理技術(shù)國家地方聯(lián)合工程研究中心)有6篇論文被2022年IEEE音頻、語音與信號處理國際會議(2022 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2022)接收錄用。此次被錄用的論文涉及智能語音交互領域的語音增強、語音鑒偽、語音識別等研究領域。
ICASSP是由IEEE電氣電子工程師學會主辦的信號處理領域的頂級國際會議,是IEEE下語音方向最具代表性、最高榮譽的會議,在國際上享有盛譽并具有廣泛的學術(shù)影響力。
內(nèi)蒙古自治區(qū)蒙古文信息處理技術(shù)重點實驗室(以下簡稱重點實驗室)高光來教授、張學良教授、飛龍教授帶領團隊多年來針對語音識別、語音合成、語音增強與分離等領域進行了深入的研究,提出了一系列創(chuàng)新性方法,在TASLP、ICASSP等語音信號處理領域國際頂級期刊和會議發(fā)表論文二十多篇,并且研發(fā)的蒙古語語音識別、蒙古語語音合成和語音增強等智能系統(tǒng)已實際落地應用,對國家和自治區(qū)智能語音產(chǎn)業(yè)發(fā)展起到了積極推動作用。
近幾年,該重點實驗室不斷強化能力建設,在科技創(chuàng)新、產(chǎn)學研結(jié)合和人才培養(yǎng)方面取得了一系列可喜的成績,為我區(qū)乃至全國多語言智能信息處理、大數(shù)據(jù)云計算服務提供了技術(shù)支撐。該科研團隊引進和培養(yǎng)了張懷文研究員(駿馬計劃B1崗)、劉瑞研究員(駿馬計劃B1崗)、張暉副教授等一批優(yōu)秀的年輕教師,并成為了重點實驗室核心骨干力量。目前,重點實驗室專業(yè)技術(shù)人員29人,其中教授10人、研究員2人,副教授7人、副研究員1人、博士生導師7人,27人具有博士學位,具有層次高、國際化和年輕化的特點。
附???論文名稱及摘要
01??《基于對齊學習單步解碼的非自回歸準確快速語音識別方法》
本文提出一種基于對齊學習的非自回歸Transformer(AL-NAT)語音識別方法。受端到端模型中編碼器CTC的輸出和目標序列具有單調(diào)相關性這一事實的啟發(fā)。我們將編碼器CTC的輸出作為解碼器的輸入,并定義了一種對齊損失函數(shù)用于最小化該輸入和目標序列之間的對齊成本矩陣。我們的方法不需要長度預測機制,在識別準確率和解碼速度方面相比已有的NAT模型取得了顯著提升。此外,為了學習上下文知識以提高識別準確率,我們進一步在編碼器和解碼器端分別增加了輕量級3-gram語言模型。實驗結(jié)果表明,分別在編碼器和解碼器端增加語言模型對識別性能有很大提升。
02??《一種基于原地卷積神經(jīng)網(wǎng)絡的復數(shù)頻譜映射聲學回聲消除方法》
近年來,深度學習技術(shù)被引入到聲學回聲消除(AEC)中,并取得了顯著的效果。然而對于基于深度學習方法的AEC來說,最重要的問題是在多樣性場景下模型的泛化能力。與大多數(shù)處理整個頻段的方法不同,本文提出了用于端到端AEC的原地卷積遞歸神經(jīng)網(wǎng)絡(ICRN),它利用原地卷積和通道級的時間建模來確保近端信號信息得到保留。此外,本文采用復數(shù)頻譜映射與多任務學習策略,獲得更好的泛化能力。在多個不匹配的場景下進行的實驗表明,所提出的方法優(yōu)于以前的方法。
03??《DRC-NET:用于語音去混響的密集連接循環(huán)卷積神經(jīng)網(wǎng)絡》
基于作者之前在時頻域上使用Inplace CRN模型對每個頻率點進行單獨處理得到的顯著性能提升。在本文中,該方法將單頻點特征作為基本的處理單元,這使得模型可以統(tǒng)一RNN在時頻域中對頻率維度和時間維度的處理方式。在此基礎上,該方法將卷積神經(jīng)網(wǎng)絡(CNN)和RNN緊密結(jié)合起來作為一種基本的時頻域處理單元,最終得到了密連循環(huán)卷積神經(jīng)網(wǎng)絡(DRC-NET)。DRC-NET有效融合了RNN的無限沖擊響應特性和CNN的有限沖擊響應特性,使得性能得到了顯著提升。實驗結(jié)果表明,無論是非因果版本的DRC-NET還是因果版本的DRC-NET,語音去混響的性能都優(yōu)于SOTA基線模型。
04??《使用奇異點檢測特征的深度音頻(拼接)偽造檢測》
本文針對偽造語音中的半真半假音頻鑒別提出了一種利用高頻奇異性檢測特征和序列信息進行音頻鑒偽的方法,以彌補對于半真半假音頻檢測方法的缺失。給定當前待檢測的音頻,該方法首先對音頻進行小波分解,并提取分解后的高頻分量進行重構(gòu),提取出音頻中的高頻奇異點以及突變特征。然后利用長短時記憶模塊(LSTM)進行序列建模,進行初步的奇異點上下文建模以及定位。為了消除音頻本身存在的固有奇異點干擾,該方法組合了線性頻率倒譜系數(shù)(LFCC)作為補充。該方法不僅實現(xiàn)了對于半真半假音頻數(shù)據(jù)的鑒別,同時也對偽造的音頻片段進行定位。所提方法為一種新型的攻擊方式——半真半假音頻提供了一種有效方法,且實驗結(jié)果表明,相對于已有鑒偽方法,該方法在精度和魯棒性方面都有了很大的提高。
05??《一種緩解有監(jiān)督單通道語音增強系統(tǒng)中損失-度量不匹配問題的算法》
在本文中,作者研究了有監(jiān)督的單通道語音增強系統(tǒng)的損失-度量不匹配問題。大多數(shù)現(xiàn)有的語音增強系統(tǒng)的性能并不令人滿意,因為它們根據(jù)經(jīng)驗選擇的損失函數(shù)與不可微的評估指標存在語義上的差距,又稱損失-度量不匹配問題。在這項工作中,作者提出了一種簡單而有效的方法,為真實的前端語音增強場景生成合適的損失函數(shù),以緩解損失-度量不匹配的問題。具體來說,該方法采用了函數(shù)平滑技術(shù),通過一組基函數(shù)及其線性組合來逼近不可微的評價指標。實驗結(jié)果表明,由該方法生成的損失函數(shù)能夠幫助語音增強系統(tǒng)在大多數(shù)評價指標上取得更顯著的性能。
06??《基于注意力融合的復數(shù)域骨傳導和空氣傳導語音增強方法》
骨傳導(BC)麥克風通過將人類頭骨的振動轉(zhuǎn)換為電信號來捕獲語音信號。BC傳感器對噪聲不敏感,但帶寬有限。另一方面,傳統(tǒng)或空氣傳導?。ˋC)麥克風能夠捕獲全頻帶語音,但容易受到背景噪音。我們通過使用執(zhí)行復雜頻譜映射的卷積循環(huán)網(wǎng)絡結(jié)合AC和BC麥克風的優(yōu)勢。為了更好地利用來自兩種麥克風的信號,我們采用了基于注意力的融合以及早期融合和晚期融合策略。實驗證明了所提出的方法優(yōu)于其他最近結(jié)合BC和AC信號的語音增強方法。此外,我們的增強性能明顯優(yōu)于傳統(tǒng)的語音增強對應物,尤其是在低信噪比場景中。
免責聲明:本網(wǎng)轉(zhuǎn)載自其它媒體的文章,目的在于弘揚科技創(chuàng)新精神,傳遞更多科技創(chuàng)新信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責,在此我們謹向原作者和原媒體致以敬意。如果您認為本站文章侵犯了您的版權(quán),請與我們聯(lián)系,我們將第一時間刪除。