聲紋識別原理
聲紋是用電聲學(xué)儀器顯示的攜帶言語信息的聲波頻譜。人類語言的產(chǎn)生是人體語言中樞與發(fā)音器官之間一個復(fù)雜的生理物理過程,人在講話時(shí)使用的發(fā)聲器官--舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異。這也使得聲紋識別也可以稱為身份認(rèn)證的一種方式。
聲紋識別優(yōu)缺點(diǎn)
1、聲紋識別的優(yōu)勢在于:
(1)聲紋提取方便,可在不知不覺中完成,因此使用者的接受程度也高;
(2)獲取語音的識別成本低廉,使用簡單,一個麥克風(fēng)即可,在使用通訊設(shè)備時(shí)更無需額外的錄音設(shè)備;
(3)適合遠(yuǎn)程身份確認(rèn),只需要一個麥克風(fēng)或電話、手機(jī)就可以通過網(wǎng)路(通訊網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò))實(shí)現(xiàn)遠(yuǎn)程登錄;
(4)聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低;
(5)配合一些其他措施,如通過語音識別進(jìn)行內(nèi)容鑒別等,可以提高準(zhǔn)確率。這些優(yōu)勢使得聲紋識別的應(yīng)用越來越受到系統(tǒng)開發(fā)者和用戶青睞。
2、聲紋識別的缺點(diǎn):
當(dāng)然,聲紋識別的應(yīng)用有一些缺點(diǎn),比如同一個人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;比如不同的麥克風(fēng)和信道對識別性能有影響;比如環(huán)境噪音對識別有干擾;又比如混合說話人的情形下人的聲紋特征不易提取等等。
聲紋識別的過程
聲紋識別的過程包括:語音信號處理、聲紋特征提取、聲紋建模、聲紋比對、判別決策等。
聲紋識別匹配模式
聲紋識別技術(shù)的關(guān)鍵在于對各種聲學(xué)特征參數(shù)進(jìn)行處理,并確定模式匹配方法,主要的模式匹配方法包括:
1、模板匹配方法:利用動態(tài)時(shí)間彎折(DTW)以對準(zhǔn)訓(xùn)練和測試特征序列,主要用于固定詞組的應(yīng)用(通常為文本相關(guān)任務(wù));
2、最近鄰方法:訓(xùn)練時(shí)保留所有特征矢量,識別時(shí)對每個矢量都找到訓(xùn)練矢量中最近的K個,據(jù)此進(jìn)行識別,通常模型存儲和相似計(jì)算的量都很大;
3、神經(jīng)網(wǎng)絡(luò)方法:有很多種形式,如多層感知、徑向基函數(shù)(RBF)等,可以顯式訓(xùn)練以區(qū)分說話人和其背景說話人,其訓(xùn)練量很大,且模型的可推廣性不好;
5、VQ聚類方法(如LBG):效果比較好,算法復(fù)雜度也不高,和HMM方法配合起來更可以收到更好的效果;
6、多項(xiàng)式分類器方法:有較高的精度,但模型存儲和計(jì)算量都比較大;
此外還有概率統(tǒng)計(jì)方法、動態(tài)時(shí)間規(guī)整方法、矢量量化方法等等。
聲紋識別技術(shù)的難點(diǎn)
目前,聲紋識別技術(shù)的市場應(yīng)用并不廣泛,,但并非這項(xiàng)技術(shù)本身不成熟,而是由于實(shí)際商業(yè)應(yīng)用場景的復(fù)雜性,很可能導(dǎo)致身份識別產(chǎn)生較大誤差。
首先,說話人的語音聲學(xué)特征不可避免地具有發(fā)展性和變異性,既便是同一個人,即便采集到的兩段語音內(nèi)容都是相同的,但是在不同的時(shí)期或特殊的情境下,由于情緒、語速、疲勞程度等原因,聲紋特征也不盡一致;
其次,聲紋特征提取是在現(xiàn)實(shí)環(huán)境中進(jìn)行的,如何降噪以及去混響依然是聲紋識別的一大難題。在外部環(huán)境中,各種噪音都會通過錄音設(shè)備采集進(jìn)來,這些噪音會在一定程度上混淆或者淹沒說話人信息,使得聲紋系統(tǒng)無法獲取準(zhǔn)確的說話人聲紋特征。因此,應(yīng)用聲紋識別技術(shù)的產(chǎn)品大多適合在相對安靜的場合使用。