国产黄色毛片-国产黄色毛片视频-国产黄色片91-国产黄色片一级-一级坐爱片-一级免费

基于VQ的語音遙控系統(tǒng)設(shè)計

所屬欄目:自動化論文 發(fā)布日期:2010-08-31 14:38 熱度:

  摘要:矢量量化(VQ)是語音識別中廣泛采用的數(shù)據(jù)壓縮和編碼方法。在實現(xiàn)孤立詞識別系統(tǒng)時VQ算法能簡單、快速、有效地實現(xiàn)語音命令的實時識別。本文討論了VQ(vectorquantization)算法與語音遙控系統(tǒng)設(shè)計,實驗結(jié)果表明基于VQ的語音識別獲得了較好的識別結(jié)果。
  關(guān)鍵詞:語音識別,矢量量化,LPC,數(shù)字信號處理
  中圖分類號:C91
  1.引言
  家用電器領(lǐng)域發(fā)展的一個重要趨勢是人機交互將更加友好,使用更為簡便。提高家電產(chǎn)品人機交互能力的一個重要手段是采用語音識別和語音合成實現(xiàn)語音交互,其中,語音識別技術(shù)實現(xiàn)技術(shù)難度相對更大。
  語音識別(SpeechRecognition,SR)主要指讓機器聽懂人說的話,即準確識別出語音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的意圖。它輸入多維模式識別和智能接口的范疇。[7]目前,語音識別廣泛應(yīng)用于軍事領(lǐng)域、安全領(lǐng)域、娛樂領(lǐng)域等。
  語音識別領(lǐng)域發(fā)展很迅速,目前語音識別方法有:基于VQ的方法;隨機模型法,比如HMM方法;基于人工神經(jīng)網(wǎng)絡(luò)的方法等,其中基于VQ的方法利用離散數(shù)值表示矢量,能夠大大壓縮信息量,減少數(shù)據(jù)存儲量;同時無需考慮復雜的統(tǒng)計模型和復雜的時間歸整問題,運算相對簡單,因此得到了廣泛應(yīng)用。尤其在識別小詞匯表孤立詞時VQ算法優(yōu)點更為突出。
  家電領(lǐng)域是小詞匯表孤立詞識別系統(tǒng),適合家用電器應(yīng)用的語音識別算法需要滿足兩個基本條件:一、簡單,就是該算法所需要的硬件資源較少,以節(jié)約硬件成本。二、快速,就是能夠做到實時識別,沒有遲滯性。VQ算法恰好能夠滿足這兩個要求。
  本文將以語音遙控系統(tǒng)設(shè)計為例探討基于VQ算法的語音識別算法。文章的第一部分是引言,簡單介紹背景,第二部分介紹VQ算法的背景知識;第三部分介紹基于VQ算法的語音識別系統(tǒng)的設(shè)計,包括硬件設(shè)計和軟件設(shè)計;第四部分是實驗部分。
  
  2.VQ語音識別算法
  2.1矢量量化(VQ)算法原理
   基于VQ的語音識別采用模式匹配原理。矢量量化是一種高效的數(shù)據(jù)壓縮技術(shù),它將n維歐氏空間Rn中的模擬矢量X依據(jù)某種準則用n維空間中的有限個點{Yi|i=1,2,…,M}表示。在矢量量化理論中,X稱為輸入矢量,Yi稱為量化矢量,{Yi|i=1,2,…,M}稱為碼本或碼書,碼字的數(shù)目M稱為碼本容量。矢量量化的準則是在給定碼本大小M時使量化所造成的失真最小,如果所有的n維矢量都用有限的M個碼字表示,并將所有的碼字進行編號,那么所有的n維矢量都可以用這些碼字的碼號表示,從而可以有效的實現(xiàn)數(shù)據(jù)壓縮。
  2.2VQ碼本的設(shè)計
  碼本的設(shè)計決定了VQ算法能否給出較低的畸變值和較高的質(zhì)量。設(shè)d(X,Y)為X和Y之間的畸變,碼本設(shè)計的規(guī)則為:第一,X選擇碼字Yl時遵循“最近鄰原則”,即tb.png ;第二,設(shè)所有選擇碼字Yl的輸入矢量X的集合為Sl,那么Yl應(yīng)使此集合中所有矢量與Yl之間的畸變平均值為最小。X與Y之間的畸變等于它們的歐氏距離,則Yl等于Sl中所有矢量的“質(zhì)心”,即:
                                          tb1.png
  其中Nl是Sl中所包含的矢量個數(shù)。
  碼本的形成一般采用LBG算法,這是一種最優(yōu)的矢量量化器設(shè)計方法。LBG算法的基本原理是:對所有語音幀向量以初始碼本作最短距離分類,即將各語音幀向量歸類到初始碼本中距離最近的碼字中去。所有訓練向量歸類結(jié)束后,分別對歸類于某一類的所有語音向量求重心,將對每一類求得的重心代替該類原來的初始碼字,得到一個新的碼本。再以此碼本替代原來的初始碼本,重新再進行歸類。重復上述過程直至新舊碼本間的距離小于給定閾值為止。
  2.3VQ語音識別流程
   采用基于無記憶VQ的語音識別流程如下:
  1) 訓練時,將同一字音的各訓練序列的各幀特征,進行聚類,可以得到含有規(guī)定數(shù)目(M)碼字的一個標本,稱為該字音的碼本。對于整個識別系統(tǒng),詞匯表內(nèi)每個字音具有其單獨的碼本。
  2) 通過統(tǒng)計確定拒識閾,即如果待識音對某碼本的標志距離超過該距離,則將不是該碼本相應(yīng)的字音。拒識閾的選擇通常通過大量統(tǒng)計事先確定。過大或者過小將導致誤識或者拒識。
  3) 識別時,待識音幀序列的每幀特征與某字音碼本的M個碼字依次作比較,記下M個距離中的最小距離。整個語音幀序列的各最小幀距離之和作為“判別距離”(標志距離)。經(jīng)過逐一計算,對與每個字音碼本,該待識音都有一個標志距離。如果最小標志距離值小于拒識閾,則最小標志距離所對應(yīng)的字音作為識別結(jié)果。
  
  3.語音遙控系統(tǒng)設(shè)計
  本系統(tǒng)由三個部分組成:第一部分為模/數(shù)轉(zhuǎn)換部分,接收輸入的語音信號,并將其轉(zhuǎn)化成數(shù)字采樣信號;第二部分為語音識別部分,對輸入的數(shù)字語音詞條信號進行分析,識別出詞條信號所代表的命令,由DSP完成;第三部分是系統(tǒng)控制部分,將語音識別結(jié)果轉(zhuǎn)換成相應(yīng)的控制信號,完成具體控制功能。下面對語音識別算法的軟件實現(xiàn)及遙控系統(tǒng)控制部分作詳細的討論。
  3.1 硬件設(shè)計
   語音遙控的硬件框圖如圖1所示。它由兩個獨立的子模塊組成:語音信號處理模塊和系統(tǒng)控制模塊。語音信號處理模塊由LM324、ADSP2181、存儲器28F020組成。其中LM324對麥克風輸入信號進行放大,28F020為存儲器,存儲的數(shù)據(jù)為語音識別所需的參數(shù)、語音識別算法產(chǎn)生的中間數(shù)據(jù)、訓練后的碼本數(shù)據(jù)、DSP系統(tǒng)的應(yīng)用程序。ADSP2181是AD公司的16位的定點DSP芯片,是整個語音識別模塊的核心,負責語音識別、以及存儲器的讀寫控制。
  系統(tǒng)控制模塊由AT89C52單片機、紅外接收發(fā)送器、電源管理電路、鍵盤和LCD液晶屏組成。AT89C52是主控芯片,負責整個系統(tǒng)控制,通過掃描用戶通過鍵盤輸入的指令,分別完成訓練遙控碼;控制DSP進行語音訓練、識別;將識別結(jié)果轉(zhuǎn)換成相應(yīng)的遙控碼,通過紅外發(fā)光管發(fā)射出去。LCD液晶屏的作用是:提示用戶操作、顯示訓練/識別是否成功以及待識音與最近的碼本的距離。單片機與DSP之間通過標準的RS232串口協(xié)議通訊。系統(tǒng)運行流程如下:
  訓練操作如下:1)按下A鍵,LCD顯示“說一個命令”;2)用戶說一個命令;3)訓練成功,LCD顯示“重復命令”;4)用戶重復所說命令;5)訓練成功,LCD重復1-4,用戶接著訓練命令;
  識別操作如下:1)按下B鍵,LCD顯示“說一個命令”;2)用戶說一個已訓練過的命令;3)識別成功,LCD顯示“識別成功”,同時相應(yīng)的遙控碼通過紅外模塊發(fā)射出去。
  在訓練或者識別過程中,如果用戶說話太大或者太小,或者說的太快導致訓練或者識別失敗,則LCD顯示“訓練失敗”或者“此為非法命令”,表示訓練或者識別失敗,用戶必須重新進行訓練或者識別。


                                            tb3.png

                                                                                     圖1 語音遙控系統(tǒng)硬件框圖 
  3.2 軟件設(shè)計
  語音遙控系統(tǒng)的軟件部分中語音識別模塊主要由四個子模塊組成:端點檢測模塊、LPC特征參數(shù)的提取模塊、似然比計算模塊、LBG算法識別模塊等構(gòu)成。端點檢測模塊將短時能頻值作為端點檢測的特征參數(shù),從背景噪聲中找出語音的起止點。LPC特征參數(shù)的提取模塊完成LPC參數(shù)的計算。似然比計算模塊完成似然比距離的計算。LBG算法識別模塊實現(xiàn)識別功能。下面先介紹一下軟件控制流程,然后介紹兩個關(guān)鍵的模塊:LPC特征參數(shù)的提取模塊與LBG算法模塊。這兩個模塊有大量的乘法和除法計算,并且需要完成浮點運算和數(shù)據(jù)精度的處理。因此這兩個模塊的設(shè)計好壞決定了語音識別的精度。最后介紹一下數(shù)據(jù)的精度處理。
  3.2.1語音識別控制流程
  語音識別程序流程圖如圖2所示。訓練時:按“A鍵”進入訓練狀態(tài),用戶訓練與遙控碼型相對應(yīng)的語音命令。使用時:按“B鍵”,進入語音識別狀態(tài),等待語音處理模塊返回結(jié)果,若返回正確的識別結(jié)果,則把相應(yīng)的遙控碼發(fā)射出去。若連續(xù)60秒無正確的命令則系統(tǒng)進入休眠狀態(tài),單片機控制電源電路切斷DSP和FLASH的電源,單片機本身也進入休眠狀態(tài),直至用戶按鍵,喚醒單片機,系統(tǒng)恢復工作。
                                     

                                tb2.png                                              

                                                                       圖2  語音識別流程圖
  3.2.2LPC特征參數(shù)的提取
  本文使用Durbin算法,預(yù)測階數(shù)為P=12,為加窗后的數(shù)據(jù),N為窗長。
  首先計算自相關(guān)    tb4.png
  LPC特征參數(shù)的提取的偽代碼描述如下:
  I(0)=R(0);K(1)=R(1)/R(0);α(1,1)=K(1);//初始化
  fori=2toP
   I(i-1)=(1-K(i-1)*K(i-1))*I(i-2);//第一循環(huán)運算
   K(i)=[R(i)-]/I(i-1);
   α(i,i)=K(i);
   forj=1toi-1
    α(j,i)=α(j,i-1)-K(i)*α(i-j,i-1);//第二循環(huán)運算
   end
  end
  forj=1toP
   A(j)=-α(j,P);//輸出結(jié)果
  end
  A(j)的輸出就是LPC系數(shù)(A(0)=1)。
  3.2.2LBG算法的軟件流程
   LBG算法的實現(xiàn)流程是軟件設(shè)計中最關(guān)鍵的部分,因為生成的碼本是識別階段的參考模板,直接關(guān)系到識別的效果,圖3為該算法實現(xiàn)的軟件流程圖。
  3.2.3數(shù)據(jù)精度的處理
  用16位的定點DSP實現(xiàn)語音識別算法時,雖然程序的運行速度很快,但是數(shù)據(jù)精度比較低。這是由于中間過程的累計誤差導致了運算結(jié)果不正確。為了提高數(shù)據(jù)的運算精度,在程序中采用了擴展精度處理方法,即在精度要求比較高的地方,中間變量采用32位甚至48位來表示。這樣,在指令條數(shù)增加不多的情況下運算精度大大提高了。
  語音識別中采用大量浮點運算操作,采用定點DSP需要解決利用定點數(shù)來表示浮點的問題。本文采用數(shù)的定標方法來實現(xiàn)。數(shù)的定標就是決定小數(shù)點在定點數(shù)中的位置。Q表示法是一種常用的定標方法,設(shè)定點數(shù)是X,浮點數(shù)是Y,則Q法表示的定點數(shù)與浮點數(shù)的轉(zhuǎn)換關(guān)系為:
  浮點數(shù)Y轉(zhuǎn)換為定點數(shù)X:X=(int)Y*(2^Q);2^Q表示2的Q次方
  定點數(shù)X轉(zhuǎn)換為浮點數(shù)Y:Y=(float)X*(2^-Q);2^-Q表示2的-Q次方
  
       tb.png  
  4.實驗
  家電遙控系統(tǒng)不需要很大的詞匯表,因此選擇了面向空調(diào)遙控的六個常用命令單詞進行測試,每個命令進行六次識別,這里碼本和待識別音來自同一人。實驗結(jié)果如下:

                    tb1.png
   中間對應(yīng)方格內(nèi)的小數(shù)表示待識音與碼本庫中最近的一個碼本的距離,在對“取暖”命令進行第三次識別時出現(xiàn)錯誤(error信息),是由于該最近距離大于預(yù)定的閾值。
  實驗表明,基于VQ的語音識別算法識別正確率為97.2%,VQ識別算法完全可以實現(xiàn)語音遙控的要求。基于VQ的語音識別技術(shù)在智能化家電網(wǎng)絡(luò)中具有廣泛的應(yīng)用前景。
  
  參考文獻
  1桂蘋,吳鎮(zhèn)揚,趙力,王維新基于VQ的說話人自動識別系統(tǒng)的實現(xiàn)電聲技術(shù)2003年第10期
  2.楊行峻,遲惠生語音信號數(shù)字處理北京電子工業(yè)出版社1995
  3.萬春基于DTW的語音識別應(yīng)用系統(tǒng)研究與實現(xiàn)集美大學學報2002年第2期
  4.梁虹語音識別中的VQ聚類方法云南大學學報(自然科學版)1998年第6期
  5.龐雄昌,樓順天語音識別及其定點DSP實現(xiàn)現(xiàn)代電子技術(shù)2003年第19期
  6.趙力編著語音信號處理機械工業(yè)出版社2005年
  7.魏艷娜,王社國一種新的基于遺傳算法的VQ碼本優(yōu)化方法現(xiàn)代電子技術(shù)2006年第13期
  8.周季華,史媛媛,劉潤生語音識別在家電遙控器中的應(yīng)用電子技術(shù)應(yīng)用2002年第8期
  
  
  

文章標題:基于VQ的語音遙控系統(tǒng)設(shè)計

轉(zhuǎn)載請注明來自:http://www.optiwork.cn/fblw/ligong/zidonghua/3241.html

相關(guān)問題解答

SCI服務(wù)

搜論文知識網(wǎng) 冀ICP備15021333號-3

主站蜘蛛池模板: 女人一级特纯黄大片色 | 国产成人精品一区二三区在线观看 | 久久久久久久久久久久久久久久久久 | 国产真实乱子伦xxxxchina | 亚洲精品成人a | 国产在线欧美日韩精品一区二区 | japonensis国产福利 | 香港一级纯黄大片 | 99视频在线免费看 | 久久99热久久精品91 | 暖暖视频日韩欧美在线观看 | 亚洲区精品久久一区二区三区 | 欧洲成人r片在线观看 | 欧美亚洲精品在线 | 日本一级在线观看 | 国产人成亚洲第一网站在线播放 | 美国一级毛片片aaa 美国一级毛片片aa成人 | 在线播放日韩 | 国产毛片一区二区三区精品 | 国产亚洲影院 | 毛片免费在线视频 | 中文字幕在线播放 | 一区二区三区欧美视频 | 伊人狼人影院 | 国产美女精品视频 | 国产精品亚洲专区一区 | 亚洲成a人片在线观看精品 亚洲成a人片在线观看中 | 亚洲精品欧美日韩 | 国内精品视频九九九九 | 一级毛片视频免费 | 不卡一区在线观看 | 日本午夜vr影院新入口 | 欧美大片aaaa一级毛片 | 亚洲国产精品aaa一区 | 欧美日韩在线观看区一二 | 99热久久国产精品一区 | 免费一级特黄 | 国产精品2019 | 成人午夜久久精品 | 人碰人碰人成人免费视频 | 欧美性色黄大片www 欧美性色黄大片一级毛片视频 |