鬼佬大哥大
  • / 14
  • 下載費用:30 金幣  

針對兒童的語音識別方法及裝置.pdf

摘要
申請專利號:

CN201410145971.5

申請日:

2014.04.11

公開號:

CN103956162A

公開日:

2014.07.30

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G10L 15/02申請日:20140411|||公開
IPC分類號: G10L15/02; G10L15/05(2013.01)I; G10L15/26 主分類號: G10L15/02
申請人: 上海元趣信息技術有限公司
發明人: 張峰; 賴偉; 吳義堅
地址: 201203 上海市嘉定區安亭鎮曹安公路5128號1幢1層1031室
優先權: 2014.04.04 CN 201410136183.X
專利代理機構: 北京智匯東方知識產權代理事務所(普通合伙) 11391 代理人: 薛峰;范曉斌
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201410145971.5

授權公告號:

||||||

法律狀態公告日:

2017.02.08|||2014.08.27|||2014.07.30

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明提供了一種針對兒童的語音識別方法及裝置。其中,該方法包括:建立聲學模型和語言模型;接收所述兒童的語音信號,并對所述語音信號進行前端處理;獲取語音信號的聲學特征;通過所述聲學模型和所述語言模型對所述語音信號的聲學特征進行解碼搜索,以獲得識別文本;對所述識別文本進行語義理解處理,以獲得語義理解結果;其中所述建立聲學模型包括:對所述語音語料庫中的全部語音語料進行特征提取處理,并在所述特征提取處理過程中加入聲道長度歸一化技術。通過本發明的語音識別方法,能夠根據兒童聲道短、發音速度變化大、無意義助聲詞較多等發音特點更有效地解析兒童的語言指令,大幅度提高兒童語音識別率。

權利要求書

權利要求書
1.  一種針對兒童的語音識別方法,包括:
通過已知的語音語料庫和文本語料庫分別建立聲學模型和語言模型;
接收所述兒童的語音信號,并對所述語音信號進行前端處理;
對經過所述前端處理的所述語音信號進行特征提取處理,以獲取語音信號的聲學特征;
通過所述聲學模型和所述語言模型對所述語音信號的聲學特征進行解碼搜索,以獲得識別文本;
對所述識別文本進行語義理解處理,以獲得語義理解結果;其中
所述通過已知的語音語料庫建立聲學模型包括:
對所述語音語料庫中的全部語音語料進行特征提取處理,并在所述特征提取處理過程中加入聲道長度歸一化技術,以獲得所述全部語音語料的聲學特征;
根據所述全部語音語料的聲學特征進行建模,以獲得所述聲學模型。

2.  根據權利要求1所述的方法,其特征在于,所述建立聲學模型步驟中,根據所述全部語音語料的聲學特征進行建模包括:
通過隱馬爾科夫模型對所述全部語音語料的聲學特征進行建模,以獲得所述聲學模型。

3.  根據權利要求2所述的方法,其特征在于,根據所述全部語音語料的聲學特征進行建模,以獲得所述聲學模型包括:
對所述全部語音語料的聲學特征進行建模,生成第一聲學模型AM1;
提取所述語音語料庫中女性語音語料的聲學特征,以所述AM1作為初始模型,對所述女性語音語料的聲學特征進行建模,生成第二聲學模型AM2;
提取所述語音語料庫中兒童語音語料的聲學特征,以所述AM2作為初始模型,對所述兒童語音語料的聲學特征進行建模,生成第三聲學模型AM3,并確認所述AM3為所述聲學模型。

4.  根據權利要求1所述的方法,其特征在于,所述通過已知的語音語料庫建立聲學模型時,還包括:
為兒童語音中的靜音建立靜音模型,并將所述靜音模型加入所述聲學模型,以識別兒童語音中的靜音。

5.  根據權利要求1所述的方法,其特征在于,所述通過已知的語音語料 庫建立聲學模型時,還包括:
為兒童語音中的語氣詞建立語氣詞模型,并將所述語氣詞模型加入所述聲學模型,以識別所述兒童語音中的語氣詞。

6.  根據權利要求5所述的方法,其特征在于,為多個語氣詞建立一個語氣詞模型,和/或,為每個語氣詞建立一個語氣詞模型。

7.  根據權利要求1所述的方法,其特征在于,所述通過已知的文本語料庫建立語言模型包括:
抽取所述文本語料庫中的10%至30%的文本語料作為待變形文本語料;
對所述待變形文本語料進行變形處理,以獲得變形文本語料;
將所述變形文本語料與所述文本語料庫中未被抽取的文本語料進行合并,以獲得混合文本語料庫;
對所述混合文本語料庫進行建模,以獲得所述語言模型;其中
對所述待變形文本語料進行變形處理包括;
對所述待變形文本語料中所有的語句進行分詞處理;
在經過所述分詞處理的所述待變形文本語料中,隨機選擇至少一個詞進行重復處理,以獲得所述變形文本語料。

8.  根據權利要求7所述的方法,其特征在于,隨機選擇至少一個詞進行重復處理,包括以下至少之一:
隨機選擇至少一個詞進行詞重復處理;
隨機選擇至少一個詞進行詞尾重復處理;
隨機選擇至少一個詞進行助聲詞增多處理,其中,所述助聲詞增多處理包括在所述待變形文本語料中,隨機在兩個詞之間增加至少一個語氣詞。

9.  根據權利要求8所述的方法,其特征在于,對所述識別文本進行語義理解處理包括如下步驟中的至少一個:
通過對所述識別文本進行常規詞語法分析,去除所述識別文本中連續出現重復的詞,以獲得所述語義理解結果;
通過對所述識別文本進行常規詞語法分析,去除所述識別文本中詞尾重復的疊詞,以獲得所述語義理解結果;
通過對所述識別文本進行常規詞語法分析和句法分析,去除所述識別文本中詞與詞之間多余的語氣詞,以獲得所述語義理解結果。

10.  一種針對兒童的語音識別裝置,包括:
模型建立模塊,配置為通過已知的語音語料庫和文本語料庫分別建立聲學 模型和語言模型;
接收模塊,配置為接收所述兒童的語音信號,并對所述語音信號進行前端處理;
特征提取處理模塊,配置為對經過所述前端處理的所述語音信號進行特征提取處理,以獲取語音信號的聲學特征;
識別文本獲得模塊,配置為通過所述聲學模型和所述語言模型對所述語音信號的聲學特征進行解碼搜索,以獲得識別文本;
語義理解處理模塊,配置為對所述識別文本進行語義理解處理,以獲得語義理解結果;其中
所述模型建立模塊還配置為通過以下步驟建立聲學模型:
對所述語音語料庫中的全部語音語料進行特征提取處理,并在所述特征提取處理過程中加入聲道長度歸一化技術,以獲得所述全部語音語料的聲學特征;
根據所述全部語音語料的聲學特征進行建模,以獲得所述聲學模型。

說明書

說明書針對兒童的語音識別方法及裝置
技術領域
本發明涉及語音識別領域,特別是涉及一種針對兒童的語音識別方法及裝置。
背景技術
隨著智能移動終端技術和語音交互技術高速發展,以及語音交互技術在智能移動終端的廣泛應用,使得智能移動終端具備語音交互功能。通常的語音交互技術中,由于受到采集難易程度和采集成本等不同因素影響,使得已知語料庫中是以采集較為方便的成人語料為主,兒童語料占據比例小。但是,與成年人相比,兒童的發音有著聲道長度短、發音速度變化大以及無意義語氣詞較多等特點,因此,采用上述已知語料庫的語音識別系統對兒童語音的針對性不足,對成年人的語音進行語音識別處理的準確度要高于兒童的。
發明內容
本發明的一個目的是要提供一種至少部分地解決上述問題的針對兒童的語音識別方法以及相應的裝置。
特別地,本發明提供了一種針對兒童的語音識別方法,包括:通過已知的語音語料庫和文本語料庫分別建立聲學模型和語言模型;接收所述兒童的語音信號,并對所述語音信號進行前端處理;對經過所述前端處理的所述語音信號進行特征提取處理,以獲取語音信號的聲學特征;通過所述聲學模型和所述語言模型對所述語音信號的聲學特征進行解碼搜索,以獲得識別文本;對所述識別文本進行語義理解處理,以獲得語義理解結果;其中所述通過已知的語音語料庫建立聲學模型包括:對所述語音語料庫中的全部語音語料進行特征提取處理,并在所述特征提取處理過程中加入聲道長度歸一化技術,以獲得所述全部語音語料的聲學特征;根據所述全部語音語料的聲學特征進行建模,以獲得所述聲學模型。
進一步地,所述建立聲學模型步驟中,根據所述全部語音語料的聲學特征進行建模包括:通過隱馬爾科夫模型對所述全部語音語料的聲學特征進行建 模,以獲得所述聲學模型。
進一步地,根據所述全部語音語料的聲學特征進行建模,以獲得所述聲學模型包括:對所述全部語音語料的聲學特征進行建模,生成第一聲學模型AM1;提取所述語音語料庫中女性語音語料的聲學特征,以所述AM1作為初始模型,對所述女性語音語料的聲學特征進行建模,生成第二聲學模型AM2;提取所述語音語料庫中兒童語音語料的聲學特征,以所述AM2作為初始模型,對所述兒童語音語料的聲學特征進行建模,生成第三聲學模型AM3,并確認所述AM3為所述聲學模型。
進一步地,所述通過已知的語音語料庫建立聲學模型時,還包括:為兒童語音中的靜音建立靜音模型,并將所述靜音模型加入所述聲學模型,以識別兒童語音中的靜音。
進一步地,所述通過已知的語音語料庫建立聲學模型時,還包括:為兒童語音中的語氣詞建立語氣詞模型,并將所述語氣詞模型加入所述聲學模型,以識別所述兒童語音中的語氣詞。
進一步地,為多個語氣詞建立一個語氣詞模型,和/或,為每個語氣詞建立一個語氣詞模型。
進一步地,所述通過已知的文本語料庫建立語言模型包括:抽取所述文本語料庫中的10%至30%的文本語料作為待變形文本語料;對所述待變形文本語料進行變形處理,以獲得變形文本語料;將所述變形文本語料與所述文本語料庫中未被抽取的文本語料進行合并,以獲得混合文本語料庫;對所述混合文本語料庫進行建模,以獲得所述語言模型;其中對所述待變形文本語料進行變形處理包括;對所述待變形文本語料中所有的語句進行分詞處理;在經過所述分詞處理的所述待變形文本語料中,隨機選擇至少一個詞進行重復處理,以獲得所述變形文本語料。
進一步地,隨機選擇至少一個詞進行重復處理,包括以下至少之一:隨機選擇至少一個詞進行詞重復處理;隨機選擇至少一個詞進行詞尾重復處理;隨機選擇至少一個詞進行助聲詞增多處理,其中,所述助聲詞增多處理包括在所述待變形文本語料中,隨機在兩個詞之間增加至少一個語氣詞。
進一步地,對所述識別文本進行語義理解處理包括如下步驟中的至少一個:通過對所述識別文本進行常規詞語法分析,去除所述識別文本中連續出現重復的詞,以獲得所述語義理解結果;通過對所述識別文本進行常規詞語法分析,去除所述識別文本中詞尾重復的疊詞,以獲得所述語義理解結果;通過對 所述識別文本進行常規詞語法分析和句法分析,去除所述識別文本中詞與詞之間多余的語氣詞,以獲得所述語義理解結果。
依據本發明的另一方面,還提供了一種針對兒童的語音識別裝置,包括:模型建立模塊,配置為通過已知的語音語料庫和文本語料庫分別建立聲學模型和語言模型;接收模塊,配置為接收所述兒童的語音信號,并對所述語音信號進行前端處理;特征提取處理模塊,配置為對經過所述前端處理的所述語音信號進行特征提取處理,以獲取語音信號的聲學特征;識別文本獲得模塊,配置為通過所述聲學模型和所述語言模型對所述語音信號的聲學特征進行解碼搜索,以獲得識別文本;語義理解處理模塊,配置為對所述識別文本進行語義理解處理,以獲得語義理解結果;其中所述模型建立模塊還配置為通過以下步驟建立聲學模型:對所述語音語料庫中的全部語音語料進行特征提取處理,并在所述特征提取處理過程中加入聲道長度歸一化技術,以獲得所述全部語音語料的聲學特征;根據所述全部語音語料的聲學特征進行建模,以獲得所述聲學模型。
本發明實施例提供的針對兒童的語音識別方法能夠在提取全部語音語料的聲學特征過程中加入聲道長度歸一化技術,并以此建立聲學模型,避免現有技術中對兒童語音識別不準的問題。本發明實施例中,依次通過全部語音語料中的女性語料和兒童語料作為訓練數據來進行反復建模,并在對聲學模型進行建立時,針對兒童發音速度變化大、容易出現大段靜音的問題,在聲學模型中添加建立靜音模型以及語氣詞模型,使得最終得到的聲學模型更接近于兒童語音發音特點,合理高效地提高對兒童語音的識別率,達到對兒童語音針對性更強,語音識別率更高,識別結果更加準確的有益效果。另外,本發明實施例中,通過包括有變形文本語料的混合文本語料庫建立語言模型,對兒童語音進行識別,使得識別率更高;本發明的語義理解步驟中,能夠針對性地對語言模型處理中得到的具有詞重復、疊詞的詞尾重復或者詞與詞之間具有多余語氣詞的識別文本進行相應的語義理解處理,以得到正確的語義理解結果。
綜上,本發明實施例提供的針對兒童的語音識別方法能夠解決現有技術中對兒童語音識別不準的問題,達到合理高效提高兒童語音的識別率的有益效果。
根據下文結合附圖對本發明具體實施例的詳細描述,本領域技術人員將會更加明了本發明的上述以及其他目的、優點和特征。
附圖說明
后文將參照附圖以示例性而非限制性的方式詳細描述本發明的一些具體實施例。附圖中相同的附圖標記標示了相同或類似的部件或部分。附圖中:
圖1示出了根據本發明一個實施例的針對兒童的語音識別方法的流程圖;
圖2示出了根據本發明一個實施例的聲學模型建立的流程圖;
圖3示出了根據本發明另一個實施例的聲學模型建立的流程圖;
圖4示出了根據本發明一個實施例的語言模型建立的流程圖;以及
圖5示出了根據本發明一個實施例的針對兒童的語音識別裝置的結構示意圖。
具體實施方式
圖1示出了根據本發明一個實施例的針對兒童的語音識別方法的處理流程圖。參見圖1,本發明實施例的語音識別方法至少包括通過現有語音識別系統進行語音識別的步驟S101至步驟S105。
在步驟S101中,通過已知的語音語料庫和文本語料庫分別建立聲學模型和語言模型。其中,語音語料庫和文本語料庫可以采用已有的適合的語音語料庫和文本語料庫,并且語音語料庫和文本語料庫中均是成人的數據量遠大于兒童的數據量。
在步驟S102中,接收來自兒童的語音信號,并對該語音信號進行前端處理,通常的前端處理可以包括例如去除噪音等。
在步驟S103中,對經過前端處理的語音信號進行特征提取處理,以獲取語音信號的聲學特征。
在步驟S104中,通過步驟S101中建立的聲學模型和語言模型對語音信號的聲學特征進行解碼搜索,以獲得識別文本。
在步驟S105中,對識別文本進行語義理解處理,以獲得語義理解結果。
本發明實施例提供的針對兒童的語音識別方法能夠在提取全部語音語料的聲學特征過程中加入聲道長度歸一化技術,并以此建立聲學模型,避免現有技術中對兒童語音識別不準的問題。本發明實施例中,依次通過全部語音語料中的女性語料和兒童語料作為訓練數據來進行反復建模,并在對聲學模型進行建立時,針對兒童發音速度變化大、容易出現大段靜音的問題,在聲學模型中添加建立靜音模型以及語氣詞模型,使得最終得到的聲學模型更接近于兒童語音發音特點,合理高效地提高對兒童語音的識別率,達到對兒童語音針對性更 強,語音識別率更高,識別結果更加準確的有益效果。另外,本發明實施例中,通過包括有變形文本語料的混合文本語料庫建立語言模型,對兒童語音進行識別,使得識別率更高;本發明的語義理解步驟中,能夠針對性地對語言模型處理中得到的具有詞重復、疊詞的詞尾重復或者詞與詞之間具有多余語氣詞的識別文本進行相應的語義理解處理,以得到正確的語義理解結果。綜上,本發明實施例提供的針對兒童的語音識別方法能夠解決現有技術中對兒童語音識別不準的問題,達到合理高效提高兒童語音的識別率的有益效果。
在通過語音系統進行語音識別時,對于一個通用的非特定人的語音識別系統而言,語音信號首先被輸入特征提取以及特征處理模塊,得到語音信號的聲學特征。之后,使用數學模型對大量語音特征的發音統計特點和大量發音文本的統計特點分別進行描述。其中,使用數學模型對大量語音特征的發音統計特點進行描述稱為聲學模型,使用數學模型對大量發音文本的統計特點進行描述稱為語言模型。
上文提及,本發明實施例中,在對接收到的語音信號進行前端處理以及特征提取處理之后,獲取接收到的兒童的語音信號對應的聲學特征,通過將聲學模型和語言模型對兒童的語音信號的聲學特征進行解碼搜索,獲得識別文本。因此,本發明實施例中,獲取準確的、與兒童語音信號對應的識別文本的重要步驟為建立正確、識別率高的聲學模型和語言模型。
現分別對本發明實施例中建立聲學模型的過程以及建立語言模型的過程進行介紹。
圖2示出了根據本發明一個實施例的聲學模型建立的處理流程圖流程圖。參見圖2,該過程至少包括步驟S201至步驟S202。
在步驟S201中,對語音語料庫中的全部語音語料進行特征提取處理。例如,對語音語料中的全部語音語料進行梅爾域倒普系數(Mel Frequency Cepstrum Coefficient,MFCC)特征的提取。其中,語音語料庫中的全部語音語料包括成人的語音語料以及兒童的語音語料。在對全部語音語料進行特征提取時,在處理過程中加入聲道長度歸一化(Vocal Tract Length Normalization,VTLN)技術。聲道長度歸一化技術是語音識別的經典算法,通過該技術能夠對語音信號的頻譜進行調整,進而修正聲道長度,以避免聲道長度不同帶來的特征差異,進而能夠避免后續操作中對兒童語音的識別過程造成不良影響。在對非特定人進行語音識別的過程中,不同的人的語音信號之間的差異主要是聲道形狀,尤其是聲道長度。例如,成年男性的語音信號的聲道長度平均值為18 厘米,成年女性的語音信號的聲道長度平均值為13厘米,而8歲兒童的語音信號的聲道長度平均值為10厘米。現有技術中,訓練聲學模型的語音語料以成人的語音語料為主,這種兒童語音語料的缺乏導致,在使用該種語音語料訓練得到的聲學模型對兒童的語音信號進行識別時,識別率將會下降,無法保證識別的準確性。為解決兒童與成人聲道差異導致的發音變化問題,在對語音提取特征時,采用VTLN技術,通過對聲道長度的修整來調節兒童語音的特征,使得兒童的語音信號更容易被識別。
對語音語料進行特征提取之后,執行步驟S202。在步驟S202中,根據全部語音語料的聲學特征進行建模,以獲得聲學模型。為獲得能夠對聲道比成人聲道短的兒童語音信息進行準確識別的聲學模型,優選地,本發明實施例中,通過隱馬爾科夫(Hidden Markov Model,以下簡稱HMM)模型對全部語音語料的聲學特征進行建模。需要說明的是,在其他備選實施例中,還可以采用其他適合的模型進行建模,本發明對此并不加以限定。
上文介紹了本發明實施例中建立聲學模型的處理流程,由于實際操作中,成人的訓練語料較易收集,而兒童的訓練語料收集復雜,并且收集的成本較高,因此,通常建立的聲學模型在對兒童的語音信息進行識別時,容易導致針對性不足、識別率不高的問題。為優化本發明實施例中建立聲學模型的處理流程,進一步提高使用本發明實施例對兒童語音信息的識別率,在上文提供的建立聲學模型的基礎上,本發明實施例還提供另一個聲學模型的建立流程。圖3示出了根據本發明另一個實施例的聲學模型建立的流程圖。如圖3所示,該聲學模型建立流程至少包括步驟S301至S303。
在步驟S301中,通過HMM模型對全部語音語料的聲學特征進行建模,生成第一聲學模型AM1。
在步驟S302中,由于成年人男性的發音與兒童相差較大,而成年女性的發音與兒童相差較小,因此,提取語音語料庫中女性語音語料的聲學特征。以上述AM1作為初始模型,對女性語音語料的聲學特征進行建模,生成第二聲學模型AM2。
在步驟S303中,提取語音語料庫中兒童語音語料的聲學特征,以上述AM2作為初始模型,對兒童語音語料的聲學特征進行建模,生成第三聲學模型AM3,并確認AM3為聲學模型。
需要說明的是,本發明實施例中的聲學模型除了常用的中文聲韻母模型的配置方式,還可以加入下文將要描述的靜音模型和語氣詞模型。現對本發明實 施例中的靜音模型以及語氣詞模型進行分別介紹。
由于兒童發音語速變化大,并且兒童的語音信息中可能出現會說說停停的問題,因此,需要在聲學模型的設置中加入靜音模型,來識別兒童語音中可能出現大段靜音的情況。本發明實施例中,在建立聲學模型時,需要對不同的發音建立單獨的模型。以中文為例,需要對66個聲韻母單獨建立HMM模型。并且,本發明實施例能夠進一步增大靜音模型的描述精度。例如,在通常的聲音模型中,采用32個高斯混合模型(Gassion Mixture Model,以下簡稱GMM)進行描述聲韻母的HMM的每個狀態,則在建立本發明實施例中的靜音模型時,可以將GMM的采用個數提升為至少采用64個。本發明實施例中,針對兒童發音速度變化大、容易出現大段靜音的發音特點,在建立的聲音模型中添加靜音模型,提高對兒童語音信息的識別率,合理高效地增大對兒童語音信息識別的準確性。
另外,上文提及,本發明實施例建立的聲學模型中還可以添加語氣詞模型。由于兒童發音時經常會出現無意義的語氣詞,例如“嗯”、“啊”、“哦”,等,因此,為提高對兒童語音信息的識別率,在聲學模型的設置中加入語氣詞模型,單獨對語氣詞建立數學模型。優選地,本發明實施例中,可以在訓練語料不足的情況下,對“嗯”、“啊”、“哦”等多個語氣詞共建立一個模型,還可以在訓練語料多的情況下,對每個語氣詞分別建立一個模型。本發明實施例中,針對兒童無意義的語氣詞較多的發音特點,在聲學模型的建立中,添加語氣詞模型,進一步提高對兒童語音的識別率,增大識別的準確性。
上文介紹了本發明實施例中對聲學模型的建立,在對兒童的語音信息進行識別時,除通過聲學模型對語音信號的聲學特征進行解碼搜索外,還需要通過語言模型對語音信號的聲學特征進行解碼搜索。因此,現對本發明實施例中對語言模型的建立進行介紹。
現有技術中,語音識別所用的到語言模型均采用N-gram的統計語言模型。在使用該種技術建立語言模型時,為生成語言模型,通常需要大量的文本語料對各個字詞之間的N-gram進行統計。因此,現有技術中,建立模型所采用的文本語料越接近兒童的發音方式,識別性能就越好。但是,兒童發音與成人發音存在巨大的差異,而大部分的文本語料庫如同上文曾提及的語音語料庫,以成人文本語料為主。因此,文本語料庫并不能夠準確地描述或者涵蓋兒童的發音方式。
為取得能夠準確描述或者涵蓋兒童的發音方式的文本語料庫,本發明實施 例對文本語料庫進行變形處理。在對文本語料庫進行變形處理時,考慮到兒童的性格和/或天性和/或本能,設置適合兒童的發音方式的預設變性規則。
例如,由于兒童的天性或者本能為兒童喜歡對看見和/或聽見和/或聞見和/或通過其他感官接觸到的事物進行異想天開的聯想,導致兒童的發音方式容易出現如下發音特點:
同一個詞可能會多次重復。例如“蘋果好吃”會說成“蘋果蘋果好吃”。
詞尾的字也可能會重復。例如“蘋果好吃”會說成“蘋果果好吃”,或“蘋果好吃吃”等。
無意義的助聲詞增多。例如“蘋果好吃”會說出“蘋果、嗯、好吃”,或“蘋、啊、果、好吃”等。
因此,針對兒童的發音特點,本發明實施例對文本語料庫的文本進行變形處理,并通過變形的文本語料庫建立更加準確的語音模型以增加對兒童語音識別的準確性。圖4示出了根據本發明一個實施例的語言模型建立的流程圖。如圖4所示,本發明實施例的語言模型的建立至少包括步驟S401至步驟S404。
在步驟S401中,抽取文本語料庫中的10%至30%的文本語料作為待變形文本語料,本實施例優選抽取20%。需要說明的是,本發明實施例中,抽取的、作為待變形的文本語料的百分比可以根據文本語料庫的不同進行不同的設置,本發明實施例對比并不加以限定。本例中,設置抽取的待變形文本語料的預設值為10%至30%。并且,為將本發明實施例闡述得更加具體清楚,本例中,優選抽取20%文本語料作為待變形的文本語料。
抽取到待變形的文本語料之后,執行步驟S402。在步驟S402中,對待變形文本語料進行變形處理,以獲得變形文本語料。本發明實施例中,對待變形文本語料進行變形處理時,首先對待變形文本語料中所有的語句進行分詞處理。即,將完整的語句變成獨立的詞。例如“今天媽媽買的蘋果真好吃”分詞后變成“今天媽媽買的蘋果真好吃”。
其次,在經過分詞處理的待變形文本語料中,隨機選擇至少一個詞進行重復處理。本發明實施例中,對經過分詞處理的待變形文本語料中隨機選擇的至少一個詞進行的重復處理,可以是根據兒童發音方式對待變形文本語料進行的任意重復處理操作。優選地,本發明實施例中,根據兒童發音方式中常見的情況,選取三種重復處理操作,即詞重復處理、詞尾重復處理以及助聲詞增多處理。在對待變形文本語料進行分詞處理之后,本發明實施例能夠選取上述三種重復處理操作中的一種或者多種對待變形語料進行變性。并且,本發明實施例 中,若選取三種重復處理操作中的多種對待變形語料進行變形,則本發明實施例對執行不同重復處理的順序不加限定。
現對本發明實施例優選地詞重復處理、詞尾重復處理以及助聲詞增多處理分別進行介紹。在對進行分詞處理之后的待變形文本語料進行詞重復處理時,設置重復比例百分率因子,并根據設置的因子選取待變形語料文本中的詞進行重復。例如:預先設置一個重復比例百分率因子F,假設預設F=1,表示所有詞都重復,則上文中的例句“今天媽媽買的蘋果真好吃”分詞為“今天媽媽買的蘋果真好吃”之后,進一步變為“今天今天媽媽媽媽買的買的蘋果蘋果真真好吃好吃”。如F=0.4,表示隨機選出40%的詞重復:“今天媽媽買的蘋果真好吃”有6個字詞,6*40%=2.4。進一步將2.4取整為3,隨機挑選后該句子最后變成“今天今天媽媽買的蘋果蘋果真真好吃”。
上文介紹了本發明實施例中對待變形文本語料進行詞重復處理的操作過程,現對詞尾重復處理操作進行介紹。本發明實施例中,對待變形文本語料進行詞尾重復處理時,設置重復比例百分率因子,并根據該因子的值選取待變形語料文本中的詞的詞尾進行重復處理。例如:預先設置一個重復比例百分率因子L,假設預設L=1,表示所有詞都進行詞尾重復處理:“今天媽媽買的蘋果真好吃”變成“今天天媽媽媽買的的蘋果果真真好吃吃”。如L=0.4,表示隨機選出40%的詞進行詞尾重復處理:“今天媽媽買的蘋果真好吃”有6個字詞,6*40%=2.4取整為3,隨機挑選后該句子最后變成“今天天媽媽買的蘋果果真真好吃”。
除對經過分詞處理的待變形文本語料進行詞重復處理以及詞尾重復處理之外,上文提及,本發明實施例還能夠對待變形文本語料進行助聲詞增多處理。在進行助聲詞增多處理時,本發明實施例在待變形文本語料中,隨機選擇兩個詞,并在兩個詞之間增加語氣詞。例如:預先設置一個重復比例百分率因子K,插入的助聲詞在助聲詞列表中隨機選擇。如K=1,表示所有詞都進行助聲詞增多處理:“今天媽媽買的蘋果真好吃”變成“今天嗯媽媽啊買的咦蘋果嗯真哦好吃啊”。如L=0.4,表示隨機選出40%的詞進行助聲詞增多處理:“今天媽媽買的蘋果真好吃”有6個字詞,6*40%=2.4取整為3。隨即挑選后該句子最后變成“今天哦媽媽買的蘋果啊真啊好吃”。
需要說明的是,上文提及的對重復比例百分率因子的設置僅為示例,實際運用中對該因子的設置可以是符合實際運用的任意設置值,本發明實施例對此 并不加以限定。
對待變形文本語料進行變形處理之后,觸發步驟S403。在步驟S403中,將變形文本語料與文本語料庫中未被抽取的文本語料進行合并,以獲得混合文本語料庫。
在步驟S404中,對混合文本語料庫進行建模,以獲得語言模型。
本發明實施例中,由于在訓練語言模型的文本語料庫做了文本變形處理,因此,在最終的兒童語音識別結果的文本中,通過改進的語義理解模型進行相應的文本變形后處理。優選地,本發明實施例中,對識別文本進行語義理解處理的步驟包括下列至少之一:首先,通過對識別文本進行常規詞語法分析,去除識別文本中連續出現重復的詞,以獲得所述語義理解結果;例如“今天媽媽買的蘋果蘋果真好吃”變成“今天媽媽買的蘋果真好吃”。其次,通過對識別文本進行常規詞語法分析,去除識別文本中詞尾重復的疊詞,以獲得語義理解結果。例如,“今天媽媽買的蘋果果真好吃”變成“今天媽媽買的蘋果真好吃”。最后,通過對識別文本進行常規詞語法分析和句法分析,去除識別文本中詞與詞之間多余的語氣詞,以獲得語義理解結果。例如“今天媽媽買的蘋果嗯真好吃”變成“今天媽媽買的蘋果真好吃”。本發明實施例中,在對識別文本進行語義理解處理時,對識別文本進行常規語法分析以及基礎的句法分析,并找出句法主體結構之外的組詞等無意義的詞,加以去除,并獲得語義理解結果。另外,語義理解模型還可以根據訓練語言模型的兒童語料庫,分析特征提取模式規則,并結合應用規則和統計模型的方法,對語音識別的文本進行分析和處理,得到準確性更高的語義理解結果,進一步提高兒童的語音識別的準確性。
基于上文各優選實施例提供的針對兒童的語音識別方法,基于同一發明構思,本發明實施例提供了一種針對兒童的語音識別裝置,用于實現上述針對兒童的語音識別方法。
圖5示出了根據本發明一個實施例的針對兒童的語音識別裝置的結構示意圖。參見圖5,本發明實施例提供的針對兒童的語音識別裝置至少包括:模型建立模塊510、接收模塊520、特征提取處理模塊530、識別文本獲得模塊540以及語義理解處理模塊550。
現介紹本發明實施例的針對兒童的語音識別裝置中的各器件或組成的功能以及各部分間的連接關系:
模型建立模塊510,配置為通過已知的語音語料庫和文本語料庫分別建立聲學模型和語言模型。
接收模塊520,與特征提取模塊530相耦合,配置為接收兒童的語音信號,并對語音信號進行前端處理。
特征提取處理模塊530,與接收模塊520以及識別文本獲得模塊540分別耦合,配置為對經過前端處理的語音信號進行特征提取處理,以獲取語音信號的聲學特征。
識別文本獲得模塊540,與模型建立模塊510以及語義理解處理模塊550分別相耦合,配置為通過聲學模型和語言模型對語音信號的聲學特征進行解碼搜索,以獲得識別文本。
語義理解處理模塊550,與識別文本獲得模塊540相耦合,配置為對識別文本進行語義理解處理,以獲得語義理解結果。
本發明實施例中,模型建立模塊510還配置為通過以下步驟建立聲學模型:
對語音語料庫中的全部語音語料進行特征提取處理,并在特征提取處理過程中加入聲道長度歸一化技術,以獲得全部語音語料的聲學特征;
根據全部語音語料的聲學特征進行建模,以獲得聲學模型。
根據上述任意一個優選實施例或多個優選實施例的組合,本發明實施例能夠達到如下有益效果:
本發明實施例提供的針對兒童的語音識別方法能夠在提取全部語音語料的聲學特征過程中加入聲道長度歸一化技術,并以此建立聲學模型,避免現有技術中對兒童語音識別不準的問題。本發明實施例中,依次通過全部語音語料中的女性語料和兒童語料作為訓練數據來進行反復建模,并在對聲學模型進行建立時,針對兒童發音速度變化大、容易出現大段靜音的問題,在聲學模型中添加建立靜音模型以及語氣詞模型,使得最終得到的聲學模型更接近于兒童語音發音特點,合理高效地提高對兒童語音的識別率,達到對兒童語音針對性更強,語音識別率更高,識別結果更加準確的有益效果。另外,本發明實施例中,通過包括有變形文本語料的混合文本語料庫建立語言模型,對兒童語音進行識別,使得識別率更高;本發明的語義理解步驟中,能夠針對性地對語言模型處理中得到的具有詞重復、疊詞的詞尾重復或者詞與詞之間具有多余語氣詞的識別文本進行相應的語義理解處理,以得到正確的語義理解結果。
綜上,本發明實施例提供的針對兒童的語音識別方法能夠解決現有技術中對兒童語音識別不準的問題,達到合理高效提高兒童語音的識別率的有益效果。
至此,本領域技術人員應認識到,雖然本文已詳盡示出和描述了本發明的 多個示例性實施例,但是,在不脫離本發明精神和范圍的情況下,仍可根據本發明公開的內容直接確定或推導出符合本發明原理的許多其他變型或修改。因此,本發明的范圍應被理解和認定為覆蓋了所有這些其他變型或修改。

關 鍵 詞:
針對 兒童 語音 識別 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:針對兒童的語音識別方法及裝置.pdf
鏈接地址:http://www.wwszu.club/p-6140716.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大