鬼佬大哥大
  • / 14
  • 下載費用:30 金幣  

一種基于語音識別的視頻播放控制方法和系統.pdf

關 鍵 詞:
一種 基于 語音 識別 視頻 播放 控制 方法 系統
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
摘要
申請專利號:

CN201210025924.8

申請日:

2012.02.07

公開號:

CN102568478B

公開日:

2015.01.07

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G10L 15/26申請日:20120207|||公開
IPC分類號: G10L15/30(2013.01)I; G10L15/02; G10L15/06(2013.01)I; G10L25/48(2013.01)I; H04N21/432(2011.01)I 主分類號: G10L15/30
申請人: 合一網絡技術(北京)有限公司
發明人: 吳昊宇; 鄧龍; 姚鍵; 邱丹; 潘柏宇; 盧述奇; 劉睿姝
地址: 100080 北京市海淀區海淀大街8號中鋼國際廣場A座5層A、C區
優先權:
專利代理機構: 北京慶峰財智知識產權代理事務所(普通合伙) 11417 代理人: 劉元霞
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201210025924.8

授權公告號:

102568478B||||||

法律狀態公告日:

2015.01.07|||2012.09.12|||2012.07.11

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種基于語音識別的視頻控制方法,包括:對用戶的語音進行訓練提取語音特征并保存在語音特征庫中;接收用戶的語音控制命令,與所述保存的用戶語音特征進行對比;其中,當該用戶的語音特征與服務器中的用戶語音特征相匹配后,提取該語音控制命令并基于該語音控制命令進行視頻播放的控制。本發明采取了上述技術方案以后,克服了現有技術中語音識別都是應用于單機或者必須下載特征的軟件的技術缺點;并且,由于本申請的語音特征是基于特定人而保存在語音特征庫中,能夠實現基于特征人的語音識別的效果,并且,該種方法進行語音識別和控制,其準確率較高。此外,本發明還公開了一種基于語音識別的視頻控制系統。

權利要求書

1.一種基于語音識別的視頻控制方法,包括:
對用戶的語音進行訓練提取語音特征并保存在語音特征庫中;
接收用戶的語音控制命令,與所述保存的用戶語音特征進行對比;
其中,當該用戶的語音特征與服務器中的用戶語音特征相匹配后,提取
該語音控制命令并基于該語音控制命令進行視頻播放的控制。
2.根據權利要求1所述的基于語音識別的視頻控制方法,其特征在于,
所述對用戶語音進行訓練提取語音特征并保存在語音特征庫中,具體包括:
計算用戶的語音的聲學參數,提取出能夠反映語音信號特征的關鍵特征
參數并進行降維;
獲取用戶輸入的若干次控制命令的訓練語音;
經過預處理和語音特征后,得到特定用戶的語音特征矢量參數并存儲在
網絡服務器中的語音特征庫中。
3.根據權利要求2所述的基于語音識別的視頻控制方法,其特征在于,
所述關鍵特征參數采用MFCC參數。
4.根據權利要求1~3任一所述的基于語音識別的視頻控制方法,其特征
在于,所述接收用戶的語音控制命令,與所述保存的用戶語音特征進行對比,
具體包括:
將用戶后續輸入的語音控制命令與語音特征庫中存儲的中各指令語音特
征進行相似性度量,判斷用戶的語音控制命令是否匹配語音特征庫的特征。
5.根據權利要求4所述的基于語音識別的視頻控制方法,其特征在于,
所述視頻控制方法基于FLASH播放器,其中,還包括:
在10秒鐘完成對應的用戶語音控制命令的識別步驟,在返回成功以后進
行相應的視頻控制動作。
6.一種基于語音識別的視頻控制系統,包括:
語音特征訓練單元,用于對用戶的語音進行訓練提取語音特征并保存在
語音特征庫中;
語音特征識別單元,用于接收用戶的語音控制命令,與所述保存的用戶
語音特征進行對比;
視頻控制單元,用于當該用戶的語音特征與服務器中的用戶語音特征相
匹配后,提取該語音控制命令并基于該語音控制命令進行視頻播放的控制。
7.根據權利要求6所述的基于語音識別的視頻控制系統,其特征在于,
所述語音特征訓練單元,具體包括:
特征參數提取子單元,用于計算用戶的語音的聲學參數,提取出能夠反
映語音信號特征的關鍵特征參數并進行降維;
特征參數訓練子單元,用于獲取用戶輸入的若干次控制命令的訓練語音;
經過預處理和語音特征后,得到特定用戶的語音特征矢量參數;
發送子單元,用于將上述語音特征矢量參數存儲在網絡服務器中的語音
特征庫中。
8.根據權利要求7所述的基于語音識別的視頻控制系統,其特征在于,
所述關鍵特征參數采用MFCC參數。
9.根據權利要求6~8任一所述的基于語音識別的視頻控制系統,其特征
在于,所述語音特征識別單元,具體包括:
對比子單元,用于將用戶后續輸入的語音控制命令與語音特征庫中存儲
的中各指令語音特征進行相似性度量,判斷用戶的語音控制命令是否匹配語
音特征庫的特征。
10.根據權利要求9所述的基于語音識別的視頻控制系統,其特征在于,
所述視頻控制單元,還包括:
FLASH播放器子單元;
播放器控制子單元,用于在10秒鐘完成對應的用戶語音控制命令的識別,
在返回成功以后進行相應的視頻控制動作。

說明書

一種基于語音識別的視頻播放控制方法和系統

技術領域

本發明涉及一種視頻控制方法,尤其涉及一種基于語音識別的視頻播放
控制方法,屬于語音識別領域。

背景技術

目前,計算機語音識別的任務是讓計算機能夠聽懂人類說話的語句或者
命令,并做出相應的動作。

其中,從上世紀70年代開始,計算機語音識別技術在研究上取得了突破
性的進展。現在計算機語音識別技術在各個領域都有廣泛的應用,比如語音
識別撥號,語音搜索,語音控制等。但是現有的計算機語音識別系統都存在
一些問題。由于計算機語音識別需要進行大量的計算,所以現有的計算機語
音識別計算基本上都是應用于單機的計算,或者需要下載并且安裝特定的軟
件才能進行語音識別的任務,沒有和互聯網技術很好的結合。操作系統自帶
的語音識別系統只能完成特定的簡單任務,與別的程序,或者與互聯網應用
沒有連接,已經不能適應當今互聯網的快速發展的需求。

由于人類的語言多種多樣,而且同一個詞的不同人的發音也不同,計算
機語音識別從對人的語音的依賴程度上,按照聲學模型建立的方式進行劃分,
可以分為特定人識別和非特定人語音識別系統。

發明內容

本發明針對現有技術的缺點,提供了一種基于語音識別的視頻播放控制
方法,該方法能夠具有較靈活的視頻控制效果。此外,本發明還公開了一種
基于語音識別的視頻播放控制系統。

根據本發明的第一目的,本發明提供了一種基于語音識別的視頻播放控
制方法,包括:

對用戶的語音進行訓練提取語音特征并保存在語音特征庫中;

接收用戶的語音控制命令,與所述保存的用戶語音特征進行對比;

其中,當該用戶的語音特征與服務器中的用戶語音特征相匹配后,提取
該語音控制命令并基于該語音控制命令進行視頻播放的控制。

進一步地,優選的方法是,所述對用戶語音進行訓練提取語音特征并保
存在語音特征庫中,具體包括:

計算用戶的語音的聲學參數,提取出能夠反映語音信號特征的關鍵特征
參數并進行降維;

獲取用戶輸入的若干次控制命令的訓練語音;

經過預處理和語音特征后,得到特定用戶的語音特征矢量參數并存儲在
網絡服務器中的語音特征庫中。

進一步地,優選的方法是,所述關鍵特征參數采用MFCC參數。

進一步地,優選的方法是,所述接收用戶的語音控制命令,與所述保存
的用戶語音特征進行對比,具體包括:

將用戶后續輸入的語音控制命令與服務器中存儲的中各指令語音特征進
行相似性度量,判斷用戶的語音控制命令是否匹配語音特征庫的特征。

進一步地,優選的方法是,所述視頻控制方法基于FLASH播旋器,其中,
還包括:

在10秒鐘完成對應的用戶語音控制命令的識別步驟,在返回成功以后進
行相應的視頻控制動作。

本發明采取了上述技術方案以后,克服了現有技術中語音識別都是應用
于單機或者必須下載特征的軟件的技術缺點;并且,由于本申請的語音特征
是基于特定人而保存在語音特征庫中,能夠實現基于特征人的語音識別的效
果,并且,該種方法進行語音識別和控制,其準確率較高。

根據本發明的又一目的,本發明提供了一種基于語音識別的視頻播放控
制系統,包括:

語音特征訓練單元,用于對用戶的語音進行訓練提取語音特征并保存在
語音特征庫中;

語音特征識別單元,用于接收用戶的語音控制命令,與所述保存的用戶
語音特征進行對比;

視頻控制單元,用于當該用戶的語音特征與服務器中的用戶語音特征相
匹配后,提取該語音控制命令并基于該語音控制命令進行視頻播放的控制。

進一步地,優選的是,所述語音特征訓練單元,具體包括:

特征參數提取子單元,用于計算用戶的語音的聲學參數,提取出能夠反
映語音信號特征的關鍵特征參數并進行降維;

特征參數訓練子單元,用于獲取用戶輸入的若干次控制命令的訓練語音;
經過預處理和語音特征后,得到特定用戶的語音特征矢量參數;

發送子單元,用于將上述語音特征矢量參數存儲在網絡服務器中的語音
特征庫中。

進一步地,優選的是,所述關鍵特征參數采用MFCC參數。

進一步地,優選的是,所述語音特征識別單元,具體包括:

對比子單元,用于將用戶后續輸入的語音控制命令與服務器中存儲的中
各指令語音特征進行相似性度量,判斷用戶的語音控制命令是否匹配語音特
征庫的特征。

進一步地,優選的是,所述視頻控制單元,還包括:

FLASH播放器子單元;

播放器控制子單元,用于在10秒鐘完成對應的用戶語音控制命令的識別,
在返回成功以后進行相應的視頻控制動作。

本發明采取了上述技術方案以后,具有前述方法的所有優點,即本申請
克服了現有技術中語音識別都是應用于單機或者必須下載特征的軟件的技術
缺點;并且,由于本申請的語音特征是基于特定人而保存在語音特征庫中,
能夠實現基于特征人的語音識別的效果,并且,該種方法進行語音識別和控
制,其準確率較高。

本發明的其它特征和優點將在隨后的說明書中闡述,并且,部分地從說
明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優
點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實
現和獲得。

附圖說明

下面結合附圖對本發明進行詳細的描述,以使得本發明的上述優點更加
明確。

圖1是本發明基于語音識別的視頻播放控制方法的流程示意圖;

圖2是本發明的一個實施例中的進行語音視頻的示意圖;

圖3是本發明的一個實施例中的進行語音訓練的示意圖;

圖4是本發明的一個實施例的進行語音識別視頻控制的流程示意圖;

圖5是本發明的另一個實施例的進行語音識別視頻控制的流程示意圖;

圖6是本發明基于語音識別的視頻播放控制系統的結構示意圖;

圖7是本發明的一個實施例中的語音特征訓練單元的示意圖;

圖8是本發明的一個實施例的語音特征訓練單元的架構示意圖;

圖9是本發明的一個實施例的語音特征識別單元的示意圖;

圖10是本發明的一個實施例的視頻控制單元的示意圖。

具體實施方式

以下結合附圖和具體實施例對本發明進行詳細的描述。

方法實施例一

以下結合附圖對本發明進行一個詳細的描述;

其中,圖1是本發明基于語音識別的視頻播放控制方法的流程示意圖,
圖2是本發明的一個實施例中的進行語音視頻的示意圖;

根據本實施例,所述基于語音識別的視頻播放控制方法,包括:

S101:對某一個用戶的語音進行訓練提取語音特征;

S102:將上述特定用戶的語音特征保存在語音特征庫中;

S103:接收用戶的語音控制命令;

S014:將接收到的用戶的語音控制命令與所述保存的用戶語音特征進行
對比;

S015:當該用戶的語音特征與服務器中的用戶語音特征相匹配后,提取
該語音控制命令并基于該語音控制命令進行視頻播放的控制。

其中,在步驟S102中,可以基于用戶名和賬戶和具體的語音特征一起保
存在語音特征庫中,其中,在優選的實施例中,該語音特征庫是一個互聯網
服務器中的數據庫。

并且,步驟S103包括:

將用戶后續輸入的語音控制命令與服務器中存儲的中各指令語音特征進
行相似性度量,判斷用戶的語音控制命令是否匹配語音特征庫的特征。

其中,本申請所述的視頻控制方法基于FLASH播放器,其中,還包括:

在10秒鐘完成對應的用戶語音控制命令的識別步驟,在返回成功以后進
行相應的視頻控制動作。

本發明采取了上述技術方案以后,克服了現有技術中語音識別都是應用
于單機或者必須下載特征的軟件的技術缺點;并且,由于本申請的語音特征
是基于特定人而保存在語音特征庫中,能夠實現基于特征人的語音識別的效
果,并且,該種方法進行語音識別和控制,其準確率較高。

方法實施例二:

進一步對本發明進行描述,其中,本申請主要包括:語音特征訓練步驟、
語音特征識別步驟以及視頻控制步驟,以下對本發明的上述三個步驟分別進
行詳細描述。

圖3是本發明的一個實施例中的進行語音訓練的示意圖;

如圖3所示,所述方法主要包括以下步驟:

某一個特定的注冊用戶打開網頁,網頁中會顯示一個語音識別FLASH,
該FLASH技術是現有技術較為公知的,在此不詳細說明。

其中,當系統獲取到該用戶沒有進行語音特征訓練時,其會提示用戶進
行語音訓練,否則直接進入下一個步驟;

其中,系統會給出一些基本的詞,例如:開始、暫停、播放、提高音量、
快進等,用戶按照上述提示進行語音特征訓練。

其中,在語音特征訓練步驟中,包括:

語音特征提取階段:計算語音的聲學參數,進行語音特征的計算,提取
出能夠反映語音信號特征的關鍵特征參數,實現降維。

其中,在語音識別技術中,采取的是MFCC和DTW技術,其中,MFCC(Mel?
Frequency?Cepstrum?Coefficient,Mel頻率倒譜系數),是音頻的頻域分析中,
最常用的一種特征系數,應用也最為廣泛。它的特點在于充分考慮了人的聽
覺系統中的非線性特性,在低頻情況下使用線性刻度,在高頻情況下使用對
數刻度。因此,MFCC可以將音頻信號進行更為合理的分段。對于一段音頻,
就可以獲得n組(n對應于音框數)MFCC參數。之后的語音識別過程,就可
以使用這n組參數進行處理。

在孤立詞識別系統中,DTW(Dynamic?Time?Warping,動態時間歸整)是
最為常用的算法,其使用動態規劃的思想,解決了發音長短不一帶來的模板
匹配問題,是語音識別中一種較為經典的算法。DTW算法首先需要訓練待識
別的孤立詞所對應的模板。DTW算法首先需要訓練待識別的孤立詞所對應的
模板。訓練樣本之間,長度也是不一樣的。因此如何選擇模板也是一個必須
考慮的問題。

通常的做法是,首先計算出音頻樣本的平均長度,然后將最接近平均長
度的樣本作為模板,將其它樣本作為訓練樣本,用來訓練、調整模板的具體
值。最后對于與模板同樣長度的樣本,就可以計算相似性與距離,進行識別
操作。

本申請中,主要采取的是MFCC參數,借助于該MFCC參數,其整體的
語音特征良好的抗噪性和魯棒性。

訓練階段:用戶輸入若干次訓練語音,系統經過預處理和語音特征提取
兩個階段,得到了特定用戶的特征矢量參數。

最后,網頁會提示用戶是否上傳該語音特征,根據該提示,用戶選擇將
自己的語音特征上傳至特定語音特征庫或者本地電腦中。

在訓練了用戶的語音特征之后,用戶便可以進行語音識別和視頻控制等
后續步驟。

方法實施例三:

其中,所述語音識別步驟包括:

接收用戶輸入的語音;

將用戶后續輸入的語音控制命令與語音特征庫中存儲的中各指令語音特
征進行相似性度量;

根據兩者的相似度大小以判斷用戶的語音控制命令是否匹配語音特征庫
的特征。

在一個實施例中,用戶在觀看過程中,需要點擊特定的語音操作按鈕;
圖4是本發明的一個實施例的進行語音識別視頻控制的流程示意圖;

其中,在點擊操作按鈕之后,在特定時間內,例如10秒之內說出語音控
制命令,在這10秒之內說出的操作命令被認為是有效的,并且進行識別,匹
配相應的操作命令,并且做出反應。

此外,在一個實施例中,在觀看過程中,需要首先對著麥克風說出某個
發語詞,比如“開始”,圖5是本發明的另一個實施例的進行語音識別視頻控制
的流程示意圖;

其中,語音識別程序在識別發語詞之后,在特定時間內,例如,10秒內
說出語音控制命令,在這10秒之內說出的操作命令被認為是有效的,并且進
行識別,匹配相應的操作命令,并且做出反應。

并且,在語音識別程序識別出發語詞10秒之后,如果沒有識別出語音控
制命令,那么再次進入等待階段,這時候需要再次對麥克風說出發語詞,之
后才能進行語音控制。

通過上述技術方案,解決了在語音識別過程之中,由于語音識別程序始
終監聽用戶的麥克風,避免用戶在觀看視頻的過程中,由于某些誤操作使得
觀看體驗不好,具有很好的技術效果。

此外,由于在服務器存儲用戶的語音特征之后,下次用戶在別的電腦,
或者移動設備上再次打開語音識別程序,無需再次訓練,而是用已經保存的
語音特征,來進行語音識別并且對視頻播放器進行控制,進而使得本申請基
于特定人進行語音控制,克服了多個客戶端無法應用的缺點。

例如,某一用戶完成語音訓練并將訓練得到的語音特征上傳至服務器后,
以后在本機,他機或移動設備使用此語音識別flash程序,無需再訓練,直接
選擇識別階段的兩種啟動語音識別操作,進行再次識別并進而實現語音控制。

其中,在本申請之中,使用了互聯網廣泛使用的flash技術,具有覆蓋率
高,方便傳播,易于使用,多終端配合等特點。當然,也可以采取微軟的HTML5
技術,這些都是本領域技術人員所能知曉的,在此不詳細說明。

方法實施例四:

下面對本發明的應用實例進行說明:

1.用戶A的UID=1,他首次下載了網頁上提示的語音識別flash程序,特
定人語音特征庫中未曾建立UID=1的用戶的語音特征,提示用戶必須在語音
訓練后才可以使用語音識別功能,并給出語音訓練操作提示,訓練完成后用戶
A可使用語音識別對視頻進行語音控制。

2.用戶A的UID=1,他已完成了語音訓練,以后無論在本機,他機或移
動設備上想要實現語音識別功能,只需下載或打開flash語音識別擴展程序,
無需再次進行語音訓練,直接開啟語音識別功能即可。若用戶采用語音識別
階段的方式1,點擊“開始”按鈕并在10秒內給出指令“播放”,系統完成語音識
別進而做出“播放”視頻的反應,如用戶還有其它指令則需要再次點擊“開始”
按鈕,在10秒內給出控制指令;若采用方式2,給出發語詞“開始”,等待用戶
給出后續指令10秒,如果10秒內用戶給出指令“播放”,進而做出反應,之后
系統恢復等待用戶給出發語詞狀態,如用戶還有其它指令則需要再次說明發
語詞后再給出后續指令。

3.用戶B試圖使用用戶A的ID進行語音識別,點擊開始后給出指令播放,
服務器搜索UID=1的語音特征,發現本次語音指令的語音特征與特定語音特
征庫中UID=1的語音特征不匹配,則給出提示信息,提示用戶注冊或登錄自
己的賬戶,再進行語音識別操作。

結合上述描述,對本發明的技術優點進行詳細說明如下:

1.覆蓋率高,是指99%的瀏覽器裝有flash插件,并且現在的移動設備很
多也都支持flash插件,無需特殊的支持就可以廣泛進行部署。

2.方便傳播是指本語音識別方案不需要安裝特定程序,只需要自動下載語
音識別程序,就可以在flash上進行使用。

3.易于使用是指對于在線視頻的語音控制,語音識別指令簡單,可以通過
少量的語音實現特定的視頻播放控制功能。

4.多終端支持是可以通過服務器記錄用戶的語音特征,換了電腦或者移動
設備之后,無需再次訓練就能進行語音控制。

系統實施例一:

下面結合附圖對本發明的系統進行詳細說明,其中,圖6是本發明基于
語音識別的視頻播放控制系統的結構示意圖;

如圖6所示,所述基于語音識別的視頻控制系統,包括:

語音特征訓練單元,用于對用戶的語音進行訓練提取語音特征并保存在
語音特征庫中;

語音特征識別單元,用于接收用戶的語音控制命令,與所述保存的用戶
語音特征進行對比;

視頻控制單元,用于當該用戶的語音特征與服務器中的用戶語音特征相
匹配后,提取該語音控制命令并基于該語音控制命令進行視頻播放的控制。

圖7是本發明的一個實施例中的語音特征訓練單元的示意圖;圖8是本
發明的一個實施例的語音特征訓練單元的架構示意圖;

所述語音特征訓練單元,具體包括:

特征參數提取子單元,用于計算用戶的語音的聲學參數,提取出能夠反
映語音信號特征的關鍵特征參數并進行降維;

特征參數訓練子單元,用于獲取用戶輸入的若干次控制命令的訓練語音;
經過預處理和語音特征后,得到特定用戶的語音特征矢量參數;

發送子單元,用于將上述語音特征矢量參數存儲在網絡服務器中的語音
特征庫中。

其中,所述關鍵特征參數采用MFCC參數。

圖9是本發明的一個實施例的語音特征識別單元的示意圖;

所述語音特征識別單元,具體包括:

對比子單元,用于將用戶后續輸入的語音控制命令與語音特征庫中存儲
的中各指令語音特征進行相似性度量,判斷用戶的語音控制命令是否匹配語
音特征庫的特征。

圖10是本發明的一個實施例的視頻控制單元的示意圖。

如圖10所示,所述視頻控制單元,還包括:

FLASH播放器子單元;

播放器控制子單元,用于在10秒鐘完成對應的用戶語音控制命令的識別,
在返回成功以后進行相應的視頻控制動作。

本申請克服了現有技術中語音識別都是應用于單機或者必須下載特征的
軟件的技術缺點;并且,由于本申請的語音特征是基于特定人而保存在語音
特征庫中,能夠實現基于特征人的語音識別的效果,并且,該種方法進行語
音識別和控制,其準確率較高。

本領域普通技術人員可以理解:實現上述方法實施例的全部或部分步驟
可以通過程序指令相關的硬件來完成,前述的程序可以存儲于一計算機可讀
取存儲介質中,該程序在執行時,執行包括上述方法實施例的步驟;而前述
的存儲介質包括:只讀存儲器(Read?Only?Memory,簡稱ROM)、隨機存取存
儲器(Random?Acess?Memory,簡稱RAM)、磁碟、終端手機軟件或者光盤等各
種可以存儲程序代碼的介質。

最后應說明的是:以上所述僅為本發明的優選實施例而已,并不用于限
制本發明,盡管參照前述實施例對本發明進行了詳細的說明,對于本領域的
技術人員來說,其依然可以對前述各實施例所記載的技術方案進行修改,或
者對其中部分技術特征進行等同替換。凡在本發明的精神和原則之內,所作
的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。

關于本文
本文標題:一種基于語音識別的視頻播放控制方法和系統.pdf
鏈接地址:http://www.wwszu.club/p-6421056.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大