鬼佬大哥大
  • / 28
  • 下載費用:30 金幣  

混合式、離線/在線語音翻譯系統.pdf

摘要
申請專利號:

CN201480027313.4

申請日:

2014.05.01

公開號:

CN105210056A

公開日:

2015.12.30

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/28申請日:20140501|||公開
IPC分類號: G06F17/28 主分類號: G06F17/28
申請人: 臉譜公司
發明人: 娜奧米·奧基·魏貝爾; 亞歷山大·魏貝爾; 克里斯蒂安·菲根; 凱·羅特曼
地址: 美國加利福尼亞州
優先權: 2013.05.13 US 61/822,629; 2013.06.12 US 13/915,820
專利代理機構: 北京康信知識產權代理有限責任公司 11240 代理人: 梁麗超;陳鵬
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201480027313.4

授權公告號:

||||||

法律狀態公告日:

2018.02.09|||2016.01.27|||2015.12.30

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

一種混合式語音翻譯系統,借此,無線啟動客戶端計算設備可以在離線模式下將輸入語音話語本地從一種語言翻譯成另一種,并且還在存在無線網絡連通性時的在線模式下,使遠程計算機執行翻譯并且將其經由無線網絡發送回到客戶端計算設備以便由客戶端計算設備可聽地輸出。客戶端計算設備的用戶可以在模式之間轉換,或者轉換可以是基于用戶偏好或設置自動的。后端語音翻譯服務器系統可以基于隨時間的用戶數據的分析適配由客戶端計算設備在離線模式下使用的各個識別和翻譯模型,從而利用比后端語音翻譯服務器系統更小的,但是更高效和更快速的模型配置客戶端計算設備,同時仍然適合于用戶的領域。

權利要求書

權利要求書
1.  一種語音翻譯系統,包括:
后端語音翻譯服務器系統;以及
客戶端計算設備,被配置為經由無線網絡與所述后端語音翻譯服務器系統通信,其中,所述客戶端計算設備包括:
麥克風;
處理器,連接至所述麥克風;
存儲器,連接至所述處理器,存儲由所述處理器執行的指令;以及
揚聲器,連接至所述處理器,其中:
所述客戶端計算設備用于經由所述揚聲器輸出輸入單詞短語從第一語言至第二語言的翻譯;并且
所述存儲器存儲指令使得:
在第一操作模式下,當所述處理器執行所述指令時,所述處理器將所述輸入單詞短語翻譯成所述第二語言以便輸出至用戶;并且
在第二操作模式下:
所述客戶端計算設備經由所述無線網絡將有關由所述客戶端計算設備接收的所述第一語言的所述輸入單詞短語的數據發送至所述后端語音翻譯服務器系統;
所述后端語音翻譯服務器系統基于經由所述無線網絡從所述客戶端計算設備接收的數據確定所述第一語言的所述輸入單詞短語的所述第二語言的翻譯;并且
所述后端語音翻譯系統經由所述無線網絡發送有關所述第一語言的所述輸入單詞短語的所述第二語言的翻譯的數據到所述客戶端計算設備,使得所述客戶端計算設備輸出所述第一語言的所述輸入單詞短語的所述第二語言的翻譯;
其中,所述客戶端計算設備具有允許用戶在所述第一操作模式和所述第二操作模式之間切換的用戶界面和/或
其中,所述客戶端計算設備基于所述無線網絡的連接狀態或者基于所述客戶端計算設備的所述用戶的用戶偏好設置自動選擇使用所述第一操作模式或所述第二操作模式。

2.  根據權利要求1所述的語音翻譯系統,其中,所述輸入單詞短語通過以下中的一個輸入至所述客戶端計算:
由所述客戶端計算設備的所述麥克風獲取的輸入語音話語;或者在所述客戶端計算設備的用戶界面上經由文本輸入字段輸入的文本。

3.  根據權利要求1或2所述的語音翻譯系統,其中,所述客戶端計算設備經由所述揚聲器能聽見地輸出翻譯。

4.  根據權利要求1至3中任一項所述的語音翻譯系統,其中:
在所述第一操作模式下,所述客戶端計算設備將用于識別所述第一語言的所述語音話語并且將所識別的語音話語翻譯成所述第二語言以便經由所述客戶端計算設備的所述揚聲器輸出的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型存儲在存儲器中;
在所述第二操作模式下,所述后端語音翻譯服務器系統包括用于基于經由所述無線網絡從所述客戶端計算設備接收的數據確定所 述第一語言的所述語音話語的所述第二語言的翻譯的后端聲音模型、后端語言模型、后端翻譯模型和后端語音合成模型;
所述本地聲音模型不同于所述后端聲音模型;
所述本地語言模型不同于所述后端語言模型;
所述本地翻譯模型不同于所述后端翻譯模型;并且
所述本地語音合成模型不同于所述后端語音合成模型。

5.  根據權利要求1至4中任一項所述的語音翻譯系統,其中,所述后端語音翻譯服務器系統被編程為:
隨時間監測由所述客戶端計算設備接收的用于從所述第一語言翻譯成所述第二語言的語音話語;并且
基于隨時間監測的由所述客戶端計算設備接收的用于從所述第一語言翻譯成所述第二語言的語音話語,更新所述客戶端計算設備的所述本地聲音模型、所述本地語言模型、所述本地翻譯模型和所述本地語音合成模型中的至少一個,其中,對所述客戶端計算設備的所述本地聲音模型、所述本地語言模型、所述本地翻譯模型和所述本地語音合成模型中的至少一個的更新經由所述無線網絡從所述后端語音翻譯服務器系統發送至所述客戶端計算設備。

6.  根據權利要求1至5中任一項所述的語音翻譯系統,其中,所述客戶端計算設備的所述本地聲音模型、所述本地語言模型、所述本地翻譯模型和所述本地語音合成模型基于所述用戶的翻譯查詢的分析更新。

7.  根據權利要求1至6中任一項所述的語音翻譯系統,其中:
所述客戶端計算設備包括用于確定所述客戶端計算設備的位置的GPS系統;并且
所述后端語音翻譯服務器系統被編程為基于所述客戶端計算設備的所述位置更新所述客戶端計算設備的所述本地聲音模型、所述本地語言模型、所述本地翻譯模型和所述本地語音合成模型中的至少一個,其中對所述客戶端計算設備的所述本地聲音模型、所述本地語言模型、所述本地翻譯模型和所述本地語音合成模型中的至少一個的更新經由所述無線網絡從所述后端語音翻譯服務器系統發送至所述客戶端計算設備。

8.  根據權利要求1至7中任一項所述的語音翻譯系統,其中:
所述后端語音翻譯服務器系統是多個后端語音翻譯服務器系統中的一個,并且所述客戶端計算設備被配置為經由無線網絡與所述多個后端語音翻譯服務器系統中的每個通信;并且
在所述第二操作模式下:
所述多個后端語音翻譯服務器系統中的每個用于基于經由所述無線網絡從所述客戶端計算設備接收的數據確定所述第一語言的所述語音話語的所述第二語言的翻譯;并且
所述多個后端語音翻譯服務器系統中的一個從所述多個后端語音翻譯服務器系統中選擇翻譯中的一個以便發送至所述客戶端計算設備,或者
將來自所述多個后端語音翻譯服務器系統的翻譯中的兩個或多個合并以生成合并的翻譯以便發送至所述客戶端計算設備。

9.  一種語音翻譯方法,包括:
在第一操作模式下:
由客戶端計算設備接收第一語言的第一輸入單詞短語;
由所述客戶端計算設備將所述第一輸入單詞短語翻譯成第二語言;并且
由所述客戶端計算設備輸出所述第二語言的所述第一輸入單詞短語;
由所述客戶端計算設備從所述第一操作模式轉換成第二操作模式;
在所述第二操作模式下:
由客戶端計算設備接收第一語言的第二輸入單詞短語;
由所述客戶端計算設備經由無線網絡將有關所述第二輸入單詞短語的數據發送至后端語音翻譯服務器系統;
由所述客戶端計算設備經由所述無線網絡從所述后端語音翻譯服務器系統接收有關所述第二輸入單詞短語從所述第一語言至所述第二語言的由所述后端語音翻譯服務器系統完成的翻譯的數據;并且
由所述客戶端計算設備輸出所述第二語言的所述第二輸入單詞短語。

10.  權利要求9所述的語音翻譯方法,其中:
在所述第一操作模式下,所述客戶端計算設備將用于識別所述第一語言的輸入語音話語并且將所識別的輸入語音話語翻譯成所述第二語言以便經由揚聲器輸出的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型存儲在存儲器中;
在所述第二操作模式下,所述后端語音翻譯服務器系統包括用于基于經由所述無線網絡從所述客戶端計算設備接收的數據確定所述第一語言的所述輸入語音話語的所述第二語言的翻譯的后端聲音模型、后端語言模型、后端翻譯模型和后端語音合成模型;
所述方法進一步包括以下步驟
所述后端語音翻譯服務器系統隨時間監測由所述客戶端計算設備接收的用于從所述第一語言翻譯成所述第二語言的語音話語;并且
由所述后端語音翻譯服務器系統基于隨時間監測的由所述客戶端計算設備接收的用于從所述第一語言翻譯成所述第二語言的語音話語更新所述客戶端計算設備的所述本地聲音模型、所述本地語言模型、所述本地翻譯模型和所述本地語音合成模型中的至少一個,其中,對所述客戶端計算設備的所述本地聲音模型、所述本地語言模型、所述本地翻譯模型和所述本地語音合成模型中的至少一個的更新經由所述無線網絡從所述后端語音翻譯服務器系統發送至所述客戶端計算設備。

11.  根據權利要求1至10中任一項所述的語音翻譯方法,進一步包括,由所述客戶端計算設備下載包括所述第一語言和所述第二語言的語言翻譯對的應用軟件,具體地,
其中,下載所述語言翻譯對的所述應用軟件包括當所述客戶端計算設備和所述后端語音翻譯服務器系統之間的合適的連通性經由所述無線網絡可用時下載所述語言翻譯對的所述應用軟件。

12.  根據權利要求11所述的語音翻譯方法,進一步包括:
由所述客戶端計算設備確定所述客戶端計算設備的位置;并且由所述客戶端計算設備基于所述客戶端計算設備的確定的位置并且當所述客戶端計算設備和所述后端語音翻譯服務器系統之間的合適的連通經由所述無線網絡可用時下載所述語言翻譯對的所述應用軟件。

13.  根據權利要求9至12中任一項所述的語音翻譯方法,其中:
所述客戶端計算設備包括具有同時顯示的第一語言顯示部分和第二語言顯示部分的圖形用戶界面;并且
所述第一語言顯示部分和所述第二語言顯示部分中的每個包括用戶能訪問的多個語言的列表,并且
所述方法進一步包括由所述客戶端計算設備經由所述圖形用戶界面接收來自所述第一語言顯示部分中的列表的所述第一語言和來自所述第二語言顯示部分中的列表的所述第二語言的選擇的步驟,從而使得所述客戶端計算設備被配置為將所述輸入語音話語從所述第一語言翻譯成所述第二語言。

14.  權利要求13所述的語音翻譯方法,其中,所述第一操作模式下可用的語言在所述圖形用戶界面的所述第一語言顯示部分和所述第二語言顯示部分中與在所述第一操作模式下不可用的語言不同地可視地指定。

15.  根據權利要求9至14中任一項所述的語音翻譯方法,其中,由所述客戶端計算設備從所述第一操作模式至所述第二操作模式的轉換響應于經由所述客戶端計算設備的用戶界面的輸入從所述第一模式轉換成所述第二模式。

說明書

說明書混合式、離線/在線語音翻譯系統
背景技術
語音到語音翻譯(STS)系統通常以兩個不同的形式中的一個遞送:通過互聯網在線地或者嵌入用戶的設備上離線地(例如,智能手機或者其他合適的計算設備)。在線版本具有以下優勢,其可以得益于大型服務器(云)上的重要處理資源,并且提供饋送至服務供應商的數據使得改進和用戶化成為可能。然而,在線處理需要持續的網絡連通性,由于漫游成本或者隱私/安全性擔憂使得不能在所有地點保證網絡連通性或者在有些情況下不希望存在網絡連通性。如可替換的配置,語音到語音翻譯器,諸如Jibbigo語音翻譯應用,可以在嵌入在智能手機本身上的軟件本地運行時遞送,并且在翻譯app的初始下載之后不需要網絡連通性。這樣的離線嵌入語音翻譯能力對于以下許多情形是優選的配置,即如果大部分實際情況不需要語言支持,當網絡不可用、間歇性的或者過于昂貴時。大部分旅行者會經歷這樣的間歇性的或者不存在的連通性,例如,在航線飛行期間、遠距離的地理位置、建筑物、或者僅僅因為數據漫游被關閉以避免在外國旅行時的相關聯的漫游費用。
這樣的語音翻譯服務或軟件遞送的方式還具有以下含義,即軟件可以/必須以領域相關或者領域獨立的方式操作的程度以及其是否可以適應于用戶的環境。STS系統通常將對于一個領域相當好地工作,但是對于另一個領域不太好(領域相關的),如果它們已緊密優化并且調諧為特定使用領域,或者它們通過對于所有領域不相上下地良好地工作來試圖領域獨立。任何一個解決方案都限制所有特定情況的性能。
用戶通常在他的/她的計算設備上運行在線客戶端程序。這個設備通常數字化并且能編碼語音,然后將樣本或者系數通過通信線路發送至服務器。然后服務器執行繁重的計算的語音識別和/或翻譯并且將結果經由通信 線路發送回用戶,并且結果顯示在用戶設備上。不同的在線設計已建議將處理鏈的不同的部分移出至服務器并且在設備上進行或多或少的計算工作。在語音識別、翻譯和翻譯系統中,用戶的設備可以簡單到僅為麥克風,或者模數轉換器,或者提供更復雜的功能,諸如噪聲抑制、編碼為系數、一個或多個語音識別途徑、或者一個或多個語言處理步驟。相反離線設計的全部應用在設備本身上作為嵌入式應用運行。所有的計算在設備本地完成并且在使用期間不需要客戶端和服務器之間的傳輸。
通常,在線設計具有以下優勢,即其僅需要非常簡單的客戶端并且因此應用可以在非常簡單的計算設備或者移動電話上運行,同時所有繁重的計算和處理在大型計算服務器上完成。對于語音和機器翻譯,這意味著可以使用更高級的但是計算密集的算法,并且可以使用最新的背景信息。其還具有以下優勢,即服務的開發者或操作者可以在服務器上維護/改善服務或能力,不需要用戶下載或升級新系統版本。
在線設計的缺點是其關鍵取決于網絡連通性的事實。然而,當用戶移動和旅行至遠距離的地點時,連接性會是間歇性的和/或非常昂貴的(漫游),并且因此在許多方面不可用。對于語音和語音翻譯系統,這個需要經常是不可接受的。與文本或電子郵件傳輸不同,語音不允許連通性的臨時失效,因為其不允許在沒有丟失信息或者實時性能的情況下的語音流的相應的中斷。因此在線設計必須確保連續的、實時的傳輸并且因此必須確保使用期間的連續的連通性。
發明內容
在一個總體方面中,本發明針對一種混合式語音翻譯系統,借此無線啟動客戶端計算設備(例如,智能手機或平板電腦)可以將輸入單詞短語(例如,輸入語音話語或輸入文本)本地地從一種語言翻譯成另一種,例如,在“離線”模式,以及在有無線網絡連通性時的“在線”模式下,使遠程計算機(例如,后端語音翻譯服務器系統)執行翻譯并且將其經由無線網絡發送回到客戶端計算設備以便由客戶端計算設備輸出(例如,經由揚聲器和/或經由文本顯示字段能聽見地)。在各種實施方式中,客戶端計 算設備的用戶可以在模式之間轉換或者轉換可以是基于用戶偏好或設置對于用戶自動的和顯而易見的。此外,后端語音翻譯服務器系統可以基于隨時間的用戶數據的分析適配由客戶端計算設備在離線模式下使用的各個識別和翻譯模型,從而利用比后端語音翻譯服務器系統更小的,但是更高效和更快速的同時還要適合于用戶的領域的模型配置客戶端計算設備。
根據本發明的實施方式具體地在針對語音翻譯系統和語音翻譯方法的所附權利要求中公開,其中一個權利要求種類中提到的任何特征,例如,方法,可以在另一個權利要求種類中被要求保護并且以下列出的實施方式是僅出于形式原因選擇的。然而從慎重參考回任何先前的權利要求或實施方式得到的任何主題(具體地,多個從屬關系)同樣可以被要求保護,使得公開權利要求和其特征的任何組合并且可以與所附權利要求中選擇的從屬關系無關地要求保護。還公開了以下列出的實施方式的特征的任何組合,與在其中提到的反向引用無關。
在根據本發明的實施方式中,一種語音翻譯系統包括:
-后端語音翻譯服務器系統;以及
-客戶端計算設備,被配置為經由無線網絡與后端語音翻譯服務器系統通信,其中客戶端計算設備包括:
-麥克風;
-處理器,連接至麥克風;
-存儲器,連接至處理器,存儲由處理器執行的指令;以及
-揚聲器,連接至處理器,其中:
-客戶端計算設備用于經由揚聲器輸出輸入單詞短語從第一語言至第二語言的翻譯;并且
-存儲器存儲指令使得:
在第一操作模式下,當處理器執行指令時,處理器將輸入單詞短語翻譯成第二語言以便輸出至用戶;并且
在第二操作模式下:
-客戶端計算設備經由無線網絡將有關由客戶端計算設備接收的第一語言的輸入單詞短語的數據發送至后端語音翻譯服務器系統;
-后端語音翻譯服務器系統基于經由無線網絡從客戶端計算設備接收的數據確定第一語言的輸入單詞短語的第二語言的翻譯;并且
-后端語音翻譯系統經由無線網絡發送有關第一語言的輸入單詞短語的第二語言的翻譯的數據到客戶端計算系統,使得客戶端計算設備輸出第一語言的輸入單詞短語的第二語言的翻譯。
客戶端計算設備可具有允許用戶在第一操作模式和第二操作模式之間切換的用戶界面。
客戶端計算設備可以基于無線網絡的連接狀態自動選擇使用第一操作模式或第二操作模式。
可替換地,客戶端計算設備可以基于客戶端計算設備的用戶的用戶偏好設置自動選擇使用第一操作模式或第二操作模式。
在根據本發明的另一實施方式中,輸入單詞短語通過以下中的一個被輸入至客戶端計算:
-由客戶端計算設備的麥克風獲取的輸入語音話語;或者在客戶端計算設備的用戶界面上經由文本輸入字段輸入的文本。
客戶端計算設備可以經由揚聲器能聽見地輸出翻譯。
在本發明的語音翻譯系統中,在第一操作模式下,客戶端計算設備可以將用于識別第一語言的語音話語并且將識別的語音話語翻譯成第二語言以便經由客戶端計算設備的揚聲器輸出的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型存儲在存儲器中。
在第二操作模式下,后端語音翻譯服務器系統可包括用于基于經由無線網絡從客戶端計算設備接收的數據確定第一語言的語音話語的第二語言的翻譯的后端聲音模型、后端語言模型、后端翻譯模型和后端語音合成模型。
優選地,本地聲音模型可以不同于后端聲音模型;
本地語言模型可以不同于后端語言模型;
本地翻譯模型可以不同于后端翻譯模型;并且
本地語音合成模型可以不同于所述后端語音合成模型。
此外,后端語音翻譯服務器系統可以被編程為:隨時間檢測由客戶端計算設備接收的用于從第一語言翻譯成第二語言的語音話語,并且基于隨時間監測的由客戶端計算設備接收的用于從第一語言翻譯成第二語言的語音話語更新客戶端計算設備的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型中的至少一個,其中對客戶端計算設備的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型中的至少一個的更新經由無線網絡從后端語音翻譯服務器系統發送至客戶端計算設備。
客戶端計算設備的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型可以基于用戶的翻譯查詢的分析更新。
客戶端計算設備可包括用于確定客戶端計算設備的位置的GPS系統。
后端語音翻譯服務器系統可以進一步被編程為基于客戶端計算設備的位置更新客戶端計算設備的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型中的至少一個,其中對客戶端計算設備的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型中的至少一個的更新經由無線網絡從后端語音翻譯服務器系統發送至客戶端計算設備。
此外,后端語音翻譯服務器系統可以是是多個后端語音翻譯服務器系統中的一個,并且客戶端計算設備可被配置為經由無線網絡與多個后端語音翻譯服務器系統中的每個通信。
在第二操作模式下,多個后端語音翻譯服務器系統中的每個可以基于經由無線網絡從客戶端計算設備接收的數據確定第一語言的語音話語的第二語言的翻譯;并且多個后端語音翻譯服務器系統中的一個從多個后端語音翻譯服務器系統中選擇翻譯中的一個以便發送至所述客戶端計算設備。
可替換地,多個后端語音翻譯服務器系統中的一個將來自多個后端語音翻譯服務器系統的翻譯中的兩個或多個合并以生成合并的翻譯以便發送至客戶端計算設備。
根據本發明的另一方面,公開了一種語音翻譯方法,該語音翻譯方法包括:
-在第一操作模式下:
-由客戶端計算設備接收第一語言的第一輸入單詞短語;
-由客戶端計算設備將第一輸入單詞短語翻譯成第二語言;并且
-由客戶端計算設備輸出第二語言的第一輸入單詞短語;
-由客戶端計算設備從第一操作模式轉換成第二操作模式;
-在第二操作模式下:
-由客戶端計算設備接收第一語言的第二輸入單詞短語;
-由客戶端計算設備經由無線網絡將有關第二輸入單詞短語的數據發送至后端語音翻譯服務器系統;
-由客戶端計算設備經由無線網絡從后端語音翻譯服務器系統接收有關第二輸入單詞短語從第一語言至第二語言的由后端語音翻譯服務器系統完成的翻譯的數據;并且
-由客戶端計算設備輸出第二語言的第二輸入單詞短語。
在本發明的另一實施方式中,在第一操作模式下,客戶端計算設備將用于識別第一語言的輸入語音話語并且將識別的輸入語音話語翻譯成第二語言以便經由揚聲器輸出的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型存儲在存儲器中,并且在第二操作模式下,后端語音翻譯服務器系統優選地包括用于基于經由無線網絡從客戶端計算設備接收的數據確定第一語言的輸入語音話語的第二語言的翻譯的后端聲音模型、后端語言模型、后端翻譯模型和后端語音合成模型。
該方法可以進一步包括以下步驟
-后端語音翻譯服務器系統隨時間監測由客戶端計算設備接收的用于從第一語言翻譯成第二語言的語音話語;并且
-由后端語音翻譯服務器系統基于隨時間監測的由客戶端計算設備接收的用于從第一語言翻譯成第二語言的語音話語更新客戶端計算設備的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型中的至少一個,其中對客戶端計算設備的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型中的至少一個的更新經由無線網絡從后端語音翻譯服務器系統發送至客戶端計算設備。
語音翻譯方法可包括由客戶端計算設備下載包括第一語言和第二語言的語言翻譯對的應用軟件的步驟。
下載語言翻譯對的應用軟件的步驟可包括當客戶端計算設備和后端語音翻譯服務器系統之間的合適的連通性經由無線網絡可用時下載語言翻譯對的應用軟件。
在本發明的另一實施方式中,語音翻譯方法可以包括:
-由客戶端計算設備確定客戶端計算設備的位置;并且
-由客戶端計算設備基于客戶端計算設備的確定位置并且當客戶端計算設備和后端語音翻譯服務器系統之間的合適的連通性經由無線網絡可用時下載語言翻譯對的應用軟件。
優選地,客戶端計算設備可包括具有同時顯示的第一語言顯示部分和第二語言顯示部分的圖形用戶界面;并且
-第一語言顯示部分和第二語言顯示部分中的每個可包括用戶能訪問的多個語言的列表。
方法可進一步包括由客戶端計算設備經由圖形用戶界面接收來自所述第一語言顯示部分中的列表的第一語言和來自所述第二語言顯示部分中的列表的第二語言步驟的選擇,從而使得客戶端計算設備被配置為將輸入語音話語從第一語言翻譯成第二語言。
第一操作模式下可用的語言可以在圖形用戶界面的第一語言顯示部分和第二語言顯示部分中與在第一操作模式下不可用的語言不同地可視地指定。
由客戶端計算設備從第一操作模式至第二操作模式的轉換的步驟響應于經由客戶端計算設備的用戶界面的輸入從第一模式轉換成第二模式。
本發明的這些以及其他益處將從以下描述清晰可見。
附圖說明
在本文中,通過結合下列附圖的實例的方式來描述本發明的各個實施方式,其中:
圖1和圖8是根據本發明的各個實施方式的混合式語音翻譯系統的框圖;
圖2A-2B和圖4A-4B提供根據本發明的各個實施方式的圖形用戶界面的示例屏幕截圖,通過該圖形用戶界面客戶端計算設備的用戶可以選擇期望的語言翻譯對,并且可以從離線模式轉換成在線模式,反之亦然;
圖3是根據本發明的各個實施方式的客戶端計算設備的框圖;
圖5是示出根據本發明的各個實施方式的離線模式和在線模式之間的自動轉換的客戶端計算設備的過程的流程圖;
圖6是示出根據本發明的各個實施方式的更新客戶端計算設備的離線語音翻譯的各個模型和表的過程的流程圖;以及
圖7是示出根據本發明的各個實施方式的離線模式和在線模式下的語音翻譯過程的流程圖。
具體實施方式
本發明總體上針對語音翻譯系統,其中能夠無線連接的(wireless-enabled)客戶端計算設備(例如,智能手機或平板電腦)具有在線(例如,通過遠程計算機系統處理語音翻譯)和離線(例如,嵌入客戶端計算設備的語音翻譯處理)能力兩者。圖1是根據本發明的各種實施方式的語音翻譯系統10的示例性實施方式的框圖。如在圖1中示出的,系統10包括能夠無線連接的客戶端計算設備12、無線網絡14、數據通信網絡15(例如,互聯網)、后端語音翻譯服務器系統16、以及應用存儲服務器系統(“app商店”)18。客戶端計算設備12由用戶使用以將由客戶端計算設備12接收的第一語言的語音話語翻譯成第二(乃至其他)語言。客戶端計算設備12可以是任何合適的計算設備,諸如臺式計算機或便攜 式計算機,但是更優選地是移動、手提式計算設備,諸如智能手機或平板電腦。有關示例性客戶端計算設備12的更多細節在以下結合圖3描述。
客戶端計算設備12還優選地能夠經由無線網絡14無線數據通信(即,客戶端計算設備12是“能夠無線連接的”)。無線網絡14可以是任何合適的無線網絡,諸如使用IEEE802.11WLAN標準的無線LAN(WLAN),諸如WiFi網絡。無線網絡14還可以包括移動電信網絡,諸如3G或4GLTE移動電話移動通信網絡,盡管也可以使用其他合適的無線網絡。無線網絡14優選地提供至互聯網15的連接,諸如通過接入點或基站。后端語音翻譯服務器系統16和app商店18被連接至互聯網15并且,因此,經由無線網絡14與客戶端計算設備12通信。
如本文中描述的,客戶端計算設備12設置有軟件(包括模型),該軟件允許客戶端計算設備12執行離線語音翻譯或者執行在線語音翻譯,后端語音翻譯服務器系統16提供計算密集的語音識別和/或翻譯處理步驟。因此后端語音翻譯服務器系統16可以包括一個或多個網絡計算機服務器,該服務器基于經由無線網絡14從客戶端計算設備12接收的數據執行語音翻譯。因此后端語音翻譯服務器系統16可以包括,例如:自動語音識別(ASR)模塊20,用于識別輸入語音話語數據的第一語言的語音;機器翻譯(MT)模塊22,將識別的第一語言轉換/翻譯成選擇的第二語言;以及語音合成模塊24,將第二語言的翻譯合成為第二語言的可聽輸出的信號。ASR模塊20可以采用,例如,(i)語言模型,包含巨大的單詞列表和給定順序的它們的出現概率,以及(ii)聲音模型,包含組成語言模型中的每個單詞的截然不同的聲音。MT模塊可以采用,例如,合適的翻譯表(或者模型)和語言模型。語音合成模塊24可以采用合適的語音合成模型。相似地,客戶端計算設備12的語音翻譯軟件可包括ASR模塊(具有語言和聲音模型)、MT模塊(具有翻譯表/模型和語言模型)、以及語音合成模塊(具有語音合成模型)。對于在線和離線模式的ASR、MT、和合成模塊(或引擎)的更多細節,可以在美國專利8,090,570和8,204,739中找到,它們的全部內容通過引用結合在本文中。
客戶端計算設備12的用戶可以經由app商店18購買語音翻譯軟件(或者應用程序或“app”)。在各種實施方式中,在線版本的翻譯app,其中后端語音翻譯服務器系統16執行大部分的語音翻譯處理,假定與客戶端計算設備12連接經由app商店18自由下載而變得可用。在線翻譯app為客戶端計算設備12提供用戶界面、收集待翻譯的輸入單詞短語的能力,諸如語音話語(通過客戶端計算設備12上的麥克風獲取的)或者文本(經由用戶界面提供的文本字段),并且(經由客戶端計算設備12的揚聲器和/或經由用戶界面文本地)輸出翻譯。在這樣的實施方式中,客戶端計算設備12可以經由無線網絡14將以下數據發送至后端語音翻譯服務器系統16,即通過客戶端計算設備12的麥克風記錄或者經由文本輸入字段輸入的有關第一語言的將要轉換的輸入短語的數據,作為預處理輸入語音之后的包括例如數字、編碼樣本或者特征向量的數據。基于所接收的輸入數據,后端語音翻譯服務器系統16將語音話語翻譯成選擇的第二語言,并且經由無線網絡14將表示翻譯的數據發送回至客戶端計算設備12以便經由客戶端計算設備12的揚聲器處理、合成并可聽輸出。
語音翻譯app還可以以離線模式操作,其中客戶端計算設備12在沒有至后端語音翻譯服務器系統16的連接的情況下執行本地語音翻譯。在各種實施方式中,客戶端計算設備12的用戶,在具有與無線網絡14的連通性的同時,下載選擇的語言對(例如,英語-西班牙語等)的離線app軟件,使得離線系統可以在網絡連通性停止的情況下運行。圖2A-圖2B示出允許用戶選擇所希望的語言對的顯示在使用app的客戶端計算設備12上的示例用戶界面。示出的示例用戶界面還示出用戶可以經由用戶控制器選擇在線模式或離線模式。例如,在圖2A中,用戶將用戶控制器40切換為在線,如通過云和/或“在線翻譯器”的描述示出的;在圖2B中,用戶將用戶控制器40切換為離線,如通過穿過云的對角線和“離線翻譯器”的描述示出的。在圖2A-圖2B的實例中,用戶可以在第一列42和第二列44中上下滾動語言(非常像滾動輪)直至用戶設定期望的語言對,通過在突出選擇區域46處的第一列和第二列中的語言指出。在圖2A的實例中,所選擇的語言對是英語(國際版本)和西班牙語(墨西哥版本)。 在圖2B的實例中,所選擇的語言對是英語(國際版本)和西班牙語(西班牙版本)。
在在線模式下,用戶可以訪問提供的任何語言對。這可以通過示出兩個列42、44中的可用語言的圖標(例如,國旗)顏色來向用戶指出。然后用戶可以向上/向下滾動兩個列使得所希望的語言對顯示在選擇區域46中。當無線網絡連通性不可用時(諸如因為其由用戶經由用戶控制器40關閉或者自動關閉,如以下描述的),僅先前安裝在客戶端計算設備12上的語言對在各種實施方式中是可用的。相似地,對于離線模式可用的語言,如圖2B所示,可以通過示出兩個列42、44中的安裝語言的圖標(例如,旗)的顏色,同時將所有未安裝的語言示出為灰色向用戶指出。
圖7是示出根據各種實施方式的混合式在線/離線處理的流程圖。客戶端計算設備12(例如,它們的麥克風)在步驟70獲取第一語言的輸入語音話語。如果在步驟72使用在線模式,則在步驟74客戶端計算設備12經由無線網絡14將有關輸入語音話語的數據(例如,輸入語音話語的樣本或系數)發送至后端語音翻譯服務器系統16,在步驟76將話語翻譯成第二語言。在步驟77后端語音翻譯服務器系統16將翻譯的數據經由無線網絡14發送回至客戶端計算設備12使得,在步驟79,客戶端計算設備12(例如,它們的揚聲器)可以能聽見地輸出輸入話語的第二語言的翻譯。如果在步驟72使用離線模式,則在步驟78客戶端計算設備12執行存儲器中存儲的下載的離線語音翻譯軟件,將話語翻譯成第二語言,并且在步驟79將其輸出。
圖3是根據各種實施方式的客戶端計算設備12的框圖。如圖3的實例所示,設備12可包括多個處理器202、204。基帶處理器202可處理根據任何合適的通信技術(例如,3G、4G等)的經由移動電信網絡(例如,蜂窩網絡)的通信。基帶處理器202可包括專用隨機存取存儲器(RAM)214。在各種實施方式中,基帶處理器202可與收發器206通信。隨后,收發器206可與一個或多個功率放大器208和天線210通信。移動電信網絡的外發(outgoing)信號可在基帶被基帶處理器202處理并且被提供至收發器206。收發器206和/或基帶處理器206可將外發信號調制到載波頻 率。一個或多個放大器208可放大外發信號,該外發信號隨后經由天線210發送。移動通信網絡的進入(incoming)信號可通過天線210接收,通過一個或多個放大器208放大并且提供至收發器206。收發器206或基帶處理器202可將進入信號解調到基帶。
應用處理器204可以執行操作系統以及軟件應用(例如,經由app商店18下載的),包括本文中描述的離線和在線語音識別和/或翻譯功能。應用處理器204還可以執行觸摸屏界面232的軟件。應用處理器204也可與應用RAM212和非易失性數據存儲器(例如,ROM)216通信。RAM212可以存儲,由處理器204執行的,尤其,經由app商店18下載的離線和在線語音翻譯的應用軟件,包括離線處理的必要的自動語言識別、機器翻譯和語音合成模塊,以及在線處理的與后端語音翻譯服務器系統16通信的軟件。
應用處理器204可另外與諸如組合的WI-FI/藍牙收發器218的其他硬件設備通信。WI-FI/藍牙收發器218可處理與LAN的射頻(RF)通信(例如,根據WI-FI標準、或者任何合適的標準)或者處理設備200與另一無線設備之間的直接RF通信(例如,根據藍牙標準或者任何合適的標準)。在各種實施方式中,設備200還可包括全球定位系統(GPS)222,其經由GPS天線223與基于衛星的GPS系統通信以為應用處理器204提供描述設備12的地理位置的信息。觸摸屏232既可以可視形式提供對設備12的用戶的輸出,又可接收來自用戶的輸入。輸入可以以表示用戶的屏幕觸摸的信號的形式。音頻編解碼器模塊224可提供用于解碼和播放音頻信號的硬件和/或軟件。在某些實施方式中,編解碼器224還可包括數模轉換器。音頻輸出信號可被提供至設備揚聲器16和/或可接收一組耳機的插口(未示出)和/或用于播放音頻輸出信號的揚聲器。可經由設備麥克風18提供音頻輸入信號。設備還可包括數碼相機240。
在特定實施方式中,可包括各種其他傳感器。磁傳感器226可感測設備附近的磁場。例如,各種app和/或系統功能可使用磁傳感器226來實現羅盤(compass)。加速計(accelerometer)228和陀螺儀230可提供描述設備的運動的數據。例如,來自加速計228和陀螺儀230的數據可用于確 定觸摸屏232的顯示器的方位(例如,縱向對比橫向)。設備200可由電池234供電,電池234可以進而由電源管理集成電路(PMIC)236來管理。例如,I/O收發器238可根據通用串行總線(USB)或者任何其他合適的標準管理設備與其他設備之間的有線通信。連接器239可便于有線連接。在某些實施方式中,經由連接器239和I/O收發器238的連接可提供用于為電池234充電的電源。
如上所述,在各種實施方式中,用戶可以在在線模式和離線模式之間切換,諸如通過激活用戶控制器40,如圖2A和圖2B的實例所示。在線處理優選地提供比在線處理更大量語言模型中的詞匯,但是在線處理可以提供提高的用戶保密和安全,因為用戶輸入話語的數據不經由無線網絡14和互聯網發送。翻譯app軟件還可以允許客戶端計算設備12根據各種實施方式自動在在線和離線模式之間切換。例如,用戶可以規定app的設定使得如果無線網絡14可用(例如,具有合適的數據速率/連接速度的網絡連通性),則使用在線操作模式;否則使用離線操作模式。因此,對于這樣的實施方式,如圖5的示例性流程圖中所示,如果客戶端計算設備14處于無線通信模式(例如,WIFI或手機網絡,諸如3G或4G)(步驟50),則執行存儲器中存儲的app軟件的客戶端計算設備12的處理器,可以檢查WiFi網絡的數據速率/連接轉速(步驟52),并且如果其在臨界數據速率/連接速度以上,則使用在線模式(步驟54);否則使用離線模式(步驟56)。這樣,用戶具有自動連續翻譯能力并且離線模式或在線模式中的任意一種的使用對于用戶是顯而易見的。客戶端計算設備12可以可視地顯示在給定時間使用的模式(諸如利用上述云和非云圖標)。
在其他實施方式中,執行存儲器中存儲的app軟件的客戶端計算設備12的處理器可以基于其他因素在在線操作模式和離線操作模式之間自動切換,諸如:成本(例如,如果適用漫游收費,或者如果沒有網絡連通性,則使用離線操作模式;否則使用在線模式);質量(例如,更好的翻譯、聲音或語言模型,例如,使用特定離線揚聲器或者使用在線一般領域獨立模型);位置(例如,基于GPS坐標,如通過GPS系統222確定的);隱私(例如,只要確保無線網絡可用則使用在線模式);和/或時間(例如, 一天中的規定時間期間的規定模式)。在各種實施方式中,客戶端計算設備14的用戶可以通過其設置配置app以建立在在線操作模式和離線操作模式之間自動轉換的可適用的標準。例如,根據各種實施方式,用戶可以選擇:總是使用離線模式(在這樣的情況下從未使用在線模式);優選最快速的服務(在這樣的情況下只要無線網絡的連接轉速超過閾值則使用在線模式);最精確的翻譯(在這樣的情況下每當在線模式可用時則使用在線模式);限制成本(在這樣的情況下,例如,當可適用漫游收費時使用離線模式)。這樣的用戶偏好會受到隱私(數據傳輸)、質量(語音翻譯模型的大小和性能)、或者成本(數據漫游)因素的影響。
混合式離線/在線翻譯系統的另一方面是使得在離線模式的客戶端計算設備12上可用的語言對。因為客戶端計算設備12的存儲容量限制,所以在大多數情況下將所有可用語言對下載至客戶端計算設備12是不切實際的。因此,客戶端計算設備12的用戶優選地僅將用戶需要的選擇的語言對下載至客戶端計算設備12。例如,在各種實施方式中,用戶可以通過app商店18選擇或購買可用的離線語言對。在各種實施方式中,用戶可以購買包括幾個語言對的包(諸如地理區域的語言,諸如歐洲、東南亞等,或者相同的語言的不同版本,諸如西班牙語的墨西哥版本和西班牙版本,葡萄牙語的葡萄牙版本和巴西版本等),在這樣的情況下包中的所有語言對的軟件app是下載至客戶端計算設備18的可用的。例如,圖4A示出用戶可以選擇購買的各個翻譯語言對的示例屏幕鏡頭;并且圖4B示出翻譯語言對的包的示例屏幕鏡頭(在這個實例中,世界包)。如果用戶希望將語言對從客戶端計算設備移動至相同的存儲器,則用戶能夠,在各種實施方式中,在不損失它們的可用性的情況下移動那個語言對和與其相對應的模型。就是說,用戶可以日后再次下載模型。
在一個實施方式中,選擇下載的語言對在用戶的左邊,并且用戶選擇將要安裝在離線翻譯的客戶端計算設備上的語言對。如果用戶期望安裝選擇的語言對,但是沒有令人滿意的網絡連通性,則客戶端計算設備存儲該語言對并且當網絡連通性下一次可用時向用戶請求并且公布提醒消息以 下載該語言對。提醒消息詢問用戶是否他/她希望下載所選擇的語言對的離線版本并且如果由用戶確認,則開始下載。
在另一個實施方式中,客戶端計算設備12本身可以管理用戶的離線翻譯對。例如,客戶端計算設備12可以保留有關全世界使用的語言的數據,并且可以自動下載與用戶的位置有關的離線語言對。例如,如果GPS系統22示出用戶處于西班牙,則可以下載西班牙語的西班牙版本等。另外,離線語言對可以基于,例如,用戶的日歷數據(例如,旅行)或者指示用戶對世界的特定區域有興趣或者打算去世界的特定區域旅行的網絡搜索數據自動下載。
對用戶的位置(例如,基于GPS數據)和/或興趣(例如,基于互聯網搜索數據和/或語音翻譯查詢)的訪問還提供其語言行為中的語音翻譯系統的用戶化。可以優選某些單詞、位置名和食物類型。具體地,名字(位置名,個人名)很可能是或多或少相關的并且可能取決于位置(例如,日本的川崎和山本,對照西班牙的馬丁尼茲或岡薩雷斯等)。識別和翻譯模型的模型參數,最主要的它們的詞匯和可能的翻譯,可以因此基于用戶的位置和興趣調整。在在線模式下,這些均可以使用建立的自適應算法在使用期間動態地完成。但是在離線系統中,不是所有的單詞都應當被存儲并且存儲器必須被保留以實現移動設備上的效率。因此,在各種實施方式中,當網絡連通性可用時,系統可以從后端語音翻譯系統16下載用戶化的參數模型即使對于離線/嵌入式系統,并且轉入和轉出詞匯條目、語言模型以及修改的概率聲音參數。
語音翻譯系統的最大存儲密集方面通常由機器翻譯引擎的翻譯表和語言模型、識別引擎的聲音和語言模型以及語音合成引擎的語音參數給出。至減少客戶端計算設備12上的本地化的離線翻譯app的模型的大小,可以使用根據模型類型的不同的技術。具有作為諸如聲音模型和語言模型的模型參數的概率的模型可以通過量化概率的值范圍使得值范圍可以僅利用固定數量的值點從連續空間映射至離散空間來減少。根據量化因數,存儲器需求可以減少至僅一個字節或者幾位。存諸如翻譯表和語言模型的存儲單詞的短語的模型,可以使用諸如前綴樹的存儲技術有效實現。此外, 可以使用存儲器映射技術,該技術僅在要求時將模型的小部分動態地加載到RAM212/214中,而不需要的部分仍然在非易失性存儲器216中未觸動過。
另外,用于將語言模型和/或翻譯模型減少至規定大小使得它們在離線客戶端計算設備上運行的更復雜的方法是使用特定修剪/擴展直觀推斷,該直觀推斷或者消除詞匯和單詞N元語法或者通過添加附加信息擴大基本模型。消除可以以機會主義的方式完成使得用戶的很可能的單詞和表述仍然被表示即使資源限制,例如,通過將詞匯限制為僅用戶特定的子集并且僅選擇由這些詞匯覆蓋或者由從用戶的查詢自動收集的用戶特定信息覆蓋的一般模型的那些部分并且選擇與用戶的查詢緊密相關的一般模型的那些部分。在另一方面的擴展可以通過僅選擇特定用戶來完成-例如,基于用戶說話風格-和/或領域特定-例如,旅游使用或者人道主義使用和/或特定情況-例如,基于GPS位置-和/或通常與服務器上的任何以上特定信息無關,僅將這些(delta德耳塔△)信息從服務器傳遞至設備并且將這些信息應用至設備上存儲的基本模型。
例如,參考圖6的流程圖,在步驟60后端語音翻譯服務器系統16可以分析用戶數據以確定,在步驟62,是否用戶的離線語言模型和/或翻譯表應當被更新,例如除去很少使用的單詞或表達,同時保留用戶普遍使用的單詞和表達或者在服務器上提取普遍使用的翻譯和表達并且將它們應用至客戶端計算設備上存儲的基本模型。如上所述的,后端語音翻譯服務器系統16可以分析用戶的翻譯查詢(例如,要翻譯的表述)和/或互聯網瀏覽歷史,以確定普通(和不普遍)使用的單詞和表達。因此,在各種實施方式中,離線模式中的用戶的翻譯查詢可以由客戶端計算設備12保存和存儲,并且在網狀連通時段期間上傳至后端語音翻譯服務器系統16使得它們可以由后端語音翻譯服務器系統16分析。相似地,用戶的互聯網瀏覽歷史(例如,收藏夾數據)可以在網狀連通時段期間上傳端語音翻譯服務器系統16使得它們可以由后端語音翻譯服務器系統16分析以確定用戶普遍(和不普遍)使用的單詞和表達。如果,通過后端語音翻譯服務器系統對于用戶數據的分析,后端語音翻譯服務器系統16確定客戶端計 算設備的離線處理軟件的語言模型和/或翻譯表應當更新,則更新軟件(例如,模型)在步驟64被下載至客戶端計算設備(例如,從后端語音翻譯服務器系統16)。同樣可以僅下載更新客戶端計算設備上的模型所需要的(德耳塔△)信息,而不是下載全部模型。
相似地,用戶特定信息還可以具有減少聲音模型的大小的用途,例如,通過由更小的特定用戶的一個代替更多的一般聲音模型。根據特定用戶數據的量,這可以,例如,通過或者使用諸如MLLR的聲音模型適配技術或者使用另外的新數據完全地重新訓練聲音模型來實現。因此,例如,再次參考圖6,如果在步驟66后端語音翻譯服務器系統16確定用戶的客戶端計算設備12的離線模式聲音模型應當基于用戶數據的分析被修改,則更新的軟件(例如,聲音模型)在步驟68下載至客戶端計算設備(例如,從后端語音翻譯服務器系統16)。
在語音到語音翻譯系統中,最大速度限制元素是語音識別算法,因為它們執行對語音信號的許多聲學假定(acoustichypotheses)以及許多次片段的搜索。算法搜索的速度主要受設置的聲音模型的大小的影響。當在客戶端計算設備12上執行語音到語音翻譯時為了保持離線系統的速度,可以使用幾種技術。例如,在一個實施方式中,根據模型的大小,查詢表可以使用于計算模型和輸入語音之間的馬哈拉諾比斯距離而不是計算在要求時的距離。另外,高斯選擇技術可以用于離線模式以減少需要評估的模型參數的全部量。一旦用戶特定信息可用,則如上結合圖6所述,可以使用更小的、更高效的特定用戶模型來代替。
另外,根據各種實施方式,在線模式期間,后端語音翻譯系統16可以使用和結合多個語音識別和翻譯引擎(模塊)。這些后端引擎可以由相同的語音翻譯供應商提供并且在相同的服務器上運行,例如,或者在其他實施方式中,可以由在不同位置處的獨立的語音翻譯供應商提供,如在圖8的實例中示出的,該實例示出三個分開的和獨立的后端語音翻譯系統16,盡管在其他實施方式中,可以使用更少或更多的后端語音翻譯系統16。在這樣的實施方式中,每個后端語音翻譯系統16均可以被要求通過互聯網15同時執行翻譯。在這樣的實施方式中,后端語音翻譯系統16處于通信 中(例如,通過互聯網15)并且后端語音翻譯系統16中的一個或者選擇更好的翻譯或者選擇將它們結合。可以使用ASR中的置信測度(confidencemeasures)和MT的置信測度在多個系統/翻譯之間判定和/或判定在結合中任意一個系統的權重程度。這樣的置信測度用于確定ASR或者MT假定的可靠性。如果兩個或多個ASR或MT引擎在這樣的實施方式中被合并,則可以使用系統結合,諸如ASR輸出的“ROVER”方法(參見例如,J.G.Fiscus,“Apost-processingsystemtoyieldreducederrorwordrates:Recognizeroutputvotingerrorreduction(ROVER)”)自動語音識別和理解IEEE研討會,pp.347-354,1997),一個系統與另一個的交叉適配,或者MT系統結合技術(參見,例如,Rosti等,“CombiningOutputsfromMultipleMachineTranslationSystems”,Proc.ofNAACLHLT,pp.228-235,2007以及K.Heafield等,“CombiningMachineTranslationOutputwithOpenSource”,PragueBulletinofMathematicalLinguistics,No.93,pp.27-36,2010)。在這樣的實施方式中,所選擇的和結合的假定可以在后端中競爭以產生對于用戶的最好的輸出。一旦這些已在在線模式中完成,則系統將記以這種方式得到的最好選擇以便引入離線系統中。對于離線系統的學習,結合的在線系統16可以將多個ASR引擎的識別假定和/或來自多個MT引擎的翻譯假定保留在存儲器中并且使用這些假定的結合或者這些假定中的更好的來適配或訓練新的離線系統。當無線網絡可用時,這樣的重新訓練的或適配的系統可以隨后在離線系統上交換回。
因此,在一個總體方面,本發明針對語音翻譯系統和混合式、離線和在線語音翻譯的方法。根據各種實施方式,系統可包括后端語音翻譯服務器系統和客戶端計算設備,該客戶端計算設備被配置為經由無線網絡與后端語音翻譯服務器系統通信。客戶端計算設備可包括:麥克風;處理器,連接至麥克風;存儲器,連接至處理器,存儲由處理器執行的指令;揚聲器,連接至處理器。客戶端計算設備例如,經由揚聲器或文本顯示字段輸出輸入單詞短語的翻譯以便實現從第一語言到第二語言的翻譯(例如,語音話語或輸入文本)。存儲器存儲指令使得,在第一操作模式(離線模式)下,當處理器執行指令時,處理器將輸入單詞短語翻譯成第二語言以便(例 如,經由揚聲器)輸出。在第二操作模式(在線模式)下:(i)客戶端計算設備經由無線網絡將由麥克風接收到的有關第一語言的輸入單詞短語的數據發送至后端語音翻譯服務器系統;(ii)后端語音翻譯服務器系統基于經由無線網絡從客戶端計算設備接收的數據確定第一語言的輸入單詞短語的第二語言的翻譯;以及(iii)后端語音翻譯系統經由無線網絡發送有關第一語言的輸入單詞短語的第二語言的翻譯的數據到客戶端計算設備,使得客戶端計算設備輸出第一語言的語音話語的第二語言的翻譯。
根據各個實施方式,客戶端計算設備具有允許用戶在第一操作模式和第二操作模式之間切換的用戶界面。可替換地,客戶端計算設備基于客戶端計算設備的連接或用戶的用戶偏好設置自動選擇使用第一操作模式或第二操作模式。另外,第一操作模式下,客戶端計算設備可以將用于識別第一語言的語音話語并且將識別的語音話語翻譯成第二語言以便經由揚聲器輸出的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型存儲在存儲器中。另外,在第二操作模式下,后端語音翻譯服務器系統包括用于基于經由無線網絡從客戶端計算設備接收的數據確定第一語言的語音話語的第二語言的翻譯的后端聲音模型、后端語言模型、后端翻譯模型和后端語音合成模型。本地模型不同于后端模型(例如,子集或其他變化)。
另外,后端語音翻譯服務器系統可以編程為:(i)隨時間監測由客戶端計算設備接收的用于從第一語言翻譯成第二語言的語音話語;以及(ii)基于隨時間監測的由客戶端計算設備接收的用于從第一語言翻譯成第二語言的語音話語更新客戶端計算設備的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型中的至少一個。客戶端計算設備還可以包括用于確定客戶端計算設備的位置的GPS系統。在這樣的實施方式中,后端語音翻譯服務器系統還可以被編程為基于客戶端計算設備的位置更新客戶端計算設備的本地聲音模型、本地語言模型、本地翻譯模型和本地語音合成模型中的至少一個。對客戶端計算設備的模型中的至少一個的任何這樣的更新可以經由無線網絡從后端語音翻譯服務器系統發送至客戶端計算設備。
另外,客戶端計算設備可被配置為下載包括第一語言和第二語言的語言翻譯對的應用軟件(包括模型),尤其是當客戶端計算設備和后端語音翻譯服務器系統之間的合適的連通性經由無線網絡可用時。另外,對于客戶端計算設備包括GPS系統的實施方式,客戶端計算設備可被配置為基于客戶端計算設備的確定的位置并且當客戶端計算設備和后端語音翻譯服務器系統之間的合適的連通性經由無線網絡可用時下載語言翻譯對的應用軟件。
此外,客戶端計算設備可包括具有同時顯示的第一語言顯示部分和第二語言顯示部分的圖形用戶界面。每個第一語言顯示部分和第二語言顯示部分可包括用戶能訪問的多個語言的列表,使得當客戶端計算設備的用戶從第一語言顯示部分中的列表選擇第一語言并且從第二語言顯示部分中的列表選擇第二語言時,客戶端計算設備從而被配置為將輸入語音話語從第一語言翻譯成第二語言。第一(離線)操作模式下可用的語言可以在與第一操作模式下不可用的語言不同的第一語言顯示部分和第二語言顯示部分中指定。
另外,在各種實施方式中,后端語音翻譯服務器系統是多個后端語音翻譯服務器系統中的一個,并且客戶端計算設備被配置為經由無線網絡與多個后端語音翻譯服務器系統中的每個通信。在第二(在線)操作模式下,多個后端語音翻譯服務器系統中的每個基于經由無線網絡從客戶端計算設備接收的數據確定第一語言的輸入單詞短語的第二語言的翻譯。在這樣的情況下,多個后端語音翻譯服務器系統中的一個從多個后端語音翻譯服務器系統選擇翻譯中的一個以便發送至客戶端計算設備,或者從多個后端語音翻譯服務器系統中選擇翻譯中的兩個或多個進行合并以生成合并的翻譯以便發送至客戶端計算設備。
在一個總體方面,語音翻譯方法包括,在第一(離線)操作模式下:(i)由客戶端計算設備接收第一語言的第一輸入單詞短語;(ii)由客戶端計算設備將第一輸入單詞短語翻譯成第二語言;并且(iii)由客戶端計算設備輸出第二語言的第一語音話語(例如,經由揚聲器能聽見和/或經由文本顯示字段可視)。方法進一步包括由客戶端計算設備從第一操作模式 轉換成第二操作模式,然后,在第二(在線)操作模式下:(iv)由客戶端計算設備接收第一語言的第二輸入單詞短語;(v)由客戶端計算設備經由無線網絡將有關第二輸入單詞短語的數據發送至后端語音翻譯服務器系統;以及(vi)由客戶端計算設備經由無線網絡從后端語音翻譯服務器系統接收有關第二輸入單詞短語從第一語言至第二語言的由后端語音翻譯服務器系統完成的翻譯的數據;并且由客戶端計算設備輸出第二語言的第一語音話語。
對本領域普通技術人員將顯而易見的是,在本文中所描述的至少某些實施方式可實施為軟件、固件和/或硬件的多種不同實施方式。軟件和固件代碼可通過處理器電路或者任何其他相似的計算設備來執行。可用于實施實施方式的軟件代碼或者專門的控制硬件并不受限制。例如,本文中所描述的實施方式可以以使用任何合適的計算機軟件語言類型的計算機軟件來實施,例如,使用傳統的或者針對對象的技術。這種軟件例如可存儲在任何合適類型的計算機可讀介質或者媒介上,諸如,磁或光存儲介質。可在不特定參考具體軟件代碼或者專門的硬件部件的情況下,來描述實施方式的操作和特點。因為可以清晰理解的是,普通領域技術人員將能夠在不付出大量努力和過度實驗的情況下基于本發明描述來設計軟件和控制硬件來實現實施方式,所以可缺少這種具體的參考。
而且,與本實施方式相關聯的過程可通過可編程的設備來執行,諸如,計算機或者計算機系統、移動設備、智能電話和/或處理器。可以使得可編程設備執行各種過程的軟件可以存儲在任何存儲設備中,諸如,計算機系統(非易失性)存儲器、RAM、ROM、瞬時存儲器等。而且,當制造計算機系統或者存儲在各種類型的計算機可讀介質上時可對至少某些過程進行編程。
“計算機”、“計算機系統”、“主機”、“服務器”或者“處理器”可以是,例如但不限于,處理器、微處理器、微計算機、服務器、大型機、膝上型電腦、個人數據助理(PDA)、無線電子郵件設備、蜂窩電話、智能電話、平板電腦、移動設備、尋呼機、處理器、傳真機、掃描儀或者被配置為經由網絡發送和/或接收數據的任何其他可編程的設備。本文中所公開 的計算機系統和基于計算機的設備可包括用于存儲特定軟件模塊的存儲器或者用于獲得、處理以及傳送信息的引擎。可以理解,這種存儲器相對于所公開的實施方式的操作可以是內部的或者外部的。存儲器還可包括用于存儲軟件的任何器件,包括硬盤、光盤、軟盤、ROM(只讀存儲器)、RAM(隨機存取存儲器)、PROM(可編程的ROM)、EEPROM(電可擦除PROM)和/或其他計算機可讀介質。本文中所描述的軟件模塊和引擎可通過訪問存儲模塊的存儲器的計算機設備的處理器(或者多個處理器,視情況而定)來執行。
在本文中所公開的各種實施方式中,單個部件可被多個部件取代,并且多個部件可被單個部件取代,以執行給定的功能或者多個功能。除了這種取代不可操作的情況之外,這種取代落在實施方式的預期范圍內。例如,本文中所描述的任何服務器可被定位成并且配置為用于協作功能的“服務器農場(serverfarm)”或者其他網絡服務器群(諸如,刀片式服務器)取代。可以認識到,服務器農場可用于分配農場的各個部件之間/之中的工作量并且通過利用多個服務器的集中的和協作的利用可加快計算過程。這種服務器農場例如可采用完成諸如下列任務的負載平衡軟件:用于處理來自不同機器的功率的跟蹤需求、基于網絡需求優先化和調度任務和/或在部件發生故障或操作性降低的情況下提供備份應急功能。
盡管本文中已經描述了各種實施方式,但顯而易見的是,對于本領域技術人員來說,在實現至少某些優點的情況下,可出現對這些實施方式的各種修改、變更以及適配。因此,所公開的實施方式旨在包括在不背離本文中所闡述的實施方式的范圍的情況下的所有這些修改、變更以及適配。

關 鍵 詞:
混合式 離線 在線 語音 翻譯 系統
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:混合式、離線/在線語音翻譯系統.pdf
鏈接地址:http://www.wwszu.club/p-6405771.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大