鬼佬大哥大
  • / 11
  • 下載費用:30 金幣  

一種交互式預測輸入法.pdf

摘要
申請專利號:

CN201510524528.3

申請日:

2015.08.24

公開號:

CN105069000A

公開日:

2015.11.18

當前法律狀態:

駁回

有效性:

無權

法律詳情: 發明專利申請公布后的駁回 IPC(主分類):G06F 17/28申請公布日:20151118|||著錄事項變更IPC(主分類):G06F 17/28變更事項:申請人變更前:中譯語通科技(北京)有限公司變更后:中譯語通科技股份有限公司變更事項:地址變更前:100040 北京市石景山區石景山路20號16層1601變更后:100040 北京市石景山區石景山路20號16層1601|||實質審查的生效IPC(主分類):G06F 17/28申請日:20150824|||公開
IPC分類號: G06F17/28 主分類號: G06F17/28
申請人: 中譯語通科技(北京)有限公司
發明人: 田亮; 程國艮; 黃輝
地址: 100040北京市石景山區石景山路20號16層1601
優先權:
專利代理機構: 北京萬貝專利代理事務所(特殊普通合伙)11520 代理人: 馬紅
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510524528.3

授權公告號:

|||||||||

法律狀態公告日:

2019.03.22|||2018.01.16|||2016.04.13|||2015.11.18

法律狀態類型:

發明專利申請公布后的駁回|||著錄事項變更|||實質審查的生效|||公開

摘要

本發明公開了一種交互式預測輸入法,涉及語言翻譯技術領域;解決了現有交互式機器翻譯具有延遲,實用性低的技術問題;該技術方案包括:調用機器翻譯接口把用戶輸入的源語言分成M個片段;根據分片信息,把每個片段進行翻譯并返回N個最佳候選列表;正式翻譯的過程中,自動從M*N的候選列表中進行檢索,并給出與原文相關的翻譯提醒。

權利要求書

1.一種交互式預測輸入法,其特征在于,包括:調用機器翻譯接口把
用戶輸入的源語言分成M個片段;根據分片信息,把每個片段進行翻譯并返
回N個最佳候選列表;正式翻譯的過程中,自動從M*N的候選列表中進行
檢索,并給出與原文相關的翻譯提醒。
2.如權利要求1所述的輸入法,其特征在于,所述把源語言分成M個
片段中的片段為短語片段。
3.如權利要求2所述的輸入法,其特征在于,把每一個譯文的每個單
詞位置進行標示,根據自動對齊獲取到原文和譯文的單詞對應翻譯關系,得
到源語言的短語片段。
4.如權利要求1所述的輸入法,其特征在于,所述根據分片信息,把
每個片段進行翻譯并返回N個最佳候選列表;將所述最佳候選列表存放在緩
存中。
5.如權利要求1所述的輸入法,其特征在于,所述輸入法僅與用戶的
輸入前綴有關,不會再次調用機器翻譯去修改后綴候選列表;所述輸入前綴
為已經輸入的信息。

說明書

一種交互式預測輸入法

技術領域

本發明涉及語言翻譯技術領域,特別涉及一種交互式預測輸入法。

背景技術

當前,機器翻譯已經成熟的應用在教學、科研和商業領域。其中在語言
服務行業中機器翻譯已經應用在后編譯(post-edit)技術中,在該技術中
機器翻譯首先把原文翻譯出一個結果,然后譯員根據譯文再次進行修改。如
今機器翻譯跟計算機輔助翻譯系統(ComputerAidedTranslation)的結合
是大勢所趨,許多廠商,諸如GoogleToolkit、SDLTrados、MemoQ、Lingotek、
Matecat、yeekit等都把機器翻譯作為提高譯員翻譯效率的輔助工具。

機器翻譯跟翻譯行業結合最早是源自交互式機器翻譯技術。交互式機器
翻譯(InteractiveMachineTranslation)起源于1973年Kay的MIND項
目,發展壯大于Langlais等科研工作者21世紀初期構建的TransType和
TransType2項目。最近幾年,傳統的檢索模型(searchingmodel)又被擴
展到各種模型上,諸如González-Rubio的SCFG模型、Alabau的結構預測
和黃國平的對數線性模型。可以說交互式機器翻譯從上世紀初至今,很多科
研工作者提出各種方法去提高交互式機器翻譯的質量,目標是借助于后編譯
技術提高譯員的翻譯效率。然而,實踐中證明實際譯員并不愿意在粗糙的機
器翻譯譯文上“大動手腳”。究其原因就是當前機器翻譯理論和技術的限制
導致機器翻譯的譯文偏離實際意義很大甚至“風馬牛不相及”。雖然科研工
作者從科研的角度證明交互式機器翻譯可以提高譯員的翻譯效率,但是這類
方法并不被實際中的專業譯員所采用,因為被證明同樣耗時費力,而且交互
式機器翻譯的動態解碼(dynamicdecoding)過程非常的耗時,明顯的延遲
感讓商業系統至今不愿接納。

從稍微正式的公式來描述,傳統的交互式機器翻譯(后編譯技術)要考
慮譯員已經輸入的信息,叫做前綴(prefix),用tp表示,系統會根據這些前
綴生成最相關的后綴(suffix)信息供譯員參考選擇,用ts表示。以上描述可
以表示成如下公式:

t ^ s = arg max t s Pr ( t s | s , t p ) = arg max t s Pr ( s , t p t s ) - - - ( 1 ) ]]>

t ^ = arg max t Pr ( t | s ) = arg max t Pr ( s , t ) - - - ( 2 ) ]]>

該公式從公式(2)中變形而來,其中tpts=t,在首輪迭代中,系統將會根據
原文信息產生所有可能的候選翻譯,這些候選翻譯構成了巨大的單詞圖
(word-graph)。譯員每一次的編輯修改都會從這些巨大的單詞圖中搜索有
用的信息,并對后綴信息進行重新計算。

從以上描述中可見,傳統的后編譯其實檢索空間非常大,2014年的時候
科研工作者Koehn認識到該問題,并提出把前綴限定在譯員輸入的最后一個
詞上再進行計算。該方法被證明可以大大的減少交互處理時間。2015年的時
候黃國平等提出一種對數線性模型,并開發出一款類似Google和搜狗拼音
的面向計算機輔助翻譯系統的輸入法。然而兩者的共同點都是在譯員的輸入
中還將不斷的與機器翻譯進行交互,并不斷的根據譯員的輸入而不斷更改修
正提示的內容,實時的產生新的提示內容雖好,但是帶給專業譯員的延遲感
將會降低其實用性。

發明內容

本發明要解決的是現有交互式機器翻譯具有延遲,實用性低的技術問
題。

為了解決上述問題,本發明提供了一種交互式預測輸入法,其特征在于,
包括:調用機器翻譯接口把用戶輸入的源語言分成M個片段;根據分片信息,
把每個片段進行翻譯并返回N個最佳候選列表;正式翻譯的過程中,自動從
M*N的候選列表中進行檢索,并給出與原文相關的翻譯提醒。

更優地,所述把源語言分成M個片段中的片段為短語片段。

更優地,其特征在于,把每一個譯文的每個單詞位置進行標示,根據自
動對齊獲取到原文和譯文的單詞對應翻譯關系,得到源語言的短語片段。

更優地,所述根據分片信息,把每個片段進行翻譯并返回N個最佳候選
列表;將所述最佳候選列表存放在緩存中。

更優地,所述輸入法僅與用戶的輸入前綴有關,不會再次調用機器翻譯
去修改后綴候選列表;所述輸入前綴為已經輸入的信息。

通過以上技術方案可知,本發明提供一種交互式預測輸入法,具有以下
優點:

(1)翻譯的過程中,能快速響應,沒有延遲感;

(2)不需要更改譯員的翻譯輸入習慣,不需要安裝,有需要的翻譯就提
示,沒有相關內容就不提醒,不干擾原來的輸入法,不產生額外的計算操作,
有效的減少譯員的輸入次數;

(3)有效避免了實時的跟機器翻譯交互中涉及的大量計算問題。

附圖說明

圖1一種交互式預測輸入法示意圖;

圖2實際產品中交互式輸入法的效果。

具體實施方式

下面將結合附圖及實施例對本發明的技術方案進行更詳細的說明。

需要說明的是,如果不沖突,本發明實施例以及實施例中的各個特征可
以相互結合,均在本發明的保護范圍之內。

實施例一,一種交互式預測輸入法,如圖1、圖2所示,包括:調用機
器翻譯接口把用戶輸入的源語言分成M個片段;根據分片信息,把每個片段
進行翻譯并返回N個最佳候選列表;正式翻譯的過程中,自動從M*N的候
選列表中進行檢索,并給出與原文相關的翻譯提醒。

本發明提出一種交互式預測輸入法,也稱預測輸入法。其中,根據譯員
的反饋得出以下三個事實:

(1)專業譯員首先會快速的掃描原文文本信息,這個過程會持續兩秒
以上的時間,之后才會開始進行翻譯;

(2)絕大部分譯員有個人習慣常用的輸入法,個人電腦上會有安裝,
而且并不愿意安裝過多輸入法;

(3)希望給出有用的提示,減少輸入,而且只要在翻譯的過程中,希
望提示速度越快越好。

事實(1)指明有至少兩秒的準備時間處理原文句子,在這段時間內可
以把有效的預測給譯員準備好;事實(2)要求盡可能的把預測輸入法集成
到輔助翻譯系統中,而不是做成一個獨立的安裝包;事實(3)說明要從技
術上快速的為譯員提供有效的提示,有提示就提示,沒有相關提示就可以隱
藏,不得干擾其原有輸入法。

基于此,本發明提出了一種交互式預測輸入法:

根據機器翻譯對齊信息,把源語言句子分成m個若干片段(segment);

把每個片段進行調用機器翻譯,并把機器翻譯的n個最好的候選結果返
回;

為減少搜索空間,從m×n個候選結果中,給出譯員提示。

本發明所述的方法就是借助機器翻譯讓譯員在翻譯的時候既給出輸入
提示又考慮原文信息。交互式預測輸入法不再盲目的給出一大堆無用的提
示,而是給出與原文相關的文本。

為了更加實用的服務專業譯員,本發明提出以下三個步驟的交互式預測
法,其中把“交互式”集中體現在兩個方面:(1)譯員拿到原文進行思考
的過程,該過程是原文跟機器翻譯交互的過程;(2)譯員思考完畢,正式
翻譯的過程,該過程是譯員跟機器翻譯產生的候選列表進行交互的過程,且
該提示均與原文信息相關。

一種交互式預測輸入法,具體為:

(1)首先調用機器翻譯接口把源語言分成M個片段。

其中機器翻譯為特定研發的混合機器翻譯系統,機器翻譯結果中包含了
對齊信息,該對齊信息能夠指明目標翻譯的文本的每個片段來自原文信息的
哪個部分。如圖1所示,給定源語言“交互式輸入法可以加快譯員的翻譯速
度。”,根據機器翻譯結果能夠把源語言分成6個短語片段:[交互式,輸入
法,可以加快,譯員的,翻譯,速度。]這個分法有別于傳統的分詞,按照傳
統的分詞,源語言將會被分成類似的9個結果片段:[交互式,輸入法,可以,
加快,譯員,的,翻譯,速度,。]。

其中,上述6個短語片段產生的過程如下:首先系統把每一個譯文的每
個單詞位置進行標示,程序采用src-start,src-end、tgt-start和tgt-end作為標
識符。然后通過高勤的MGIZA自動對齊獲取到原文和譯文的單詞對應翻譯
關系。最后得到原文的片段。其中標識符的意思如下:

i.src-start:源語言分詞后的開始單詞位置,從0開始

ii.src-end:源語言短語結束的位置,包含該單詞

iii.tgt-start:傳統分詞后的目標語言中,短語開始的位置,從0開始

iv.tgt-end:傳統分詞后的目標語言中的短語結束位置,包括該單詞

如以圖1所示,其中源語言的機器翻譯結果為:“Interactiveinputmethod
canspeeduptheinterpreter'stranslationspeed.”根據這個譯文以及對齊信息,
可以把原文拆分成6個片段,其中每個片段會給出對齊信息,見表1的描述。
以片段3為例,對齊信息指明,從源語言的單詞位置2到單詞位置3,對齊
到目標譯文的單詞位置3到單詞位置6,即源語言的單詞“可以”“加快”
對齊到單詞“can”“speed”“up”“the”。以此類推最終得到源語言的6
個片段:[交互式,輸入法,可以加快,譯員的,翻譯,速度。]。



表1:機器翻譯給出的對齊信息

(2)根據上一步的分片信息,再次調用機器翻譯,把每個片段進行翻
譯并返回N個最佳候選列表。

考慮實際中候選列表的質量,系統實現中,一般采用不超過五個候選列
表的方法。在編程實現的時候,把候選列表得到的譯文,存放在緩存中,目
的是待下一步譯員翻譯的時候,能夠快速的得到響應。

(3)譯員正式翻譯的過程中,利用類似Autocomplete的方法從M*N的
候選列表中進行檢索,并給出最合適的且與原文相關的翻譯提醒,減少譯員
的輸入。

在實踐中,現今的輔助翻譯系統中,很多把源語言進行斷句操作,即把
一個篇章拆分成句子供譯員進行翻譯。而每個句子的單詞數量有限,一般語
言不超過200個單詞(中文以單個字計算)。與傳統的交互式方法相比,最
后譯員在提示的時候是從有限個提示譯文中去檢索,而且本發明的方法僅僅
與用戶的輸入前綴有關,不會再次調用機器翻譯去修改后綴候選列表。不會
造成譯員在輸入的過程中有延遲感。

圖1給出了上述三個步驟的例子,其中步驟1中,系統調用機器翻譯,
根據譯文的信息得出源語言的分片文本,在第二步中,系統會把分片信息的
每一塊再次調用機器翻譯,得出每一片的機器翻譯候選列表,并存儲于客戶
端的緩存中,至此與機器翻譯的交互結束,最后譯員從緩存中讀取候選列表,
從中給出譯員最佳的提示,如圖2所示的實際產品。

圖2解釋如下:

譯員打開網站鏈接:http://www.ourime.cn/

在輸入框中輸入待翻譯文本:交互式輸入法可以加快譯員的翻譯速度。

譯員在輸出框中進行翻譯。如果有提示就會給出提示,通過鍵盤的上下
鍵進行選擇,回車即可選中較好的提示。

為了驗證本發明提出的輸入法模型的效果,進行了以下兩個語言方向的
實驗測試,中文翻譯成英語(zh-en)和法語翻譯成英語(fr-en)。其中中文
源語言來自CWMT2015的新聞測試語料1000句中的前500句(可參考:
http://www.ai-ia.ac.cn/cwmt2015/evaluation.html),法語來自WMT2014中
的新聞測試集3000句中的前500句(可于此下載:
http://statmt.org/wmt14/translation-task.html)。其中這500句的文本信息如
表2所述:

待翻譯語言
句子數
平均句長
單詞總數
中文
500
38.81
19,405
法語
500
17.99
8,999

表2:待翻譯文本信息

此次測試,采用特定任務翻譯時間為計算單位,即500句文本譯員平均
翻譯時間。從翻譯公司找出12名具有三年以上的翻譯譯員來進行此次測試,
其中6名譯員進行中英翻譯,6名譯員進行法語到英語的翻譯。為了保證專
業譯員的翻譯效率,限定每個譯員的翻譯時間為每天兩個小時,其中上午一
個小時,下午一個小時,每個小時又被拆分成半個小時,中間休息20分鐘。

機器翻譯采用國際上開源的Moses系統(可于
http://www.statmt.org/moses/index.php?n=Main.HomePage下載),其中中英的
訓練語料庫來自CWMT2015的訓練集,法英的訓練集來自WMT中的
Europarl200萬法英數據。訓練數據并不包含待翻譯文本。

實驗將會分成兩個部分,其中實驗(1)中,機器翻譯的訓練結果中不
包含待翻譯文本,且譯員都不熟悉待翻譯文本。實驗(2)中,待所有譯員
翻譯文本后,把已經翻譯好的文本選取一致認為好的句子進行機器翻譯重新
訓練,即機器翻譯包含待翻譯文本句子。實驗(1)的目的是在均不熟悉原
文的情況下進行翻譯,甚至機器翻譯不會給出有用的信息進行測試預測輸入
法的效果;實驗(2)的目的是在已知機器翻譯會對譯文進行有效提醒的情
況下,測試完全自己輸入和具有提示輸入的效果。

具有提示功能的系統A(系統B界面類似,只是禁用了預測提示)

為此,在http://www.ourime.cn/的基礎上開發出兩個網頁版的系統,其中
一個具有自帶的輸入提示,即系統A,一個不含有提示功能,即系統B。500
句待翻譯的文本放在服務器端,目的是保證譯員無法在翻譯以外的時間提前
看到其他句子而事先操作翻譯。并自動給出時間倒計時,時間限定為30分
鐘,時間一到,即停止翻譯。系統將會自動記錄每30分鐘內譯員翻譯的句
子數,且能記錄翻譯每句話的時間。每個語言對中,三名譯員在A系統中操
作,另外三名譯員在B系統中操作翻譯,六名譯員獨立翻譯500句所有文本。
針對實驗(1),經過22天的時間(法語翻譯13天),所有翻譯結束,通
過系統測算得出表3的結果:

譯員
系統A翻譯時間(分鐘)
系統B翻譯時間(分鐘)
譯員1
2688
-
譯員2
2442
-
譯員3
2611
-
譯員4
-
2734
譯員5
-
2797
譯員6
-
2683
平均時間
2580
2738

表3:實驗(1)中文500句翻譯時間對比

譯員
系統A翻譯時間(分鐘)
系統B翻譯時間(分鐘)
譯員7
1207
-
譯員8
1223
-
譯員9
1169
-
譯員10
-
1401
譯員11
-
1233
譯員12
-
1295
平均時間
1199
1309

表4:實驗(1)法語500句翻譯時間對比

由表3可以看出,在給出自動提示的系統A中,譯員平均消耗了2580
分鐘進行了500句的翻譯,而在沒有給出自動提示的翻譯過程中使用了2738
分鐘的時間。提高了6.12%的翻譯效率。通過表4觀察,對法語的翻譯中使
用預測輸入法可提高9.11%的效率。

通過和譯員交流,得知在中文的翻譯中,給定的500句中,很多句子中
的專業名詞,機器翻譯并沒有給出有效的提示,但是法語中提示的效果就明
顯增多。通過分析最終知道,雖然中英訓練語料庫也是來自新聞領域,但是
與給定的翻譯句子有很多的不同,即未登錄詞不少,比如“中山紀念中學”
機器翻譯給出的是“ZhongShanMemorialMiddleSchool”,而實際上譯員想
采用的是“SunYat-senMemorialMiddleSchool”。這樣根據以上提出的算法,
譯員只能自己輸入“SunYat-sen”,導致了翻譯時間的增加。所以針對實際
情況中的機器翻譯將會有更大的訓練語料的事實,把譯員翻譯的500句文本
重新作為訓練語料庫進行訓練。然后,12名譯員在新的機器翻譯模型再次進
行翻譯。同樣的,譯員仍然在系統A、B上進行翻譯。表5和表6分別給出
該次翻譯的時間對比。

譯員
系統A翻譯時間(分鐘)
系統B翻譯時間(分鐘)
譯員1
1942
-
譯員2
2033
-
譯員3
1844
-

譯員4
-
2167
譯員5
-
2366
譯員6
-
2254
平均時間
1939
2262

表5:實驗(2)中文500句翻譯時間對比

譯員
系統A翻譯時間(分鐘)
系統B翻譯時間(分鐘)
譯員7
1083
-
譯員8
986
-
譯員9
1092
-
譯員10
-
1285
譯員11
-
1109
譯員12
-
1137
平均時間
1053
1177

表6:實驗(2)法語500句翻譯時間對比

通過融合已經翻譯句子在翻譯系統中,可以看到很明顯的改變,同樣的
中文翻譯中,具有預測輸入法的譯員平均翻譯效率提高了16.65%(從2262
分鐘縮減為1939分鐘),法語的翻譯中翻譯效率提升了11.71%(從1177
分鐘縮減為1053分鐘)。

本文提出了一種基于統計機器翻譯的交互式預測輸入法,該方法充分考
慮原文信息,在譯員翻譯輸入的時候,可以給出與原文最相關的提示。該方
法分為三步:(1)通過機器翻譯對齊信息,把源語言進行分片段;(2)再
次調用機器翻譯,把每一個片段進行機器翻譯,并返回若干候選列表;(3)
譯員在對原文分析后,翻譯的過程中,將對候選結果進行搜索,并給出最相
關的提示,減少敲打鍵盤次數。在500句小規模翻譯句子進行測試中,借助
交互式預測輸入法,中文翻譯成英文可以提高最多16.65%,法語翻譯成英文
中,最多可以提高11.71%。

在真實翻譯實踐證明,該方法模型也證明可以提高專業譯員的翻譯效率。
把該方法應用在兩家翻譯公司的實踐中,從譯員的反饋來看,該輸入法達到
了預期的效果:(1)翻譯的過程中,能快速響應,沒有延遲感;(2)不需
要更改譯員的翻譯輸入習慣,不需要安裝,有需要的翻譯就提示,沒有相關
內容就不提醒,不干擾原來的輸入法。

從科研的角度,本文提出一種充分利用機器翻譯的信息來提升譯員翻譯
效率的方法,該方法解決了“交互式”的時間問題,有效避免了以前科研工
作者提出的,譯員輸入的過程中還要實時的跟機器翻譯交互中涉及的大量計
算問題。從實踐的角度看,“交互式輸入法”融入到譯員的翻譯過程中,
僅提供有效的提醒功能,不產生額外的計算操作,有效的減少譯員的輸入次
數。

當然,本發明還可有其他多種實施例,在不背離本發明精神及其實質的
情況下,熟悉本領域的技術人員當可根據本發明作出各種相應的改變和變
形,但這些相應的改變和變形都應屬于本發明的權利要求的保護范圍。

關 鍵 詞:
一種 交互式 預測 輸入法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種交互式預測輸入法.pdf
鏈接地址:http://www.wwszu.club/p-6386015.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大