鬼佬大哥大
  • / 69
  • 下載費用:30 金幣  

使用互聯網語料庫的自動的上下文相關的語言校正和增強.pdf

摘要
申請專利號:

CN201510351019.5

申請日:

2008.07.31

公開號:

CN105045777A

公開日:

2015.11.11

當前法律狀態:

撤回

有效性:

無權

法律詳情: 發明專利申請公布后的視為撤回IPC(主分類):G06F 17/27申請公布日:20151111|||實質審查的生效IPC(主分類):G06F 17/27申請日:20080731|||公開
IPC分類號: G06F17/27; G06F17/30 主分類號: G06F17/27
申請人: 金格軟件有限公司
發明人: Y·卡羅夫贊格威爾; A·贊格威爾
地址: 美國馬塞諸塞州
優先權: 60/953,209 2007.08.01 US
專利代理機構: 永新專利商標代理有限公司72002 代理人: 王英; 張立達
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510351019.5

授權公告號:

||||||

法律狀態公告日:

2018.04.03|||2015.12.09|||2015.11.11

法律狀態類型:

發明專利申請公布后的視為撤回|||實質審查的生效|||公開

摘要

一種計算機輔助語言校正系統,其包括使用互聯網語料庫的利用上下文特征序列功能的拼寫校正功能、誤用詞校正功能、語法校正功能和詞匯增強功能。

權利要求書

1.一種計算機輔助語言校正系統,包括:
以下各項中的至少一個:
拼寫校正功能;
誤用詞校正功能;
語法校正功能;以及
詞匯增強功能;以及
與以下各項中的至少一個協作并且使用互聯網語料庫的上下文特征序
列功能:所述拼寫校正功能、所述誤用詞校正功能、語法校正功能和所述
詞匯增強功能。
2.根據權利要求1所述的計算機輔助語言校正系統,其中,所述語法
校正功能包括標點、動詞變形、單數/復數、冠詞和介詞校正功能中的至少
一個。
3.根據權利要求1或權利要求2所述的計算機輔助語言校正系統,其
中,所述語法校正功能包括替換、插入和省略校正功能中的至少一個。
4.根據權利要求1-3中的任意一項所述的計算機輔助語言校正系統,
包括以下各項中的至少兩個:
所述拼寫校正功能;
所述誤用詞校正功能;
所述語法校正功能;以及
所述詞匯增強功能;并且
其中,所述上下文特征序列功能與以下各項中的至少兩個進行合作并
且使用互聯網語料庫:所述拼寫校正功能、所述誤用詞校正功能、所述語
法校正功能和所述詞匯增強功能。
5.根據權利要求1-3中的任意一項所述的計算機輔助語言校正系統,
包括以下各項中的至少三個:
所述拼寫校正功能;
所述誤用詞校正功能;
所述語法校正功能;
所述詞匯增強功能;并且
其中,所述上下文特征序列功能與以下各項中的至少三個進行合作并
且使用互聯網語料庫:所述拼寫校正功能、所述誤用詞校正功能、所述語
法校正功能和所述詞匯增強功能。
6.根據權利要求1-3中的任意一項所述的計算機輔助語言校正系統,
包括:
所述拼寫校正功能;
所述誤用詞校正功能;
所述語法校正功能;以及
所述詞匯增強功能;并且
其中,所述上下文特征序列功能與以下各項功能進行合作并且使用互
聯網語料庫:所述拼寫校正功能、所述誤用詞校正功能、所述語法校正功
能和所述詞匯增強功能。
7.根據權利要求1-6中的任意一項所述的計算機輔助語言校正系統,
其中,所述校正生成器包括校正語言生成器,用于在不需要用戶干預的情
況下,基于所述選擇器做出的選擇,提供校正語言輸出。

說明書

使用互聯網語料庫的自動的上下文相關的語言校正和增強

本申請是申請日為2008年7月31日并且申請號為200880101405.7的
中國專利申請的分案申請。

相關申請的參考

參考2007年8月1日提交的、題目為“METHODSFORCONTEXT
SENSITIVEERRORDETECTIONANDCORRECTION”、申請號為
60/953,209的美國臨時專利申請,以引用方式將其公開并入本文,并且依照
37CFR1.78(a)(4)和(5)(i)要求其優先權。

技術領域

本發明總體上涉及計算機輔助語言校正。

背景技術

認為以下公開代表技術的當前狀態:

美國專利號為5,659,771;5,907,839;6,424,983;7,296,019;5,956,739
25和4,674,065的專利

美國公開專利申請號為2006/0247914和2007/0106937的申請。

發明內容

本發明嘗試提供用于計算機輔助語言校正的改進的系統和功能。

因此,根據本發明的優選實施例提供了一種計算機輔助語言校正系統,
其包括備選詞生成器,基于輸入句子,生成為所述句子中的多個詞的中每
一個提供多個備選詞的基于文本的表示,選擇器,用于至少部分地基于互
聯網語料庫,針對所述句子中的所述多個詞的每一個,在至少所述多個備
選詞中進行選擇,以及校正生成器,用于基于所述選擇器做出的選擇來提
供校正輸出。

優選地,所述選擇器用于,基于以下校正功能中的至少一個來做出所
述選擇:拼寫校正、誤用詞校正、語法校正和詞匯增強。

根據本發明的優選實施例,所述選擇器用于,基于以下校正功能中的
至少兩個來做出所述選擇:拼寫校正、誤用詞校正、語法校正和詞匯增強。
此外,所述選擇器用于,基于校正的以下時間順序中的至少一項來做出所
述選擇:先于誤用詞校正、語法校正和詞匯增強的至少一個的拼寫校正,
以及先于詞匯增強的誤用詞校正和語法校正。

此外或可選地,由以下功能中的一個來提供所述輸入句子:詞處理器
功能、機器翻譯功能、語音到文本轉換功能、光學字符識別功能,以及即
時通信功能,并且所述選擇器用于,基于以下校正功能中的至少一個來做
出所述選擇:誤用詞校正、語法校正以及詞匯增強。

優選地,所述校正生成器包括校正語言輸入生成器,用于在不需要用
戶干預的情況下,基于所述選擇器做出的選擇,提供校正語言輸出。此外
或可選地,所述語法校正功能包括標點、動詞變形、單數/復數、冠詞和介
詞校正功能中的至少一個。

根據本發明的優選實施例,所述語法校正功能包括替換、插入和省略
校正功能中的至少一個。

優選地,所述選擇器包括基于上下文計分功能,用于至少部分地基于
在互聯網語料庫中上下文特征序列(CFS)出現的頻率,排序所述多個備選
詞。此外,所述基于上下文計分功能,還用于至少部分地基于在所述互聯
網語料庫中標準化CFS出現的頻率,排序所述多個備選詞。

根據本發明的另一個優選實施例還提供了一種計算機輔助語言校正系
統,其包括以下中的至少一個:拼寫校正功能、誤用詞校正功能、語法校
正功能、詞匯增強功能,以及與以下各項中的至少一個協作并且使用互聯
網語料庫的上下文特征序列功能:所述拼寫校正功能;所述誤用詞校正功
能、語法校正功能和所述詞匯增強功能。

優選地,所述語法校正功能包括標點、動詞變形、單數/復數、冠詞和
介詞校正功能中的至少一個。此外或可選地,所述語法校正功能包括替換、
插入和省略校正功能中的至少一個。

根據本發明的優選實施例,所述計算機輔助語言校正系統包括以下各
項中的至少兩個:所述拼寫校正功能、所述誤用詞校正功能、所述語法校
正功能、所述詞匯增強功能,并且所述上下文特征序列功能與以下各項中
的至少兩個進行協作并且使用互聯網語料庫:所述拼寫校正功能、所述誤
用詞校正功能、所述語法校正功能和所述詞匯增強功能。

優選地,所述計算機輔助語言校正系統還包括以下各項中的至少三個:
所述拼寫校正功能、所述誤用詞校正功能、所述語法校正功能、所述詞匯
增強功能,并且所述上下文特征序列功能與以下各項中的至少三個進行協
作并且使用互聯網語料庫:所述拼寫校正功能;所述誤用詞校正功能,所
述語法校正功能和所述詞匯增強功能。

根據本發明的優選實施例,所述的計算機輔助語言校正系統還包括:
所述拼寫校正功能、所述誤用詞校正功能、所述語法校正功能,和所述詞
匯增強功能,并且所述上下文特征序列功能與以下各項功能進行協作并且
使用互聯網語料庫:所述拼寫校正功能;所述誤用詞校正功能,所述語法
校正功能和所述詞匯增強功能。

優選地,所述校正生成器包括校正語言生成器,用于在不需要用戶干
預的情況下,基于所述選擇器做出的選擇,用于提供校正語言輸出。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,其包括:備選詞生成器,基于語言輸入,生成為所述句子中的多個
詞中的每一個提供多個備選詞的基于文本的表示;選擇器,用于至少部分
地基于為所述語言輸入中的所述多個詞中的至少一些選擇的所述多個備選
詞中的多個之間的關系,為所述語言輸入中的所述多個詞中的每一個,在
至少所述多個備選詞之間進行選擇;校正生成器,用于基于由所述選擇器
做出的選擇,來提供校正輸出。

優選地,所述語言輸入包括輸入句子和輸入文本中的至少一個。此外
或可選地,所述語言輸入是語音并且所述生成器將語音中的所述語言輸入
轉換為為所述語言輸入中的多個詞提供多個備選詞的基于文本的表示。

根據本發明的優選實施例,所述語言輸入是以下各項中的至少一個:
文本輸入、光學字符識別功能的輸出、機器翻譯功能的輸出,以及詞處理
功能的輸出,并且所述生成器將文本中的所述語言輸入轉換為為語言輸入
中的多個詞提供多個備選詞的基于文本的表示。

優選地,所述選擇器,用于至少基于以下校正功能中的兩個,做出所
述選擇:拼寫錯誤、誤用詞校正、語法校正,以及詞匯增強。此外,所述
選擇器用于,基于校正的以下時間順序中的至少一個來做出所述選擇:先
于誤用詞校正、語法校正和詞匯增強中的至少一個的拼寫校正,以及先于
詞匯增強的誤用詞校正和語法校正。

根據本發明的優選實施例,所述語言輸入是語音并且所述選擇器用于
基于以下校正功能中的至少一個來做出所述選擇:誤用詞校正、語法校正,
以及詞匯增強。

優選地,所述選擇器用于通過執行以下功能中的至少兩個來做所述選
擇:選擇包括比初始選擇的所述語言輸入中的所有所述多個詞少的第一組
詞或詞的組合;之后對所述第一組詞或詞的組合的元素進行排序以建立選
擇的優先級;之后為了所述第一組詞的元素,當在所述多個備選詞之間選
擇時,選擇其它詞而不是所有所述多個詞作為上下文來影響所述選擇。此
外或可選地,所述選擇器用于通過執行以下功能來做所述選擇:當選擇具
有至少兩個詞的元素時,結合用于所述至少兩個詞彼此的所述多個備選詞
的每一個來評估用于所述至少兩個詞的每一個的所述多個備選詞的每一
個。

根據本發明的優選實施例,所述校正生成器包括校正語言輸入生成器,
用于在不需要用戶干預的情況下,基于所述選擇器做出的選擇,提供校正
語言輸出。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,其包括:誤用詞懷疑器,基于所述語言輸入的上下文中詞的合適度
來評估語言輸入中的至少大部分詞;校正生成器,用于至少部分地基于由
所述懷疑器執行的評估,提供校正輸出。

優選地,所述的計算機輔助語言校正系統還包括:備選詞生成器,基
于所述語言輸入,生成為所述語言輸入中的所述至少大部分詞的至少一個
提供多個備選詞的基于文本的表示;選擇器,用于為所述語言輸入中的所
述至少大部分的詞中的所述至少一個的每一個,在至少所述多個備選詞中
進行選擇,并且其中,所述校正生成器,用于基于所述檢測器做出的選擇,
提供所述校正輸出。此外或可選地,所述的計算機輔助語言校正系統還包
括:懷疑詞輸出指示器,其指示所述語言輸入中的所述詞的所述至少大部
分的至少一些被懷疑為誤用詞的程度。

根據本發明的優選實施例,所述校正生成器包括自動校正語言生成器,
用于在不需要用戶干預的情況下,至少部分地基于由所述懷疑器執行的評
估,提供校正文本輸出。

優選地,所述語言輸入是語音并且所述選擇器用于,基于以下校正功
能的至少一個,做所述選擇:誤用詞校正、語法校正,以及詞匯增強。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,包括:誤用詞懷疑器,用于評估語言輸入中的詞;備選詞生成器,
為由所述懷疑器評估為懷疑詞的、所述語言輸入中的至少一些詞生成多個
備選詞,所述語言輸入中的詞的所述多個備選詞的至少一個與互聯網語料
庫中所述語言輸入中的所述詞的上下文特征一致;選擇器,用于在至少所
述多個備選詞之間進行選擇;校正生成器,用于至少部分地基于由所述選
擇器做出的選擇,用于提供校正輸出。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,包括:誤用詞懷疑器,評估語言輸入中的詞并且識別懷疑的詞;備
選詞生成器,生成用于所述懷疑詞的多個備選詞;選擇器,根據多個選擇
標準對每個所述懷疑詞以及為此由所述備選詞生成器生成的所述多個備選
詞的一個進行評級,并且應用與為此由所述備選詞生成器生成的所述多個
備選詞中的一個有關的所述懷疑的詞有利的偏值;校正生成器,用于至少
部分地基于由所述選擇器做出的選擇,提供校正輸出。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,包括:備選詞生成器,基于輸入為所述輸入中的至少一個詞生成多
個備選詞;選擇器,根據多個選擇標準對每一個所述至少一個詞以及為此
由所述備選詞生成器生成的所述多個備選詞的多個進行評級,并且應用與
為此由所述備選詞生成器生成的所述多個備選詞中的一個有關的所述至少
一個詞有利的偏值,所述偏值是指示提供了輸入的人的不確定度的所述輸
入不確定度度量的函數;校正生成器,用于基于所述選擇器做出的選擇,
提供校正輸出。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,包括:不正確詞懷疑器,評估語言輸入中的詞的至少大部分,所述
懷疑器至少部分地響應于指示提供了輸入的人的不確定度的輸入不確定度
度量,所述懷疑器提供懷疑的不正確詞輸出;備用詞生成器,為由所述懷
疑的不正確詞輸出所識別的懷疑的不正確詞生成多個備選詞;選擇器,用
于在每一個懷疑的不正確詞和由所述備選詞生成器生成的所述多個備選詞
中進行選擇;用于基于所述選擇器做出的選擇,提供校正輸出的校正生成
器。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,包括:接收多個詞輸入并且提供校正輸出的拼寫校正模塊、誤用詞
校正模塊、語法校正模塊和詞匯增強模塊中的至少一個,拼寫校正模塊、
誤用詞校正模塊、語法校正模塊和詞匯增強模塊中的所述至少一個的每一
個包括:備選詞候選生成器包括語音相似性功能,用于基于與所述輸入中
的詞的語音相似性,提出備選詞,并且用于指示語音相似性的度量;字符
串相似性功能,用于基于與所述輸入中的詞的字符串相似性,來提出備選
詞,并且指示用于每一個備選詞的字符串相似性的度量;選擇器,用于通
過使用所述語音相似性和字符串相似性度量以及基于上下文選擇功能,選
擇所述輸出中的詞或由所述備選詞候選者生成器提出的備選詞候選者。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,包括:懷疑詞識別功能,接收多個詞語言輸入并且提供指示懷疑詞
的懷疑詞輸出;特征識別功能,用于識別包括所述懷疑詞的特征;備選詞
選擇器,識別用于所述懷疑詞的備選詞;特征出現功能,使用語料庫并提
供出現輸出,關于在所述語料庫中的使用頻率來排序包括所述備選詞的各
種特征;選擇器,使用所述出現輸出來提供校正輸出,所述特征識別功能
包括特征過濾功能,所述特征過濾功能包括以下中的至少一個:用于消除
包含懷疑的錯誤的特征的功能;用于消極地偏置包含在所述多個詞輸入的
較早的校正迭代中引入的詞并且具有在可信度預定的閾值以下的可信度的
特征的功能;用于消除包含在具有在預定的頻率閾值之上的出現的頻率的
另一個特征中所包含的特征的功能。

優選地,所述選擇器用于至少基于以下校正功能的兩個來做該選擇:
拼寫校正、誤用詞校正、語法校正,以及詞匯增強。此外,所述選擇器用
于基于校正的以下時間順序中的至少一個來做出所述選擇:先于誤用詞校
正、語法校正和詞匯增強中的至少一個的拼寫校正;先于詞匯增強的誤用
詞校正和語法校正。

根據本發明的優選實施例,所述語言輸入是語音并且所述選擇器是用
于基于以下校正功能的至少一個來做所述選擇:語法校正、誤用詞校正、
詞匯增強。

優選地,所述校正生成器包括校正語言輸入生成器,用于在不需要用
戶干預的情況下,基于所述選擇器做出的選擇,提供校正語言輸出。

根據本發明的優選實施例,所述選擇器還用于,至少部分地基于用戶
輸入不確定度度量來做所述選擇。此外,所述用戶輸入不確定度度量是基
于提供了所述輸入的人的不確定度的測量的函數。此外或可選地,所述選
擇器還使用用戶輸入歷史學習功能。

根據本發明的優選實施例,還提供了一種計算機輔助語言校正系統,
包括:懷疑詞識別功能,接收多個詞語言輸入并且提供指示懷疑詞的懷疑
詞輸出;特征識別功能,用于識別包括所述懷疑詞的特征;備選詞選擇器,
識別用于所述懷疑詞的備選詞;出現功能,使用語料庫并提供出現輸出,
關于在所述語料庫中詞的使用頻率來排序包括所述備選詞的特征,;校正輸
出生成器,使用所述出現輸出以提供校正輸出,所述特征識別功能包括以
下各項中的至少一個:N-gram識別功能;共同出現識別功能;以下各項中
的至少一個:skip-gram識別功能、switch-gram識別功能,以及之前由用戶
使用的特征識別功能。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,包括:語法錯誤懷疑器,基于在所述語言輸入的上下文中詞的適合
度,評估語言輸入中所述詞的至少大部分;校正生成器,用于至少部分地
基于由所述懷疑器執行的評估,提供校正輸出。

優選地,所述的計算機輔助語言校正系統還包括:備選詞生成器,基
于所述語言輸入,生成為在所述語言輸入中的所述至少大部分詞中的至少
一個提供多個備選詞的基于文本的表示;選擇器,用于為所述語言輸入中
的所述至少大部分詞中的所述至少一個的每一個,在至少所述多個備選詞
中進行選擇,并且其中,所述校正生成器,用于基于由所述選擇器做出的
選擇,提供所述校正輸出。

根據本發明的優選實施例,所述的計算機輔助語言校正系統并且還包
括:懷疑詞輸出指示器,其指示所述語言輸入中的所述詞的所述至少大部
分的至少一些被懷疑為包含語法錯誤的程度。

優選地,所述校正生成器包括自動校正語言生成器,用于在不需要用
戶干預的情況下,至少部分地基于由所述懷疑器執行的評估,提供校正文
本輸出。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,包括:語法錯誤懷疑器,評估語言輸入中的詞;備選詞生成器,為
由所述懷疑器評估為懷疑詞的所述語言輸入中的至少一些詞生成多個備選
詞,用于所述語言輸入中的詞的所述多個備選詞的至少一個與所述語言輸
入中的所述詞的上下文特征一致;選擇器,用于在至少所述多個備選詞之
間進行選擇;校正生成器,用于至少部分地基于由所述檢測器做出的選擇,
提供校正輸出。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,包括:語法錯誤懷疑器,評估語言輸入中的詞并且識別懷疑的詞;
備選生成器,生成用于所述懷疑詞的多個備選詞;選擇器,根據多個選擇
標準對每一個所述懷疑的詞以及為此由所述備選詞生成器生成的所述多個
備選詞的一個進行評級,并且應用與為此由所述備選詞生成器生成的所述
多個備選詞中的一個有關的所述懷疑的詞有利的偏值;校正生成器,用于
至少部分地基于由所述選擇器做出的選擇,提供校正輸出。

優選地,所述校正生成器包括校正語言輸入生成器,用于在不需要用
戶干預的情況下,基于由所述選擇器做出的選擇,提供校正語言輸出。

根據本發明的另一個優選實施例,還提供了一種包括各種備選詞校正
的基于上下文計分的計算機輔助語言校正系統,至少部分地基于在互聯網
語料庫中上下文特征序列(CFS)出現的頻率。

優選地,所述計算機輔助語言校正系統還包括以下各項中的至少一個:
與所述基于上下文計分協作的拼寫校正功能、誤用詞校正功能、語法校正
功能,以及詞匯增強功能。

根據本發明的優選實施例,所述基于上下文計分還至少部分地基于在
互聯網語料庫中的標準化CFS出現的頻率。此外或可選地,所述基于上下
文計分還至少部分地基于CFS重要性得分。此外,所述CFS重要性得分是
以下各項中的至少一個的函數:詞性標注和句子分析功能的操作;CFS長
度;在CFS和CFS類型中的每一個詞的出現的頻率。

根據本發明的另一個優選實施例,還提供了一種包括詞匯增強功能的
計算機輔助語言校正系統,包括:詞匯挑戰的詞識別功能;備選詞詞匯增
強生成功能;基于上下文計分功能,其至少部分地基于在互聯網語料庫中
上下文特征序列(CFS)出現的頻率,所述備選詞詞匯增強生成功能,其包
括詞典預處理功能,用于生成備選詞詞匯增強。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,包括:備選詞生成器,基于輸入句子,生成為所述句子中的多個詞
的每一個提供多個備選詞的基于文本的表示;選擇器,為了所述句子中的
所述多個詞的每一個,在至少所述多個備選詞中選擇;可信度分配器,用
于將可信度分配到來自所述多個備選詞的選擇的備選詞;校正生成器,用
于基于所述選擇器做出的選擇并且至少部分地基于所述可信度,提供校正
輸出。

優選地,基于上下文特征序列(CFS)來評估所述多個備選詞,并且所
述可信度是基于以下參數中的至少一個:選擇的CFS的數量、類型和得分;
在CFS上下文中,所述多個備選詞的出現的頻率的統計顯著性的測量;基
于每一個所述CFS的優先選擇度量和所述多個備選詞的詞相似性得分,選
擇所述多個備選詞中的一個的一致性程度;所述多個備選詞中的所述一個
的不基于上下文相似性得分在第一預定的最低閾值以上;基于上下文數據
可用性的程度,其由所述CFS的數量來指示,其中,所述CFS具有在第二
預定最低閾值以上并且具有在第三預定閾值之上的優先選擇得分。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,包括:標點錯誤懷疑器,基于語言輸入的上下文中的合適度,評估
所述語言輸入中的所述詞和標點中的至少一些,其中,所述語言輸入的合
適度是基于互聯網語料庫中所述語言輸入的feature-gram的出現的頻率;校
正生成器,用于至少部分地基于由所述懷疑器執行的評估,提供校正輸出。

優選地,所述校正生成器包括丟失標點校正功能、冗余標點校正功能
和標點替換校正功能中的至少一個。

根據本發明的另一個優選實施例,還提供了一種計算機輔助語言校正
系統,包括:語法元素錯誤懷疑器,基于語言輸入的上下文中的合適度,
評估所述語言輸入中的所述詞中的至少一些,其中,所述語言輸入的合適
度是基于互聯網語料庫中所述語言輸入的feature-gram的出現的頻率;校正
生成器,用于至少部分地基于由所述懷疑器執行的評估,提供校正輸出。

優選地,所述校正生成器至少包括丟失語法元素校正功能、冗余語法
元素校正功能和語法元素替換校正功能中的至少一個。此外或可選地,所
述語法元素是冠詞、介詞和連詞中的一個。

附圖說明

結合附圖,根據以下詳細的描述,將更全面地懂得并理解本發明,其
中:

圖1是用于根據本發明的優選實施例建造并操作的計算機輔助語言校
正的系統和功能的簡化的框圖說明;

圖2是說明了圖1的系統和功能中優選地使用的拼寫校正功能的簡化
的流程圖;

圖3是說明了圖1的系統和功能中優選地使用的誤用詞和語法校正功
能的簡化的流程圖;

圖4是在圖1的系統和功能中使用的、說明了詞匯增強功能的簡化的
流程圖;

圖5是說明了圖1的系統和功能中優選地使用的上下文特征序列(CFS)
功能的簡化的框圖;

圖6A是說明了根據本發明的優選實施例的圖2的功能的拼寫校正功能
形成部分的簡化的流程圖;

圖6B是說明了根據本發明的優選實施例的圖3的功能的誤用詞和語法
校正功能形成部分的簡化的流程圖;

圖6C是說明了根據本發明的優選實施例的圖4的功能的詞匯增強功能
形成部分的簡化的流程圖;

圖7A是說明了用于生成在圖2和3的功能中有用的備選詞校正的功能
的簡化的流程圖;

圖7B是說明了用于生成在圖4的功能中有用的備選詞增強的功能的簡
化的流程圖;

圖8是說明了用于在圖2的拼寫校正功能中有用的各種備選詞增強的
不基于上下文詞的基于相似性計分和基于上下文計分(優選地使用互聯網
語料庫)的功能的簡化的流程圖;

圖9是說明了用于在圖3、10和11的誤用詞和語法校正功能以及在圖
4的詞匯增強功能中有用的各種備選詞校正的不基于上下文詞的基于相似
性計分和基于上下文計分(優選地使用互聯網語料庫)的功能的簡化的流
程圖;

圖10是說明了丟失冠詞、介詞和標點校正功能的操作的簡化的流程圖;
以及

圖11是冗余冠詞、介詞和標點校正功能的操作的簡化的流程圖。

具體實施方式

現在參照圖1,其是用于根據本發明的優選實施例建造并操作的計算機
輔助語言校正的系統和功能的簡化的框圖說明。如圖1所示,從一個或多
個源將校正文本提供給語言校正模塊100,包括但并不限于:字處理功能
102、機器翻譯功能104、語音到文本轉換功能106、光學字符識別功能108
和任何其它文本源110,例如即時通信或互聯網。

語言校正模塊100優選地包括拼寫校正功能112、誤用詞和語法校正功
能114以及詞匯增強功能116。

本發明的特定特征是拼寫校正功能112、誤用詞和語法校正功能114以
及詞匯增強功能116中的每個都與上下文特征序列(CFS)功能118進行交
互,所述上下文特征序列功能118使用互聯網語料庫120。

為了本描述的目的,定義了上下文特征序列或CFS,其包括N-gram、
skip-gram、共同出現、“之前由用戶特征使用”和其組合,參照圖5下文依
次對其進行定義。應當注意,為了描述的簡便和清楚,以下的大多數示例
僅使用n-gram。應當理解本發明并不限于此。

互聯網語料庫的使用很重要,因為它為極大量的上下文特征序列提供
了顯著的統計的數據,導致極為健壯的語言校正功能。在實踐中,超過兩
個字的組合在傳統的非互聯網語料庫中具有很少的統計,但是在互聯網語
料庫中具有令人滿意或良好的統計。

互聯網語料庫通常通過在互聯網上爬行并從網站頁面收集文本、從萬
維網收集的自然語言文本的大量代表性示例。優選地,還收集動態文本,
例如聊天記錄、來自網絡論壇的文本和來自博客的文本。收集的文本用于
積累關于自然語言文本的統計。互聯網語料庫的大小可以是,例如一萬億
(1,000,000,000,000)字或幾萬億字,與其形成對照的是,更典型的語料庫
大小為20億字。網絡的小的示例(例如,網絡語料庫)包括100億字,其
顯著地小于由搜索引擎(例如,)建立索引的網絡文本的百分之
一。本發明可以與網絡的示例(例如,網絡語料庫)一起工作,但是優選
地它對文本校正的任務使用網絡的顯著地大的樣本。

在以下兩種方法中的一種中優選地使用互聯網語料庫:

使用CFS作為搜索查詢來使用一個或多個互聯網搜索引擎。每個這種
查詢的結果的數量提供了該CFS的出現的頻率。

隨著時間的過去,通過爬行并索引互聯網來建立本地索引。每個CFS
的出現的次數提供了CFS頻率。本地索引以及搜索查詢可以基于互聯網的
可選擇的部分并且可以用這些選擇的部分來識別。類似的,可以排除或適
當地權衡互聯網的部分,以校正在互聯網使用與通用語言使用之間的異常。
用這種方法,可以對從語言使用方面來說可靠的網站(例如,新聞和政府
網站)給出比其它網站(例如,聊天或用戶論壇)更高的權重。

優選地,在開始的時候,將輸入文本提供給拼寫校正功能112,之后提
供給誤用詞和語法校正功能114。輸入文本可以是任何合適的文本并且在字
處理的情況下優選地是文檔的部分,例如句子。詞匯增強功能116優選地
在用戶對文本的選擇的情況下工作,其中所述本文已經被提供給拼寫校正
功能112并且提供給誤用詞和語法校正功能114。

優選地,語言校正模塊100提供了輸出,所述輸出包括帶有每個校正
的詞或詞的組的一個或多個建議的備選詞的校正的文本。

現在,參照圖2,其是說明了圖1的系統和功能中優選地使用的拼寫校
正功能的簡化的流程圖。如圖2所示,拼寫校正功能優選地包括以下步驟:

識別輸入文本中的拼寫錯誤,優選地使用擴充了通常在互聯網使用的
專有名稱和專有詞的傳統字典。

將拼寫錯誤分成簇(所述簇可以包括連續的或幾乎連續的、具有拼寫
錯誤的單個或多個詞)并且選擇用于校正的簇。該選擇嘗試發現包含最大
數量的校正基于上下文的數據的簇。優選地,選擇具有在其附近正確拼寫
的詞的最長序列或多個序列的簇。參照圖6A,下文更詳細地描述上述步驟。

優選地基于參照圖7A下文描述的算法,來生成用于每個簇的一個備選
校正或優選地生成用于每個簇的多個備選校正;

至少部分地不基于上下文的詞基于相似性的計分和基于上下文的計
分,優選地基于參照圖8下文描述的拼寫校正備選詞計分算法,來優選地
使用各種備選校正的互聯網語料庫;

對于每個簇,基于上述得分來選擇單個拼寫校正并示出大多數優選備
選的拼寫校正;以及

為每個誤拼寫的簇提供包括單個拼寫校正的校正文本輸出,所述校正
文本輸出代替了誤拼寫簇。

根據以下示例的考慮,可以更好地理解圖2的功能的操作:

接收以下輸入文本:

Physicalecudationcanassitsinstrenghingmuscles.Somestudentsshould
eksersivdailytoinprovetheirstrenthandhelthbecalsthayeasofate.

以下詞被識別為拼寫錯誤:

ecudation,assits;strenghing;eksersiv;inprove;strenth;helth;becals;thay,ea

應當注意,“fate”沒有被識別為拼寫錯誤,因為它出現在字典中。

如表1所示,選擇以下的簇:

表1

簇#

1
eksersiv
2
inprove their strenth
3
ecudation
4
assits in strenghing
5
helth becals thay ea

關于簇2,應當注意,“their”是正確拼寫,但是仍然包括在簇中,因
為它被誤拼寫詞包圍。

選擇簇1“eksersiv”來校正,因為它具有在其附近正確拼寫詞的最長
序列或多個序列。

為誤拼寫詞“eksersiv”生成以下備選校正:

excessive,expressive,obsessive,assertive,exercise,extensive,exclusive,
exertion,excised,exorcism.

基于對誤拼寫詞的發音和字符串的相似性,給出每個備選校正的不基
于上下文詞相似性得分,例如,如表2所示:

表2

備選詞
非上下文詞相似性得分
excessive
0.90
expressive
0.83
exercise
0.80
exorcism
0.56

可以用各種方法來得出不基于上下文得分。一個示例是通過使用
Levelnshtein距離算法,其可以在http://en.wikipedia.org/wiki/Levenshtein
distance上找到。該算法可以意指字符串、詞語音表達或其組合。

如表3所示,基于在輸入句子的上下文中其適合度,還給出每個備選
詞的上下文得分。在該示例中,其使用的上下文是“Somestudentsshould
<eksersiv>daily”。

表3


上下文得分是參照圖8按照下文描述來優選地得出的并且是基于互聯
網語料庫中的上下文特征序列(CFS)頻率。

參照圖8,按照下文描述的,基于上下文得分和不基于上下文相似性得
分的組合,選擇詞“exercise”作為最佳備選詞。

以相似的方式來校正所有簇。拼寫校正輸入文本,根據本發明的優選
實施例的以下的拼寫校正是:

Physicaleducationcanassistinstrengtheningmuscles.Somestudents
shouldexercisedailytoimprovetheirstrengthandhealthbecausetheyareso
fate.

應當注意,在拼寫校正輸入文本中仍然有誤用詞。詞“fate”需要通過
參照圖3下文描述的誤用和語法校正算法來校正。

現在參照圖3,其是說明了圖1的系統和功能中優選地使用的誤用詞和
語法校正功能的簡化的流程圖。誤用詞和語法校正功能提供了拼寫正確但
在輸入文本的上下文中是誤用的詞的校正,以及包括語法上不正確的詞代
替了語法上正確的詞的使用、冗余詞和丟詞和標點的使用的語法錯誤的校
正。

如圖3所示,誤用詞和語法校正功能優選地包括以下步驟:

通過優選地評價輸入句子的上下文內的詞的至少大部分的適合度,來
識別懷疑的誤用詞和具有從圖2的拼寫校正功能輸出的拼寫校正輸入文本
中的語法錯誤的詞;

將懷疑的誤用詞和具有語法錯誤的詞分成簇,所述簇優選地是不重疊
的;以及

選擇用于校正的簇。識別、分組和選擇步驟優選地基于參照圖6B下文
描述的算法。

優選地基于參照圖7A下文描述的備選校正生成算法,來為每個簇生成
一個或優選地生成多個備選校正;

基于參照圖10下文描述的丟失的冠詞、介詞和標點校正算法,來為每
個簇生成一個或優選地生成多個備選校正;

基于參照圖11下文描述的冗余的冠詞、介詞和標點校正算法,來為每
個簇生成一個或優選地生成多個備選校正;

優選地基于參照圖9下文描述的誤用詞和語法校正備選詞計分算法,
至少部分地基于上下文和詞的基于相似性來對各種備選校正計分;

對于每個簇,也參照圖9按照下文描述的上述計分,來選擇單個誤用
詞和語法校正并示出最優選的備選誤用詞和語法校正;以及

為每個簇提供包括單個誤用詞和語法校正的拼寫、誤用詞和語法校正
文本輸出,所述簇代替不正確的簇。

優選地,計分包括:為此應用與多個備選詞中的一個相比有利于懷疑
的詞的偏置,所述偏置是指示了提供輸入的人的不確定度的輸入不確定度
的度量的函數。

根據以下示例的考慮,可以更好地理解圖3的功能的操作:

接收以下輸入文本:

Ihavemoneybook

將以下詞識別為懷疑的誤用詞:

money,book

生成以下簇:

moneybook

以下是備選校正的示例,其為簇而生成(部分的列出):

moneybooks;moneyback;moneybox;moneybulk;moneyBuick;money
ebook;moneybank;minibook;mummybook;Monetbook;honeybook;mannerly
book;monobook;Mondaybook;manybooks;minibike;mummyback;monkey
bunk;Mondaybooked;Monarchyback;Mournedbrook

在表4中示出了使用互聯網語料庫基于上下文和不基于上下文詞的基
于相似性的得分的至少部分的上下文計分的結果:

表4



可以理解,存在得到總分的各種方法。優選的總分是基于參照圖9下
文描述的算法。

基于上述計分,選擇備選詞“manybook”。因此,校正文本是:

Ihavemanybook

現在參照圖4,其是說明了圖1的系統和功能中使用的詞匯增強功能的
簡化的流程圖。如圖4所示,詞匯增強功能優選地包括以下步驟:

識別詞匯挑戰,其中所述詞在從圖3的誤用詞和語法校正功能輸出的,
在拼寫、誤用詞和語法校正輸入文本中,具有懷疑的不是最理想的詞匯的
使用;

將詞匯挑戰分成簇,其優選的是不重疊的;

選擇用于校正的簇。識別、分組和選擇步驟是優選地基于參照圖6C下
文描述的算法。

優選地基于參照圖7B下文描述的詞匯增強生成算法,來為每個簇生成
一個或優選地生成多個備選詞匯增強;

不基于上下文詞的基于相似性的計分和上下文計分,優選地基于參照
圖9下文描述的詞匯增強備選詞計分算法,來優選地使用各種備選詞匯增
強的互聯網語料庫;

對于每個簇,基于參照圖9下文還描述的上述計分,來選擇單個詞匯
增強并示出最優選的備選詞匯增強;以及

為每個不是最理想的詞匯簇提供詞匯增強建議。

根據以下示例的考慮,可以更好地理解圖4的功能的操作:

提供以下的拼寫、誤用詞和語法校正輸入文本:

Wearingcolorfulclotheswillseparateusfromtherestofthechildreninthe
school.

使用參照圖6C下文描述的功能,為詞匯增強選擇以下簇:

separate

使用參照圖7B下文描述的功能,基于圖7B中描述的預處理詞匯數據
庫(部分的列表),來生成如表5所示的以下備選簇校正:

表5


至少部分地基于輸入文本的上下文內的詞的合適度并且還基于備選詞
的詞意與詞匯挑戰“separate”的相似度,使用互聯網語料庫來對各種備選
詞匯增強計分。

使用參照圖5下文描述的功能,生成以下的CFS(部分地列出):

'willseparate','separateus','clotheswillseparate','willseparateus',
'separateusfrom'

使用參照圖9的階段ⅡA下文描述的功能,為CFS的上述列表中的備
選簇校正的部分列表生成在表6所示的互聯網語料庫中的出現頻率的矩陣:

表6



消除所有備選校正的出現的頻率為零的所有CFS。在該示例中,消除
以下feature-gram:

'clotheswillseparate'

所以,消除全部包括在至少具有出現的最低閾值頻率的其它CFS中的
所有CFS。例如,消除以下feature-gram:

'willseparate','separateus'

在該示例中,剩余的CFS是feature-gram:

'willseparateus','separateusfrom'

使用參照圖9在階段ⅡD和ⅡE中下文描述的最終優先選擇得分,選擇
備選“differentiate”,增強的句子是:

Wearingcolorfulclotheswilldifferentiateusfromtherestofthechildrenin
theschool.

現在參照圖5,其是說明了在用于本發明的優選實施例的計算機輔助語
言校正的系統和功能中有用的上下文特征序列(CFS)功能118(圖1)的
簡化的框圖。

CFS功能118優選地包括特征提取功能,其包括N-gram提取功能以及
可選的至少一個skip-gram提取功能;switch-gram提取功能;共同出現提取
功能;之前由用戶使用的特征提取功能。

術語N-gram是技術的已知術語,指代輸入文本中的N個連續詞的序列。
N-gram提取功能可以使用傳統的詞性標注(part-of-speechtagging)和句子
分析功能以避免生成基于語法考慮不期望在語料庫(優選的是互聯網語料
庫)中高頻率出現的某種n-gram。

為了本描述的目的,術語“skip-gram提取功能”意味著功能上用于提
取“skip-gram”,所述“skip-gram”是修改的n-gram,所述n-gram省略了
一些不重要的詞或短語,例如形容詞、副詞、形容詞短語和副詞短語,或
者所述n-gram僅包含具有預定的語法關系的詞,例如主語-動詞、動詞-賓
語、副詞-動詞或動詞-時間短語。skip-gram提取功能可以使用傳統的詞性
標注和句子分析功能來幫助確定在給定的上下文中可以跳過哪些詞。

對于本描述的目的,術語“switch-gram提取功能”意味著識別“switch
gram”的功能,所述“switch-gram”是修改的n-gram,其中,轉換一些詞
的出現順序。switch-gram提取功能可以使用傳統的詞性標注和句子分析功
能來幫助確定在給定的上下文中可以轉換哪些詞的出現順序。

為了本描述的目的,術語“共同出現提取功能”意味著識別在輸入句
子或包含多個輸入句子的輸入文檔中的詞的組合,所述功能具有用于在輸
入文本而不是在N-gram、switch-gram或skip-gram中包括的那些的輸入文
本詞共同出現,以及指示到輸入詞和方向的距離,在此之后過濾除經常出
現的詞,例如介詞、冠詞、連詞和其功能主要是起語法作用的其它詞。

為了本描述的目的,術語“之前由用戶使用的特征提取功能”意味著
識別用戶在其它文檔中使用的詞,在此之后濾除經常出現的詞,例如介詞、
冠詞、連詞和其功能主要是起語法作用的其它詞。

為了本描述的目的,N-gram、skip-gram、switch-gram和其組合被稱為
feature-gram。

為了本描述的目的,N-gram、skip-gram、switch-gram、共同出現、“之
前由用戶使用的特征”和其組合被稱為上下文特征序列或CFS。

圖5的功能優選地對輸入文本中的單獨的詞或詞的簇進行操作。

根據以下示例的考慮,可以更好地理解圖5的功能的操作:

提供以下的輸入文本:

CherlockHomestheleadcharacterandchiefinspecterhasbeencoldinby
thefamilydoctorDrMortimer,toinvesigatethedeathofsirCharles

對于輸入文本中的簇“CherlockHomes”,生成以下的CFS:

N-gram:

2-gram:CherlockHomes;Homesthe

3-gram:CherlockHomesthe;Homesthelead

4-gram:CherlockHomesthelead;Homestheleadcharacter

5-gram:CherlockHomestheleadcharacter

Skip-gram:

CherlockHomesthecharacter;CherlockHomesthechief
inspecter;CherlockHomestheinspecter;CherlockHomeshasbeencold

Switchgram:

TheleadcharacterCherlockHomes

輸入文本中的共同出現:

Character;inspector;investigate;death

包含輸入文本的文檔中的共同出現:

ArthurConanDoyle;story

用戶的其它文檔中的共同出現:

mystery

對于輸入文本中的簇“cold”,生成以下的CFS:

N-gram:

2-gram:beencold;coldin

3-gram:hasbeencold;beencoldin;coldinby

4-gram:inspectorhasbeencold;hasbeencoldin;beencoldinby

5-gram:chiefinspectorhasbeencold;inspectorhasbeencoldin;hasbeen
coldinby;beencoldinbythe;coldinbythefamily

Skip-gram:

coldintoinvestigate;Cherlockhasbeencold;coldbythedoctor;coldbyDr
Mortimer;characterhasbeencold

基于以下中的至少一個,對每個CFS給出“重要性得分”,優選的是以
下中的多于一個,并且最優選的是以下中的所有:

a、傳統的詞性標注和句子分析功能的操作。給包括多個分析樹節點的
CFS相對低的得分。CFS中包括的分析樹節點的數量越多,該CFS的得分
越低。

b、CFS的長度。CFS越長,得分越高。

c、在CFS而不是輸入詞中每個字的出現頻率。這種詞的出現頻率越高,
得分越低。

d、CFS的類型。例如,N-gram比共同出現優選。輸入句子中的共同出
現比輸入文檔中的共同出現優選,并且輸入文檔中的共同出現比“之前用
戶使用的特征”優選。

參照上述示例,如表7所示為典型的得分;

表7


基于互聯網語料庫中的CFS出現頻率,為了各種備選簇校正的基于上
下文的得分,參照圖8和9下文描述的功能中使用這些CFS和它們的重要
性得分。

現在參照圖6A,其是說明了用于識別輸入文本中的誤拼寫詞的功能;
將誤拼寫詞分成簇,其優選的是非重疊的;選擇用于校正的簇。

如圖6A所示,通過使用擴充了通常在互聯網使用的專有名稱和專有詞
的傳統的字典,來優選地執行對誤拼寫詞的識別。

通過將連續的或幾乎連續的誤拼寫詞分到帶有具有語法關系的誤拼寫
詞的單個簇中,來優選地執行將誤拼寫詞分成簇。

通過嘗試找到包含大量不懷疑的基于上下文數據的簇,來優選地執行
選擇用于校正的簇。優選地,選擇具有在正確拼寫詞附近的最長序列或多
個序列的簇。

現在參照圖6B,其是說明了用于識別在拼寫校正輸入文本中的懷疑的
誤用詞和具有語法錯誤的詞;將懷疑的誤用詞和具有語法錯誤的詞分成簇,
其優選的是不重疊的;選擇用于校正的簇。

按照以下來優選地執行識別懷疑的誤用詞:

在拼寫校正輸入文本中為每個詞生成feature-gram;

注意在語料庫(優選的是互聯網語料庫)中的每個feature-gram的出現
的頻率;

注意用于每個詞的懷疑的feature-gram的數量。懷疑的feature-gram具
有比它們的期望的頻率顯著地低的頻率或者在最低頻率閾值以下的頻率。
基于feature-gram的組成元素和其組合來估計feature-gram的期望頻率。

如果包含詞的懷疑的feature-gram的數量超過預定的閾值,那么詞受到
懷疑。

根據本發明的優選實施例,確定語料庫(優選的是互聯網語料庫)中
的拼寫校正輸入文本中的每個feature-gram的出現頻率(FREQF-G)。還確
定在該語料庫中拼寫校正輸入文本中的每個詞的出現的頻率(FREQW),
并且還確定沒有該詞的每個feature-gram的出現的頻率(FREQFG-W)。

按照以下來計算每個feature-gram的出現的期望頻率(EFREQF-G):

EFREQF-G=FREQF-G-W*FREQW/(在
互聯網語料庫中的所有詞的總頻率)

如果語料庫(優選的是互聯網語料庫)中拼寫校正輸入文本中的每個
feature-gram的出現的頻率與每個feature-gram的期望的出現頻率之比,即
FREQF-G/EFREQF-G比預定的閾值小,或者如果FREQF-G比另一個預定
的閾值低,那么feature-gram將被認為是懷疑的feature-gram。包括在懷疑
的feature-gram的每個詞將被認為是懷疑的誤用詞或者具有懷疑的語法錯
誤的詞。

根據以下示例的考慮,可以更好地理解:用于識別拼寫校正輸入文本
中的懷疑的誤用詞和具有語法錯誤的詞的圖6B的功能的操作:

提供以下拼寫校正輸入文本:

Ihavemoneybook

feature-gram包括以下:

I;Ihave;Ihavemoney;Ihavemoneybook

表8指示了上述feature-gram的互聯網語料庫中的出現的頻率:

表8


按照如下為每個2-gram計算期望的出現頻率:

EFREQF-G=(FREQF-G-W*FREQW)/(在
互聯網語料庫中的所有詞的總頻率)

例如,對于2-gram,

2-gram(x,y)的期望的2-gram頻率=(x的1-gram頻率*y的1-gram頻
率)/在互聯網語料庫中詞的數量。例如,一萬億(1,000,000,000,000)個詞。

按照如下來計算在語料庫(優選的是互聯網語料庫)中拼寫校正輸入
文本中的每個feature-gram的出現頻率與每個feature-gram的期望的出現頻
率之比:

FREQF-G/EFREQF-G

表9中示出了在語料庫(優選的是互聯網語料庫)中拼寫校正輸入文
本中的每個上述2-gram的出現頻率與每個上述2-gram的期望的出現頻率之
比:

表9

2-GRAMS
FREQ F-G
EFREQ F-G
FREQ F-G/EFREQ F-G
I have
154980000
4118625.7
37.60
have money
390300
187390.8
2.08
money book
3100
20487.9
0.15

可以看出,“moneybook”的FREQF-G比其期望的頻率顯著地低,因
此FREQF-G/EFREQF-G可以被認為比預定閾值(例如,1)低,所以簇
“moneybook”受到懷疑。

可以看出,包括詞“moneybook”的3-gram和4-gram都在互聯網語料
庫中具有零頻率。這也可以是認為“moneybook”受到懷疑的根據。

按照如下優選地執行將懷疑的誤用詞和具有語法錯誤的詞分到簇中:
將連續或幾乎連續的懷疑的誤用詞分到單個簇中;在它們自身之間具有語
法關系的懷疑的誤用詞被分到相同的簇。

通過嘗試找到包含最大數量的不懷疑的上下文數據的簇,來優選地執
行選擇用于校正的簇。優選地,選擇具有在其附近的不懷疑的詞的最長序
列或多個序列的簇。

現在參照圖6C,其是說明了用于識別在拼寫、誤用詞和語法校正輸入
文本中具有懷疑的不是最理想的詞匯的使用的詞匯挑戰;將詞匯挑戰分成
簇,其優選的是不重疊的;選擇用于校正的簇。

按照如下優選地執行識別詞匯挑戰:

對詞典進行預處理以便為每個詞分配語言豐富性得分,所述每個詞指
示了在等級中詞的級別,其中,書面語言比口語更優選;其中,在互聯網
資源中,例如,文章和圖書比聊天和論壇優選,并且其中,較少使用的詞
比更常使用的詞更優選;

還對詞典進行預處理以基于之前預處理步驟和語法規則的結果來消除
不太可能用于詞匯增強的候選者;

額外的預處理,其用于指示每個剩余的詞、具有比輸入詞的語言豐富
性得分高的詞匯增強的候選者;以及

檢查拼寫、誤用詞和語法校正輸入文本中的每個詞是否作為多個預處
理詞典中的剩余詞出現,并且識別每個這種詞,哪個作為剩余的詞出現,
哪個作為用于詞匯增強的候選者出現。

將詞匯挑戰分成簇(所述簇優選的是不重疊的)是可選的并且按照如
下優選地執行:

將連續的詞匯挑戰分到單個簇中;以及

將具有語法關系的挑戰的詞分到相同的簇中。

通過嘗試找到包含最大數量的非詞匯挑戰的詞的簇來優選地執行選擇
用于校正的簇。優選地,選擇在其附近的非詞匯挑戰的詞的最長序列或多
個序列。

現在參照圖7A,其是說明了用于生成在圖2和圖3的功能中有用的簇
的備選校正的功能。

如果原始輸入詞是正確拼寫的,那么它被認為是備選詞。

如圖7A所示,對于簇中的每個詞,以如下方式來初始地生成多個備選
校正:

來自字典的多個詞,類似于簇中的每個詞,都基于以字符串相似度來
表示的、詞的書寫外觀并基于發音或語音相似度來檢索。該功能是已知的
并且作為免費軟件在互聯網上是可用的,例如GNUAspell和
檢索和優先詞提供了第一多個備選校正。例如,給出的輸
入詞feezix,基于相似的發音,將從字典檢索到詞“physics”,盡管它僅具
有一個共同字符,即“i”。基于其字符串的相似度來檢索詞“felix”,盡管
它并不具有相似的發音。

可以通過使用基于已知的備選使用以及積累的用戶輸入的規則來生成
額外的備選詞。例如,u→you,r→are,Im→Iam。

可以基于語法規則(優選地使用預定義列表)來生成其它備選詞。以
下是幾個示例:

單數/復數規則:如果輸入句子是“leaffallofftreesintheautumn”,那
么生成復數備選詞“leaves”。

冠詞規則:如果輸入文本是“aoldlady”,那么生成備選冠詞“an”和
“the”。

介詞規則:如果輸入文本是“Iaminterestedoffootball”,那么生成備選
介詞“in”、“at”、“to”、“on”、“through”等。

動詞變形規則:如果輸入文本是“Heleavetheroom”,那么生成備選動
詞變形“left”、“leaves”、“hadleft”等。

合并詞和拆分詞規則:如果輸入文本是“getalotfitter”,那么生成備選
詞“alot”。

如果輸入文本是“wehavetowatchout”,那么生成備選詞“watch”。

如果輸入文本是“domanysittups”,那么生成備選詞“situps”。

本發明的優選實施例的特定特征是:使用上下文信息(例如,CFS以
及更具體地說是feature-gram)來生成備選校正,并且不僅用于存儲這種“上
下文的檢索”的備選校正。可以從現有的語料庫(例如,互聯網語料庫)
檢索經常出現詞的組合(例如,CFS以及更具體地說是feature-gram)。

以下示例說明了本發明的該方面:

如果輸入句子是:“Thecathaskts”,詞“kts”可能與詞“kittens”在發
音或書寫上不十分相似,由于缺少本發明的該方面,“kittens”可能不是備
選詞中的一個。

根據本發明的該方面,通過在通常出現在n-gram“cathas”之后(即,
在查詢“cathas*”中發現作為*的所有詞)的詞的互聯網語料庫中查找,
來檢索以下的備選詞:

ninelives;left;fleas;dandruff;kittens;tapeworms;adopted;retractile-claws;
been;urinated;diarrhea;eaten;swallowed;hairballs;gone;alwaysbeen

根據本發明的優選實施例,然后過濾“基于上下文檢索的”備選詞,
以使得具有與原始詞有某種發音或書寫相似的基于上下文檢索的備選詞,
在本發明的示例為“kts”,僅該詞保留。在該示例中,檢索到具有最相似的
發音和書寫的備選詞“kittens”。

其中通過外部系統(例如,光學字符識別、語音到文本或機器翻譯系
統)自動地生成輸入文本,可以直接地從這種系統直接地接收額外的備選
詞。通常,在這種系統的操作的過程中生成這種額外備選詞。例如,在機
器翻譯系統中,可以將外語詞匯的備選翻譯提供給本系統以作為備選詞來
使用。

一旦生成了在簇中的每個詞的所有備選詞,通過確定各種備選詞的所
有可能組合并且隨后基于在語料庫(優選的是互聯網語料庫)中的備選詞
的出現頻率來過濾組合,生成用于整個簇的簇備選詞。

以下示例是說明性的:

如果輸入簇是“moneybook”,并且用于詞“money”的備選詞是:

Monday;many;monkey

并且用于詞“book”的備選詞是:

books;box;back

生成以下的簇備選詞:

moneybooks;moneybox;moneyback;Mondaybooks;Mondaybox;
Mondayback;manybooks;manybox;manyback;monkeybooks;
monkeybox;monkeyback;manybook;monkeybook;Mondaybook

現在參照圖7B,其是說明了用于生成簇的備選詞增強的功能的簡化的
流程圖,所述功能在圖4的功能中有用。

如在圖7B中所示,以如下方式來初始地生成多個備選詞增強:

如果原始輸入詞拼寫正確,它被認為是備選詞。

檢索來自詞典或其它詞匯數據庫(例如,在互聯網上免費可用的
PrincetonWordNet,其與在簇中的每個詞在語言上有關,作為同義詞、超集
或子集)的多個詞。檢索和優先詞提供了第一多個備選詞增強。

通過使用基于已知的備選詞使用以及積累的用戶輸入的規則來生成額
外的備選詞。

本發明的優選實施例的特定特征是:使用上下文信息(例如,CFS以
及更具體地說是feature-gram)來生成備選詞增強,并且不僅用于存儲這種
“基于上下文的檢索”的備選詞增強。可以從現有的語料庫(例如,互聯
網語料庫)檢索經常出現詞的組合(例如,CFS以及更具體地說是
feature-gram)。

一旦生成了簇中的每個詞的所有備選詞,通過確定各種詞的備選詞的
所有可能組合并且基于現有語料庫(例如,互聯網)中的得到的多個詞的
組合的出現頻率來過濾組合,生成用于整個簇的備選詞。

以下示例是圖7B的說明性的功能:

提供了以下輸入文本:

itwasnicetomeetyou

由語言數據庫(例如,PrincetonWordNet)來生成用于詞“nice”的以
下備選詞(部分地列出):

pleasant,good,kind,polite,fine,decent,gracious,courteous,
considerate,enjoyable,agreeable,satisfying,delightful,entertaining,amiable,
friendly,elegant,precise,careful,meticulous

通過應用預定的規則來生成用于詞“nice”的以下備選詞:

cool

例如響應于查詢(例如,“itwas*tomeet”),生成用于詞“nice”的以
下基于上下文檢索的備選詞:

great;apleasure;wonderful;lovely;good;impossible;fun;awesome;refreshing;
exciting;agreed;fantastic;decided;inspiring

現在參照圖8,其是說明了用于在圖2的拼寫校正功能中有用的各種備
選詞增強的基于上下文和基于詞相似性計分的功能的簡化的流程圖。

如在圖8中所示,各種備選詞校正的基于上下文和基于詞相似性的計
分按照以下大體的階段進行:

Ⅰ、不基于上下文計分–按照詞的書寫外觀和發音相似性,基于與輸
入文本中的簇的相似性來對各種簇備選詞計分。

Ⅱ、使用互聯網語料庫的基于上下文計分–基于提取的上下文特征序
列(CFS)(所述CFS是按照參照圖5上文描述來提供的),還對每個各種
簇備選詞計分。該計分包括以下子階段:

ⅡA、在參照圖5按照上文描述提取的CFS的情況下,在由圖7A的功
能產生的各種備選詞簇校正上,優選地使用互聯網語料庫,來執行出現頻
率的分析。

ⅡB、具體地說是基于子階段ⅡA的出現頻率的分析結果來執行各種
CFS選擇并且權衡各種CFS。權衡還基于各種CFS的相對固有的重要性。
可以理解,可以對一些CFS給出零權重,因此不選擇它們。優選地,對選
擇的CFS給出相對的權重。

ⅡC、將出現頻率的度量分配到用于在子階段ⅡB中的每個選擇的CFS
的每個備選校正。

ⅡD、具體地說基于子階段ⅡA的出現頻率的分析結果、子階段ⅡC的
出現頻率的度量、子階段ⅡB的CFS選擇和權重來生成備選簇校正的減少
的組。

ⅡE、為了用作參考簇校正,從子階段ⅡD中的減少的組中選擇在階段
Ⅰ中具有最相似的不基于上下文的相似性得分的簇。

ⅡF、將出現頻率的度量分配到用于在階段ⅡB中的每個選擇的CFS的
子階段ⅡE的參考簇校正。

ⅡG、將比率度量分配到在子階段ⅡB中的每個選擇的CFS,所述比率
度量代表:對于該特征,每個備選校正的出現頻率的度量與分配給子階段
ⅡE的參考簇的出現頻率的度量之比。

Ⅲ、基于階段Ⅰ的結果和階段Ⅱ的結果來選擇最優選的備選簇校正。

Ⅳ、將可信度等級得分分配到最優選的備選簇校正。

下文示出了在階段Ⅱ-Ⅳ中上文描述的功能的更為詳細的描述:

參照子階段ⅡA,按照圖5中上文描述來生成包括要被校正的簇的所有
CFS。消除包含懷疑的錯誤而不是在輸入簇中的錯誤的CFS。

生成矩陣,其指示了在語料庫(優選的是互聯網語料庫)中,用于每
個CFS的簇的每個備選詞校正的出現頻率。消除用于出現頻率為零的所有
備選校正的所有CFS。消除全部包括在至少具有出現的最低閾值頻率的其
它CFS的所有CFS。

以下示例說明了出現頻率矩陣的產生:

提供以下輸入文本:

Iliktwplayoutsidealot

使用參照圖6A上文描述的功能,為了校正選擇以下簇:

liktw

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

liketo;liketwo;licktwo;lacktwo;lacktrue;liketrue

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'liktw';'Iliktw';'liktwplay';'Iliktwplay';'liktwplayoutside';'Iliktw
playoutside';'liktwplayoutsidea'

使用參照階段ⅡA上文描述的功能,為了在CFS的上述列表中的備選
詞簇校正的上述列表,生成在表10中所示的互聯網語料庫中的出現頻率矩
陣:

表10


消除用于出現頻率為0的所有備選校正的所有CFS。在該示例中,消
除以下feature-gram:

'liktwplayoutsidea'

所以,消除全部包括在至少具有出現的最低閾值頻率的其它CFS的所
有CFS:

'liktw';'Iliktw';'liktwplay';'Iliktwplay';'liktwplayoutside'

在該示例中,僅剩余的CFS是feature-gram:

'Iliktwplayoutside'

得到的矩陣按照表11所示出現:

表11


上述示例說明了根據本發明的優選實施例的矩陣的生成。在該示例中,
很明顯,“liketo”是優選的備選校正。可以理解,在現實中,選擇通常不
是如此簡單。因此,在下文示出的其它示例中,提供了用于在備選校正中
做更為困難的選擇的功能。

返回考慮子階段ⅡB,可選地,參照圖5按照上文描述的,為每個剩余
的CFS計分。此外,包含在多個詞輸入的較早的校正迭代中引入的詞并且
具有在預定的可信度閾值以下的可信度的CFS是消極有偏置的。

在通常的情況下,類似于在子階段ⅡC中上文描述的那樣,生成標準
化頻率矩陣,其指示在互聯網語料庫中的每個CFS的標準化出現頻率。通
過將每個CFS頻率除以有關簇備選詞的出現頻率的函數,通常根據頻率矩
陣生成標準化頻率矩陣。

標準化用于抵消在各種備選校正的總體普及度中的實質差別的影響。
適合的標準化因子是在不考慮特定CFS的情況下,基于在作為整體的語料
庫中各種備選校正的總體出現頻率。

以下示例說明了標準化出現頻率矩陣的生成:

提供以下輸入文本:

footprintsofamysterioushaundsaidtobesixfeettall

使用參照圖6A上文描述的功能,為了校正選擇以下簇:

haund

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

hound;hand;sound

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'amysterioushaund';'haundsaid'

使用參照本文的階段ⅡC上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成在表12所示的互聯網語料庫中的出現頻率
和標準化出現頻率的矩陣:

表12



可以從上述示例中理解,由于在各種備選校正的總體普及度中的實質
差異,具有最高出現頻率的詞并非必然具有最高的標準化出現頻率。在上
述示例中,“hound”具有最高的標準化出現頻率,并且從輸入文本的上下
文顯然可以看出,“hound”是正確詞,而不是在互聯網語料庫中具有較高
出現頻率的“hand”。

本發明的特定特征是,標準化出現頻率(其抵消在各種備選校正的總
體普及度中的實質差異)優選地用于在備選校正中的選擇。可以理解,出
現頻率的其它度量而不是標準化出現頻率可以可選地或額外地用作度量。
在出現頻率相對低或特別地高的情況下,額外的或可選的度量是有益的。

根據以下的討論將可以理解,額外的功能通常在各種備選詞校正中選
擇是有用的。下文描述了這些功能。

在子階段ⅡD,消除根據以下兩種度量的、不優選于另一個備選簇校正
的每個備選簇校正:

ⅰ、具有比其它備選簇校正低的詞相似性得分;以及

ⅱ、對于所有CFS,比其它備選簇校正具有較低的出現頻率并且還優
選地具有較低的標準化的出現頻率。

以下示例說明了按照上文描述的備選校正的消除:

提供了以下輸入文本;

Ileavunabighouse

使用參照圖6A上文描述的功能,為校正選擇以下簇:

leavun

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

leavein;livein;lovein

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'Ileavuna';'leavunabig'

使用參照本文的階段ⅡC上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成表13所示的互聯網語料庫中的出現頻率和
標準化的出現頻率的矩陣:

表13


在該示例中,如在表14中指示了備選簇校正的不基于上下文相似性得
分:

表14


因為“lovein”比“livein”具有較低的相似性得分以及較低的出現頻
率和較低的標準化出現頻率,所以消除備選簇校正“lovein”。因為“leavein”
的相似性得分比“livein”的得分高,因此在該階段不消除備選簇校正“leave
in”。

從上述可以理解,階段ⅡD的功能的操作的結果是減少的頻率矩陣并
且優選地也是減少的標準化頻率矩陣,所述矩陣指示了出現頻率并且優選
地還指示了減少的多個備選校正中的每個的標準化出現頻率,每個矩陣具
有用于減少的多個CFS的每個的相似性得分。從以下示例可以看出,對于
所有其它備選簇選擇功能,優選地使用備選簇校正的減少的組。

對于在減少的頻率矩陣和優選的在減少的標準化頻率矩陣中的每個備
選校正,生成最終優先選擇度量。可以使用以下備選度量中的一個或多個
來生成用于每個備選校正的最終優先選擇得分:

下文使用的術語“頻率函數”指代:頻率、標準化頻率或頻率和標準
化頻率兩者的函數。

A、一種可能的優先選擇度量是在減少的矩陣或多個矩陣中的任何CFS
的減少的矩陣或多個矩陣中的每個備選簇校正的最高的出現頻率函數。例
如,將按照如下來對各種備選簇校正計分:

提供以下輸入文本:

Abigagleinthesky

使用參照圖6A上文描述的功能,為了校正選擇以下簇:

agle

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

ogle;eagle;angel

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'bigagle';'agleinthesky'

使用參照本文的階段ⅡC上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成表15所示的互聯網語料庫中的出現頻率和
標準化的出現頻率的矩陣:

表15


在該示例中,如在表16中指示了備選簇校正的不基于上下文相似性得
分:

表16



因為'eagle'具有最大出現頻率的CFS,所以選擇備選詞'eagle'。

B、另一個可能的優先選擇度量是用于每個備選校正的所有CFS的平
均出現頻率函數。例如,將按照如下對各種備選校正計分:

提供以下輸入文本:

Awhileagosthelived3dwarfs

使用參照圖6A上文描述的功能,為了校正選擇以下簇:

sthe

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

the;they;she;there

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'agosthelived';'sthelived3'

使用參照本文的階段ⅡC上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成表17和18所示的互聯網語料庫中的出現
頻率、標準化出現頻率和平均出現頻率的矩陣:

表17


表18



應當注意,基于平均出現頻率來選擇“there”。

在該示例中,如在表19中指示了備選簇校正的不基于上下文相似性得
分:

表19


應當注意,不選擇具有最高相似性得分的備選簇校正。

C、其它可能優先選擇度量是對于每個CFS的出現頻率函數的每個備
選校正的所有CFS的加權和,其中所述每個CFS的出現頻率函數是在參照
圖5上文描述的功能來計算時,通過乘以該CFS的得分得到的。

D、參照子階段ⅱE-ⅱG按照上文描述的,通過任意一個或多個,并且
更優選的以及最優選的是,關于在減少的矩陣或多個矩陣中的備選校正的
所有以下操作,生成特定備選校正/CFS優先選擇度量:

ⅰ、選擇具有不基于上下文相似性最高的得分的備選簇校正作為參考
簇。

ⅱ、產生修改的矩陣,其中,在每個優先選擇矩陣中,在每個feature-gram
中的每個備選校正的出現頻率函數由每個備選校正的出現頻率函數與參考
簇的出現頻率函數之比來代替。

ⅲ、進一步修改在ⅱ中上文描述的類型的修改的矩陣,從而通過用于
減少在比率中的很大差異的計算重要性的比率的函數來代替每個優先選擇
度量中的比率。合適的這種函數是對數函數。該操作的目的是不強調在最
優選的備選校正的最終優先選擇得分中的出現頻率中的很大差異的重要
性,而是維持在最終優先選擇計分中的出現頻率中的很大差異,因此消除
最不優選的備選校正。

ⅳ、通過將合適的比率或在每個優先選擇度量中的比率的函數乘以合
適的CFS得分,來額外地修改在ⅱ或ⅲ中上文描述的類型的修改的矩陣。
這提供了基于正確語法使用和在CFS得分中反映的其它因素的強調。

ⅴ、通過生成合適的比率的函數、比率的函數、出現頻率和標準化的
出現頻率,來額外地修改在ⅱ、ⅲ或ⅳ中上文描述的類型的修改的矩陣。
通過將合適的比率或在每個優先選擇度量中的比率的函數乘以該CFS的出
現頻率,來生成優選的函數。

E、通過將備選校正的相似性得分乘以用于該備選校正的所有CFS的特
定備選校正/CFS優先選擇度量的和,基于在D中上文描述的特定備選校正
/CFS優先選擇度量,計算用于每個備選校正的最終優先選擇度量。

說明了這種修改的矩陣的使用的示例如下:

提供以下輸入文本:

Iwillbeabletotachbasewithyounextweek

使用參照圖6A上文描述的功能,為了校正選擇以下簇:

tach

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

teach;touch

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'agototach';'totachbase'

使用參照上述子階段ⅡA和ⅡC上文描述的功能,為了在CFS的上述
列表中的備選簇校正的上述列表,生成表20所示的互聯網語料庫中的出現
頻率和標準化的出現頻率的矩陣:

表20



應當注意,對于一個特征,“teach”的出現頻率和標準化出現頻率兩者
都比“touch”的出現頻率和標準化出現頻率高,但是對于另一個特征,
“touch”的出現頻率和標準化出現頻率兩者都比“teach”的出現頻率和標
準化出現頻率高。為了做出備選校正的正確選擇,按照下文描述,優選地
使用參照子階段ⅡG上文描述的比率度量。

在該示例中,如在表21中指示了備選簇校正的不基于上下文相似性得
分:

表21


可以看出,因為“teach”具有最高相似性得分,所以參考簇是“teach”。
盡管如此,基于上文描述的最終優先選擇得分,還是選擇“touch”。這不是
直覺,因為可以根據上述矩陣的考慮來理解,其中,所述矩陣指示了“teach”
具有最高的出現頻率和最高的標準化出現頻率。在該示例中,因為用于其
中有利于“touch”的特征的出現頻率的比率遠高于用于其中有利于“teach”
的特征的出現頻率的比率。

F、可選地,使用以下決定規則中的一個或多個,基于用于該備選校正
和用于參考簇的頻率函數值和優先選擇度量的比較,可以濾除備選校正:

1、濾除具有低于預定閾值的相似性得分并且具有CFS頻率函數(所述
CFS頻率函數比用于指示一個特征的參考簇的CFS頻率函數低,其中,所
述至少一個特征具有比預定閾值高的CFS得分)的備選校正。

2、濾除具有低于預定閾值的相似性得分并且具有優先選擇度量(所述
優先選擇度量比用于至少一個特征的預定閾值低,其中,所述特征具有比
另一個預定閾值高的CFS得分)的備選校正。

3、a、確定每個CFS的CFS得分;

b、對于每個CFS,確定用于參考簇和用于備選校正的CFS頻率函
數,由此確定參考簇或備選校正是否具有用于該CFS的較高頻率函數;

c、對備選校正具有比參考簇較高的頻率的CFS的CFS得分進行求
和;

d、對參考簇具有比備選校正較高的頻率的CFS的CFS得分進行求
和;以及

e、如果c中的和比d中的和低,那么濾除備選校正。

以下示例說明了過濾上面描述的過濾功能。

提供了以下輸入文本:

Iamfaellingenlove

使用參照圖6A上文描述的功能,為了校正選擇以下簇:

faellingen

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

fallingon;fallingin;feelingon;feelingin

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'amfaellingen';'faellingenlove';'amfaellingenlove';'Iamfaellingen'

使用參照本文子階段ⅡA上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成表22所示的互聯網語料庫中的出現頻率的
矩陣:

表22


消除全部包括在至少具有出現的最低閾值頻率的其它CFS的所有
CFS。例如,消除以下feature-gram:

'amfaellingen';'faellingenlove'

在該示例中,剩余的CFS是feature-gram:

'amfaellingenlove';'Iamfaellingen'

在該示例中,如在表23中指示了備選簇校正的不基于上下文相似性得
分:

表23


濾除備選校正“fallingon”、“feelingon”和“feelingin”,因為對于CFS
中的一個,它們的出現頻率為0。

G、參照階段Ⅲ按照上文所討論的,基于在A-E上文描述開發的最終優
先選擇度量,對在F中過濾后留下的備選校正建立排序。

H、如參照階段Ⅳ上文討論的,將可信度分配給選擇的備選校正。基于
以下參數中的一個或多個來計算該可信度:

a、按照在上述子階段ⅡB中提供的選擇的CFS的數量、類型和得分;

b、在CFS的情況下,各種備選簇連接的出現頻率的統計顯著性;

c、基于每個CFS的優先選擇度量和各種備選校正的詞相似性得分,同
意備選校正的選擇的程度;

d、在預定最低閾值以上的選擇的備選簇連接的不基于上下文的相似性
得分(階段Ⅰ)。

e、上下文數據可用的程度,由在減少的矩陣中的CFS的數量來指示,
其中,所述矩陣具有在預定最小閾值以上的CFS得分并且比另一個預定閾
值具有優先選擇的得分。

如果可信度在預定的閾值以上,那么在沒有用戶交互的情況下實現選
擇的備選校正。如果可信度在預定的閾值以下但是在較低預定的閾值以上,
那么實現選擇的備選校正,但是引發了用戶交互。如果可信度在較低的預
定閾值以下,那么引發基于備選校正的優選的列表的用戶選擇。

以下示例是可信度得分的說明性使用:

提供以下輸入文本:

Hewasnotfeelingwehlwhenhereturned

使用參照圖6A上文描述的功能,為了校正選擇以下簇:

wehl

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

wale;well

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'wasnotfeelingwehl';'notfeelingwehlwhen';'feelingwehlwhenhe';
'wehlwhenhereturned'

使用參照本文子階段ⅡA上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成表24所示的互聯網語料庫中的出現頻率的
矩陣:

表24


上述示例說明:根據在上述H中闡述的所有標準,選擇'well'而不是
'wale',因為'well'具有高的可信度。

在以下示例中,可信度有些低,這是由于以下事實:備選校正'back'具
有比在CFS'bechinthesummer'中的'beach'較高的出現頻率,但是'beach'具有
比在CFS'onthebeechin'和'thebechinthe'較高的出現頻率。基于標準H(c),
選擇帶有中間可信度的備選校正'beach'。

提供以下輸入文本:

Iliketoworkonthebechinthesummer

使用參照圖6A上文描述的功能,為了校正選擇以下簇:

bech

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

beach;beech;back

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'onthebechin';'thebechinthe';'bechinthesummer'

使用參照子階段ⅡA上文描述的功能,為了在CFS的上述列表中的備
選簇校正的上述列表,生成表25所示的互聯網語料庫中的出現頻率的矩陣:

表25


基于標準H(c),選擇帶有中間可信度的備選校正'beach'。

在以下示例中,基于標準H(a),可信度更低:

接收以下輸入文本:

ExartsarerestoringtheBritishMuseum'sroundreadingroom

使用參照圖6A上文描述的功能,為了校正選擇以下簇:

Exarts

使用參照圖7A上文描述的功能,生成以下備選詞簇校正(部分地列
出):

Experts;Exerts;Exits

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'Exartsare';'Exartsarerestoring';'Exartsarerestoringthe;'Exartsare
restoringtheBritish'

使用參照子階段ⅡA上文描述的功能,為了在CFS的上述列表中的備
選簇校正的上述列表,生成表26所示的互聯網語料庫中的出現頻率的矩陣:

表26



消除出現頻率為零的所有備選校正的所有CFS。在該示例中,消除以
下feature-gram:

'Exartsarerestoring';'Exartsarerestoringthe';'Exartsarerestoringthe
British'

在該示例中,僅剩余的CFS是feature-gram:

'Exartsare'

從上述示例看出,在過濾過程中存留的CFS是“exartare”。因此,可
信度相當低,因為選擇僅基于單個CFS,其相對地短并且除了懷疑的詞之
外僅包括一個詞,所述詞是經常出現的詞。

現在參照圖9,其是說明了在圖3、10和11的誤用詞和預防校正功能
中有用的并且也在圖4的詞匯增強功能中有用的各種備選詞校正的基于上
下文和詞的基于相似性得分的功能的簡化的流程圖。

如圖9所示,各種備選詞校正的基于上下文和詞的基于相似性得分在
以下大體的階段中進行:

Ⅰ、不基于上下文計分–按照詞的書寫外觀和發音相似性,基于與輸
入文本中的簇的相似性來對各種簇備選詞計分。

Ⅱ、使用互聯網語料庫的基于上下文計分–基于提取的上下文特征序
列(CFS)(所述CFS是按照參照圖5上文描述來提供的),還對每個各種
簇備選詞計分。該計分包括以下子階段:

ⅡA、在參照圖5按照上文描述提取的CFS的情況下,在由圖7A或
7B的功能產生的各種備選詞簇校正上,優選地使用互聯網語料庫,來執行
出現頻率的分析。

ⅡB、具體地說是基于子階段ⅡA的出現頻率的分析結果來執行各種
CFS選擇并且權衡各種CFS。權衡還基于各種CFS的相對固有的重要性。
可以理解,可以對一些CFS給出零權重,因此不選擇它們。優選地,對選
擇的CFS給出相對的權重。

ⅡC、將出現頻率的度量分配到用于在子階段ⅡB中的每個選擇的CFS
的每個備選校正。

ⅡD、具體地說基于子階段ⅡA的出現頻率的分析結果、子階段ⅡC的
出現頻率的度量、子階段ⅡB的CFS選擇和權重來生成備選簇校正的減少
的組。

ⅡE、選擇輸入簇作為參考簇校正來使用。

ⅡF、將出現頻率的度量分配到用于在階段ⅡB中的每個選擇的CFS的
子階段ⅡE的參考簇校正。

ⅡG、將比率度量分配到在子階段ⅡB中的每個選擇的CFS,所述比率
度量代表:對于該特征,每個備選校正的出現頻率的度量與分配給子階段
ⅡB的參考簇的出現頻率的度量之比。

Ⅲ、基于階段Ⅰ的結果和階段Ⅱ的結果來選擇最優選的備選簇校正。
Ⅳ、將可信度等級得分分配到最優選的備選簇校正。

Ⅳ、將可信度等級得分分配到最優選的備選簇校正。

下文示出了在階段Ⅱ-Ⅳ中上文描述的功能的更為詳細的描述:

參照子階段ⅡA,按照圖5中上文描述來生成包括要被校正的簇的所有
CFS。消除包含懷疑的錯誤而不是在輸入簇中的錯誤的CFS。

生成矩陣,其指示了在語料庫(優選的是互聯網語料庫)中,用于每
個CFS的簇的每個備選詞校正的出現頻率。消除用于出現頻率為零的所有
備選校正的所有CFS。消除全部包括在至少具有出現的最低閾值頻率的其
它CFS的所有CFS。

以下示例說明了出現頻率矩陣的產生:

提供以下輸入文本:

Ilicktwoplayoutsidealot

使用參照圖6B上文描述的功能,為了校正選擇以下簇:

licktwo

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

liketo;liketwo;licktwo;lacktwo;lacktrue;liketrue

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

‘licktwo’;‘Ilicktwo’;‘licktwoplay’;‘Ilicktwoplay’;‘licktwoplay
outside’;‘Ilicktwoplayoutside’;‘licktwoplayoutsidea’

使用參照階段ⅡA上文描述的功能,為了在CFS的上述列表中的備選
詞簇校正的上述列表,生成在表27中所示的互聯網語料庫中的出現頻率矩
陣:

表27


消除用于出現頻率為0的所有備選校正的所有CFS。在該示例中,消
除以下feature-gram:

‘licktwoplayoutsidea'

所以,消除全部包括在至少具有出現的最低閾值頻率的其它CFS的所
有CFS:

‘licktwo';‘Ilicktwo';‘licktwoplay';‘Ilicktwoplay';‘licktwoplayoutside'

在該示例中,僅剩余的CFS是feature-gram:

‘Ilicktwoplayoutside'

得到的矩陣按照表28所示出現:

表28



上述示例說明了根據本發明的優選實施例的矩陣的生成。在該示例中,
很明顯,“liketo”是優選的備選校正。可以理解,在現實中,選擇通常不
是如此簡單。因此,在下文示出的其它示例中,提供了用于在備選校正中
做更為困難的選擇的功能。

返回考慮子階段ⅡB,可選地,參照圖5按照上文描述的,為每個剩余
的CFS計分。此外,包含在多個詞輸入的較早的校正迭代中引入的詞并且
具有在預定的可信度閾值以下的可信度的CFS是消極有偏置的。

在通常的情況下,類似于在子階段ⅡC中上文描述的那樣,生成標準
化頻率矩陣,其指示在互聯網語料庫中的每個CFS的標準化出現頻率。通
過將每個CFS頻率除以有關簇備選詞的出現頻率的函數,通常根據頻率矩
陣生成標準化頻率矩陣。

標準化用于抵消在各種備選校正的總體普及度中的實質差別的影響。
適合的標準化因子是在不考慮特定CFS的情況下,基于在作為整體的語料
庫中各種備選校正的總體出現頻率。

以下示例說明了標準化出現頻率矩陣的生成:

提供以下輸入文本:

footprintsofamysterious[hound/hand]saidtobesixfeettall

使用參照圖6B上文描述的功能,為了校正選擇以下簇:

hound

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

hound;hand;sound

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'amysterioushound';'houndsaid'

使用參照本文的階段ⅡC上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成在表29所示的互聯網語料庫中的出現頻率
和標準化出現頻率的矩陣:

表29



可以從上述示例中理解,由于在各種備選校正的總體普及度中的實質
差異,具有最高出現頻率的詞并非必然具有最高的標準化出現頻率。在上
述示例中,“hound”具有最高的標準化出現頻率,并且從輸入文本的上下
文顯然可以看出,“hound”是正確詞,而不是在互聯網語料庫中具有較高
出現頻率的“hand”。

本發明的特定特征是,標準化頻率(其抵消在各種備選校正的總體普
及度中的實質差異)優選地用于在備選校正中的選擇。可以理解,出現頻
率的其它度量而不是標準化出現頻率可以可選地或額外地用作度量。在出
現頻率相對低或特別地高的情況下,額外的或可選的度量是有益的。

根據以下的討論將可以理解,額外的功能通常在各種備選詞校正中選
擇是有用的。下文描述了這些功能。

在子階段ⅡD,消除根據以下兩種度量的、不優選于另一個備選簇校正
的每個備選簇校正:

ⅰ、具有比其它備選簇校正低的詞相似性得分;以及

ⅱ、對于所有CFS,比其它備選簇校正具有較低的出現頻率并且還優
選地具有較低的標準化的出現頻率。

以下示例說明了按照上文描述的備選校正的消除:

提供了以下輸入文本;

Ileaveonabighouse

使用參照圖6B上文描述的功能,為校正選擇以下簇:

leaveon

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

leavein;livein;lovein;leaveon

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'Ileaveona';'leaveonabig'

使用參照本文的階段ⅡE上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成表30所示的互聯網語料庫中的出現頻率和
標準化的出現頻率的矩陣:

表30


在該示例中,如在表31中指示了備選簇校正的不基于上下文相似性得
分:

表31


因為“lovein”比“livein”具有較低的相似性得分以及較低的出現頻
率和較低的標準化出現頻率,所以消除備選簇校正“lovein”。因為“leavein”
的相似性得分比“livein”的得分高,因此在該階段不消除備選簇校正“leave
in”。

從上述可以理解,階段ⅡD的功能的操作的結果是減少的頻率矩陣并
且優選地也是減少的標準化頻率矩陣,所述矩陣指示了出現頻率并且優選
地還指示了減少的多個備選校正中的每個的標準化出現頻率,每個矩陣具
有用于減少的多個CFS的每個的相似性得分。從以下示例可以看出,對于
所有其它備選簇選擇功能,優選地使用備選簇校正的減少的組。

對于在減少的頻率矩陣和優選的在減少的標準化頻率矩陣中的每個備
選校正,生成最終優先選擇度量。可以使用以下備選度量中的一個或多個
來生成用于每個備選校正的最終優先選擇得分:

下文使用的術語“頻率函數”指代:頻率、標準化頻率或頻率和標準
化頻率兩者的函數。

A、一種可能的優先選擇度量是在減少的矩陣或多個矩陣中的任何CFS
的減少的矩陣或多個矩陣中的每個備選簇校正的最高的出現頻率函數。例
如,將按照如下來對各種備選簇校正計分:

提供以下輸入文本:

Iamvarysatisfiedwithyourwork

使用參照圖6B上文描述的功能,為了校正選擇以下簇:

vary

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

vary;very

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'amvary';'varysatisfied';'Iamvarysatisfiedwith'

使用參照本文的階段ⅡC上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成表32和33所示的互聯網語料庫中的出現
頻率和標準化的出現頻率的矩陣:

表32


表33



可以看出,在該示例中,根據出現頻率和標準化出現頻率兩者,“very”
具有最高出現頻率函數。

B、另一個可能的優先選擇度量是用于每個備選校正的所有CFS的平
均出現頻率函數。例如,將按照如下對各種備選校正計分:

提供以下輸入文本:

Awhileagothelived3dwarfs

使用參照圖6B上文描述的功能,為了校正選擇以下簇:

the

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

the;they;she;there

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'agosthelived';'sthelived3'

使用參照本文的階段ⅡC上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成表34和35所示的互聯網語料庫中的出現
頻率、標準化出現頻率和平均出現頻率的矩陣:

表34


表35



應當注意,盡管“there”具有其在矩陣中最大的出現頻率的CFS,但
是基于平均出現頻率來選擇“they”。

在該示例中,如在表36中指示了備選簇校正的不基于上下文相似性得
分:

表36


應當注意,不選擇具有最高相似性得分的備選簇校正。

C、其它可能優先選擇度量是對于每個CFS的出現頻率函數的每個備
選校正的所有CFS的加權和,其中所述每個CFS的出現頻率函數是在參照
圖5上文描述的功能來計算時,通過乘以該CFS的得分得到的。

D、參照子階段ⅡE-ⅡG按照上文描述的,通過任意一個或多個,并且
更優選的以及最優選的是,關于在減少的矩陣或多個矩陣中的備選校正的
所有以下操作,生成特定備選校正/CFS優先選擇度量:

ⅰ、選擇來自被旋轉用于校正的原始輸入文本的簇作為參考簇。

ⅱ、產生修改的矩陣,其中,在每個優先選擇矩陣中,在每個feature-gram
中的每個備選校正的出現頻率函數由每個備選校正的出現頻率函數與參考
簇的出現頻率函數之比來代替。

ⅲ、進一步修改在ⅱ中上文描述的類型的修改的矩陣,從而通過用于
減少在比率中的很大差異的計算重要性的比率的函數來代替每個優先選擇
度量中的比率。合適的這種函數是對數函數。該操作的目的是不強調在最
優選的備選校正的最終優先選擇得分中的出現頻率中的很大差異的重要
性,而是維持在最終優先選擇計分中的出現頻率中的很大差異,因此消除
最不優選的備選校正。

ⅳ、通過將合適的比率或在每個優先選擇度量中的比率的函數乘以合
適的CFS得分,來額外地修改在ⅱ或ⅲ中上文描述的類型的修改的矩陣。
這提供了基于正確語法使用和在CFS得分中反映的其它因素的強調。

ⅴ、通過將每個優先選擇矩陣中的合適的比率或比率的函數乘以用戶
不確定度量的函數,來額外地修改在ⅱ、ⅲ或ⅳ中上文描述的類型的修改
的矩陣。用戶輸入不確定度量的一些示例包括:與在詞處理器中執行的輸
入詞或簇有關的編輯操作的數量,與文檔的其它詞有關的編輯操作;在詞
處理器中執行的輸入詞或簇的寫入的時序,與文檔的其它詞的寫入的有關
時間以及在語音識別輸入功能中執行的輸入詞或簇的說的時序,與該用戶
說的其它詞有關的時間。用戶輸入不確定度度量提供了某用戶如何選擇該
詞的指示。該步驟得到參考簇的計算偏值并且由關于該簇的用戶的確定度
或不確定度的函數來修改。

ⅵ、通過生成合適的比率的函數、比率的函數、出現頻率和標準化的
出現頻率,來額外地修改在ⅱ、ⅲ或ⅳ中上文描述的類型的修改的矩陣。
通過將合適的比率或在每個優先選擇度量中的比率的函數乘以該CFS的出
現頻率,來生成優選的函數。

E、通過將備選校正的相似性得分乘以用于該備選校正的所有CFS的特
定備選校正/CFS優先選擇度量的和,基于在D中上文描述的特定備選校正
/CFS優先選擇度量,計算用于每個備選校正的最終優先選擇度量。

說明了這種修改的矩陣的使用的示例如下:

提供以下輸入文本:

Iwillbeabletoteachbasewithyounextweek

使用參照圖6B上文描述的功能,為了校正選擇以下簇:

teach

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

teach;touch

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'agototach';'totachbase'

使用參照上述子階段ⅡA和ⅡC上文描述的功能,為了在CFS的上述
列表中的備選簇校正的上述列表,生成表37所示的互聯網語料庫中的出現
頻率和標準化的出現頻率的矩陣:

表37


應當注意,對于一個特征,“teach”的出現頻率和標準化出現頻率兩者
都比“touch”的出現頻率和標準化出現頻率高,但是對于另一個特征,
“touch”的出現頻率和標準化出現頻率兩者都比“teach”的出現頻率和標
準化出現頻率高。為了做出備選校正的正確選擇,按照下文描述,優選地
使用參照子階段ⅡG上文描述的比率度量。

在該示例中,如在表38中指示了備選簇校正的不基于上下文相似性得
分:

表38


可以看出,因為“teach”具有最高相似性得分,所以參考簇是“teach”。
盡管如此,基于上文描述的最終優先選擇得分,還是選擇“touch”。這不是
直覺,因為可以根據上述矩陣的考慮來理解,其中,所述矩陣指示了“teach”
具有最高的出現頻率和最高的標準化出現頻率。在該示例中,因為用于其
中有利于“touch”的特征的出現頻率的比率遠高于用于其中有利于“teach”
的特征的出現頻率的比率。

F、可選地,使用以下決定規則中的一個或多個,基于用于該備選校正
和用于參考簇的頻率函數值和優先選擇度量的比較,可以濾除備選校正:

1、濾除具有低于預定閾值的相似性得分并且具有CFS頻率函數(所述
CFS頻率函數比用于指示一個特征的參考簇的CFS頻率函數低,其中,所
述至少一個特征具有比預定閾值高的CFS得分)的備選校正。

2、濾除具有低于預定閾值的相似性得分并且具有優先選擇度量(所述
優先選擇度量比用于至少一個特征的預定閾值低,其中,所述特征具有比
另一個預定閾值高的CFS得分)的備選校正。

3、a、確定每個CFS的CFS得分;

b、對于每個CFS,確定用于參考簇和用于備選校正的CFS頻率函
數,由此確定參考簇或備選校正是否具有用于該CFS的較高頻率函數;

c、對備選校正具有比參考簇較高的頻率的CFS的CFS得分進行求
和;

d、對參考簇具有比備選校正較高的頻率的CFS的CFS得分進行求
和;以及

e、如果c中的和比d中的和低,那么濾除備選校正。

以下示例說明了過濾上面描述的過濾功能。

提供了以下輸入文本,通常是由語音識別功能輸入:

Iwant[two/to/too]item,please

使用參照圖6B上文描述的功能,為了校正選擇以下簇:

[two/to/too]

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

too;to;two

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'Iwanttwo';'wanttwoitems'

使用參照本文子階段ⅡA上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成表39所示的互聯網語料庫中的出現頻率的
矩陣:

表39


盡管“to”具有一個CFS的最高出現頻率,但是因為它對另一個CFS
來說出現頻率為零,所以濾除備選詞校正“too”和“to”。

G、參照階段Ⅲ按照上文所討論的,基于在A-E上文描述開發的最終優
先選擇度量,對在F中過濾后留下的備選校正建立排序。

H、如參照階段Ⅳ上文討論的,將可信度分配給選擇的備選校正。基于
以下參數中的一個或多個來計算該可信度:

a、按照在上述子階段ⅡB中提供的選擇的CFS的數量、類型和得分;

b、在CFS的情況下,各種備選簇連接的出現頻率的統計顯著性;

c、基于每個CFS的優先選擇度量和各種備選校正的詞相似性得分,同
意備選校正的選擇的程度;

d、在預定最低閾值以上的選擇的備選簇連接的不基于上下文的相似性
得分(階段Ⅰ)。

e、上下文數據可用的程度,由在減少的矩陣中的CFS的數量來指示,
其中,所述矩陣具有在預定最小閾值以上的CFS得分并且比另一個預定閾
值具有優先選擇的得分。

如果可信度在預定的閾值以上,那么在沒有用戶交互的情況下實現選
擇的備選校正。如果可信度在預定的閾值以下但是在較低預定的閾值以上,
那么實現選擇的備選校正,但是引發了用戶交互。如果可信度在較低的預
定閾值以下,那么引發基于備選校正的優選的列表的用戶選擇。

以下示例是可信度得分的說明性使用:

提供以下輸入文本:

Hewasnotfeelingwalewhenhereturned

使用參照圖6B上文描述的功能,為了校正選擇以下簇:

wale

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

wale;well

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'wasnotfeelingwale';'notfeelingwalewhen';'feelingwalewhenhe';'wale
whenhereturned'

使用參照本文子階段ⅡA上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成表40所示的互聯網語料庫中的出現頻率的
矩陣:

表40


上述示例說明:根據在上述H中闡述的所有標準,選擇'well'而不是
'wale',因為'well'具有高的可信度。

在以下示例中,可信度有些低,這是由于以下事實:備選校正'back'具
有比在CFS'bechinthesummer'中的'beach'較高的出現頻率,但是'beach'具有
比在CFS'onthebeechin'和'thebechinthe'較高的出現頻率。基于標準H(c),
選擇帶有中間可信度的備選校正'beach'。

提供以下輸入文本:

Iliketoworkonthebeechinthesummer

使用參照圖6B上文描述的功能,為了校正選擇以下簇:

beech

使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出):

beach;beech;back

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'onthebeechin';'thebeechinthe';'beechinthesummer'

使用參照子階段ⅡA上文描述的功能,為了在CFS的上述列表中的備
選簇校正的上述列表,生成表41所示的互聯網語料庫中的出現頻率的矩陣:

表41


基于標準H(c),選擇帶有中間可信度的備選校正'beach'。

在以下示例中,基于標準H(a),可信度更低:

接收以下輸入文本:

ExartsarerestoringtheBritishMuseum'sroundreadingroom

使用參照圖6B上文描述的功能,為了校正選擇以下簇:

Exarts

使用參照圖7A上文描述的功能,生成以下備選詞簇校正(部分地列
出):

Experts;Exerts;Exits

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'Exartsare';'Exartsarerestoring';'Exartsarerestoringthe;'Exartsare
restoringtheBritish'

使用參照子階段ⅡA上文描述的功能,為了在CFS的上述列表中的備
選簇校正的上述列表,生成表42所示的互聯網語料庫中的出現頻率的矩陣:

表42


消除出現頻率為零的所有備選校正的所有CFS。在該示例中,消除以
下feature-gram:

'Exartsarerestoring';'Exartsarerestoringthe';'Exartsarerestoringthe
British'

在該示例中,僅剩余的CFS是feature-gram:

'Exartsare'

從上述示例看出,在過濾過程中存留的CFS是“Exartare”。因此,可
信度相當低,因為選擇僅基于單個CFS,其相對地短并且除了懷疑的詞之
外僅包括一個詞,所述詞是經常出現的詞。

以下示例說明了在上述階段D和E中描述的最終優先選擇得分度量的
使用。

提供了一些輸入文本:

Somekidsdon'tdoanysportandsitarounddoingnothingandgettingfast
soyouwillburnsomecaloriesandgetalotfitterifyouexercise.

使用參照圖6B上文描述的功能,為了校正選擇以下簇:

fast

使用參照圖7A上文描述的功能,生成以下備選詞簇校正(部分地列
出):

fat;fast

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'andgettingfast';'gettingfastso';'fastsoyou';'fastsoyouwill'

使用參照本文的子階段ⅡA上文描述的功能,為了在CFS的上述列表
中的備選簇校正的上述列表,生成表43所示的互聯網語料庫中的出現頻率
的矩陣:

表43



在該示例中,在表44中指示了備選簇校正的不基于上下文得分:

表44


使用在上述階段D和E中描述的最終優先選擇得分度量,選擇帶有低
可信度的備選詞校正“fat”。

現在參照圖10,其是說明了丟失項目校正功能的操作的詳細的流程圖。
丟失項目校正功能用于校正丟失的冠詞、介詞、標點和在輸入文本中主要
是語法功能的其它項目。該功能優選地對從圖1的拼寫校正功能輸出的拼
寫校正輸入文本進行操作。

以如下方式優選地執行懷疑的丟失項目的識別:

初始,生成用于拼寫校正輸入文本的feature-gram。確定在語料庫(優
選地是互聯網語料庫)中拼寫校正輸入中的每個feature-gram的出現頻率
(FREQF-G)。

按照如下來計算每個feature-gram的期望的出現頻率(EFREQF-G):

假定feature-gram包含n個詞,被識別為W1-Wn。

Wi代表feature-gram中的第i個詞。

給定的feature-gram的期望的出現頻率被認為是基于feature-gram中的
詞分配到隨后的詞W1…W(n-1)的每個的兩個連續的部分的該feature-gram的
最高期望的頻率。

按照如下可以表示基于feature-gram中的詞分配到隨后的詞Wi的兩個
連續的部分的feature-gram的期望的頻率:

關于Wi的EFREQF-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(互
聯網語料庫中的所有詞的總頻率)

計算基于feature-gram中的詞分配到兩個連續的部分的所有可能的每
個feature-gram的期望的頻率。

如果關于Wi的FREQF-G/EFREQF-G比預定的閾值低,那么從以下方
面來說:在該feature-gram中,在Wi與Wi+1之間有丟失的冠詞、介詞或標
點,認為關于Wi的feature-gram是懷疑的。

優選地通過嘗試找到由最大量的不懷疑的上下文數據所包圍的詞的聯
結點,為了校正選擇在拼寫校正輸入文本中的兩個連續詞之間的懷疑詞聯
結點。優選地,選擇在其附近具有不懷疑的詞的聯結點的最長序列或多個
序列。

優選地基于可能丟失的標點、冠詞、介詞、連詞或其它項目(其通常
不包括名詞、動詞或形容詞)的預定義的組,為每個詞聯結點生成一個或
優選地多個備選詞插入。

優選地基于參照圖9和下文、上文描述的校正備選詞計分算法,來提
供各種備選詞插入的至少部分地基于上下文和詞的基于相似性得分。

以下示例是說明性的:

提供以下輸入文本:

Ican'treadpleasehelpme

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

Ican'tread;can'treadplease;readpleasehelp;pleasehelpme

使用參照上文描述的功能,為了通常像表45那樣出現的feature-gram
的上述列表,生成在互聯網語料庫中的出現頻率的矩陣:

表45

FEATURE-GRAM
出現的頻率
I can’t read
5600
can’t read please
0
read please help
55
please help me
441185

根據以下表示,為了關于feature-gram中的每個詞Wi的每個
feature-gram,計算期望的出現頻率:

關于Wi的EFREQF-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(互
聯網語料庫中的所有詞的總頻率)

在表46和47中可以看出一些這些計算的示例性的結果:

表46


表47

FEATURE-GRAM
出現的頻率
read
157996585
please help
1391300

從上述結果可以看出,每個feature-gram的實際出現頻率比其期望的出
現頻率低。這指示了懷疑缺少了項目,例如標點。

生成在詞“read”之后的備選插入的列表。該列表優選地包括標點、冠
詞、連詞和介詞的預定的列表。具體地說,它將包括句號“.”。

備選的部分列表是:

'readplease';'read.Please';'readofplease';'readaplease'

使用參照圖5上文描述的功能,生成以下CFS:

'Ican'tread[?]';'read[?]pleasehelp';,[?]pleasehelpme'

使用在圖9的階段ⅡA中描述的功能,為了CFS的上述列表中備選詞
簇校正的上述列表,生成表48中所示的互聯網語料庫中的出現頻率的矩陣:

當“.”包括在簇中時,對于在'.'之前和之后的文本分別地檢索包括帶有
'.'的簇。即,feature-gram“can’tread.Please”將不生成,因為它包括兩個分
離的語法分析短語。

表48


*當計算在語料庫中詞的出現頻率時,從feature-gram的開始忽略了'.'。
例如,“.Pleasehelpme”的頻率等于“Pleasehelpme”的頻率。

使用在圖9的階段D和E中描述的功能,最終優先選擇度量選擇備選
校正“read.Please”并且校正的輸入文本是:

Ican'tread.Pleasehelpme

以下示例說明了增加丟失的介詞的功能。

提供以下輸入文本:

Isitthesofa

使用下文描述的功能,為了校正選擇以下簇:

'sitthe'

使用上文描述的功能,生成以下備選簇校正(部分地列出):

sitonthe;sitofthe;sitthe

使用參考圖5上文描述的功能,生成以下CFS:

'Isitthe';'sitthesofa'

使用參照圖9在子階段ⅡA中描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成表49所示的互聯網語料庫中的出現頻率的
矩陣:

表49


使用在圖9的階段ⅡD和ⅡE中描述的功能,最終優先選擇度量選擇備
選校正“sitonthe”并且校正輸入文本是:

Isitonthesofa.

現在參照圖11,其是說明了冗余項目校正功能的操作的詳細的流程圖。
冗余項目校正功能用于校正冗余的冠詞、介詞、標點和在輸入文本中主要
具有語法功能的其它項目。該功能優選地對從圖1的拼寫校正功能輸出的
拼寫校正輸入文本進行操作。

可以理解,圖11的功能可以與圖10的功能組合或者可選地與圖10的
功能并行地執行、在其操作之前或之后執行。

以如下方式優選地執行懷疑的冗余項目的識別:

執行關于拼寫校正輸入文本的搜索以識別屬于可能的冗余標點、冠詞、
介詞、連詞的預定義的組的項目和其它項目(所述其它項目通常不包括名
詞、動詞或形容詞)。

對于每個這種項目,為了誤用詞和語法校正、包含這種項目的拼寫校
正輸入文本的所有部分,生成feature-gram。計算每個這種feature-gram和
其中項目被忽略的對應的feature-gram的出現頻率。

如果其中項目被忽略的feature-gram的出現頻率超過其中項目出現的
對應的feature-gram的出現頻率,那么項目被認為是懷疑的。

優選地通過嘗試找到由最長的不懷疑的上下文數據包圍的項目,來選
擇用于校正的在誤用詞和語法校正、拼寫校正輸入文本中的懷疑的項。優
選地,選擇具有在其附近具有最長的不懷疑的詞的序列或多個序列的項目。

為每個懷疑的項目生成可能的項目刪除。優選地基于參照圖9和下文、
上文描述的校正備選得分算法,來提供各種備選詞的至少部分的基于上下
文和詞的基于相似性得分,即,項目的刪除或項目的不刪除。

以下示例是說明性的。

提供以下輸入文本:

Itisanice,thingtowear.

搜索輸入文本來識別屬于普通的冗余項目(例如,標點、介詞、連詞
和冠詞)的預定的列表的任意項目。

在該示例中,逗號“,”被識別為屬于這種列表。

使用參照圖5上文描述的功能,生成包括逗號“,”的、在表50所示的
feature-gram并且還生成沒有逗號的相同的feature-gram(部分地列出):

表50

帶有逗號的FEATURE-GRAM
沒有逗號的FEATURE-GRAM
is a nice,thing
is a nice thing
a nice,thing to
a nice thing to
nice,thing to wear
nice thing to wear

使用上文描述的功能,為了通常如表51所示出現的feature-gram的上
述列表,生成互聯網語料庫中的出現頻率的矩陣:

表51


如上述矩陣中所示,忽略“,”的feature-gram的出現頻率超過出現“,”
的對應的feature-gram的出現頻率。因此,“,”被懷疑是冗余的。

基于保留逗號和忽略逗號的以下備選詞的基于上下文的得分,考慮逗
號的可能的刪除:

'nice,';'nice'

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'anice,';'nice,thing';'isanice,';'anice,thing';'nice,thingto'

使用參照圖9上文描述的功能,為了在CFS的上述列表中的備選簇校
正的上述列表,生成表52所示的互聯網語料庫中的出現頻率的矩陣:

表52


消除全部包括在至少具有出現的最低閾值頻率的其它CFS的所有
CFS。例如,消除以下feature-gram:

'anice,';'nice,thing'

在該示例中,剩余的CFS是feature-gram:

'isanice,';'anice,thing';'nice,thingto'

使用在上述圖9的階段D和E中描述的最終優先選擇得分,來選擇沒
有逗號的備選校正“nice”。在逗號刪除后的輸入文本是:

Itisanicethingtowear

以下示例說明了刪除冗余冠詞的功能。

提供以下輸入文本:

Weshouldprovidethemafoodandwater

使用參照圖11上文描述的功能,為了校正選擇以下簇:

afood

使用參照圖11上文描述的功能,生成以下備選簇校正(部分地列出):

afood;food

使用參照圖5上文描述的功能,生成以下CFS(部分地列出):

'providethemafood';'themafoodand';'afoodandwater'

使用參照本文子階段ⅡA上文描述的功能,為了在CFS的上述列表中
的備選簇校正的上述列表,生成表53所示的互聯網語料庫中的出現頻率的
矩陣:

表53


使用在圖9中描述的計分功能,最終優先選擇度量選擇備選校正“food”
并且校正輸入文本是:

Weshouldprovidethemfoodandwater.

本領域的技術人員應當理解,本發明并不限于特定地示出并且在上文
描述的內容。而是,本發明的范圍包括本領域的技術人員在閱讀上述內容
時想到的并且不在現有技術范圍內的、上文描述和示出的各種特征的組合
和子組合以及其修改。

關 鍵 詞:
使用 互聯網 語料庫 自動 上下文 相關 語言 校正 增強
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:使用互聯網語料庫的自動的上下文相關的語言校正和增強.pdf
鏈接地址:http://www.wwszu.club/p-6401543.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大