鬼佬大哥大
  • / 24
  • 下載費用:30 金幣  

一種建立輸入建議的數據處理方法和系統.pdf

摘要
申請專利號:

CN201410080568.9

申請日:

2014.03.06

公開號:

CN104899214A

公開日:

2015.09.09

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20140306|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 阿里巴巴集團控股有限公司
發明人: 董凡; 張一楠
地址: 英屬開曼群島大開曼
優先權:
專利代理機構: 北京三友知識產權代理有限公司11127 代理人: 黨曉林
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201410080568.9

授權公告號:

||||||

法律狀態公告日:

2018.05.22|||2015.10.07|||2015.09.09

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本申請提供了一種建立輸入建議的數據處理方法,包括:生成長度小于或等于第一長度的前綴作為當前前綴,第一長度作為當前長度;合并相同的前綴,并為合并后的前綴和對應的詞條生成倒排索引;判斷每一前綴指向詞條的個數是否大于預設值N,對詞條個數大于N的前綴截取詞條;對前綴長度等于當前長度且詞條個數為(N+1)的前綴,更新當前前綴和當前長度,并返回至合并前綴的步驟重新處理,直至當前前綴指向詞條的個數均小于或等于N個,將倒排索引作為建立的輸入建議索引進行輸出;本申請提供的方法,形成了根據詞條數目分布的可變前綴長度的倒排索引,避免建立的倒排索引產生大量幾乎不會被用到的索引項,建立的輸入建議索引的冗余程度得到了降低。

權利要求書

權利要求書
1.  一種建立輸入建議的數據處理方法,其特征在于,包括:
為每一詞條生成長度小于或等于第一長度的前綴,并將所述前綴作為當前前綴,將所述第一長度作為當前長度;
合并所有當前前綴中內容相同的前綴,為合并后的當前前綴和對應的詞條生成倒排索引;
判斷所述倒排索引中每一前綴指向詞條的個數是否大于預設值N,以及:
若所述倒排索引中存在指向詞條個數大于N的前綴,對倒排索引中詞條個數大于N的前綴截取詞條;根據倒排索引中前綴長度等于當前長度且詞條個數為(N+1)的前綴,更新當前前綴和當前長度,將更新后的當前前綴和當前長度返回至合并前綴的步驟重新進行處理;
若每一前綴指向詞條的個數均小于或等于N,則將所述倒排索引作為建立的輸入建議索引進行輸出。

2.  如權利要求1所述的一種建立輸入建議的數據處理方法,其特征在于,所述對倒排索引中詞條個數大于N的前綴截取詞條,包括:對倒排索引中詞條個數大于N的前綴,若前綴長度小于當前長度,截取前綴指向的前N個詞條,若前綴長度等于當前長度,截取前綴所指向的前(N+1)個詞條。

3.  如權利要求1所述的一種建立輸入建議的數據處理方法,其特征在于,所述根據倒排索引中前綴長度等于當前長度且詞條個數為(N+1)的前綴,更新當前前綴和當前長度,包括:根據詞條內容將所述前綴長度等于當前長度且詞條個數為(N+1)的前綴增加一個字節,形成新的前綴,將新增了前綴的所有前綴的作為更新后的當前前綴,將當前長度加1作為更新后的當前長度。

4.  如權利要求1所述的一種建立輸入建議的數據處理方法,其特征在于,所述第一長度的取值最小為3。

5.  如權利要求1所述的一種建立輸入建議的數據處理方法,其特征在于,所述N的取值最小為5。

6.  如權利要求1所述的一種建立輸入建議的數據處理方法,其特征在于,所述方法中為每一詞條生成長度小于或等于第一長度的前綴之前,還包括:對詞條進行預處理;所述對詞條進行預處理至少包括下述方式之一:
去除詞條中無意義的字符;所述無意義的字符包括空格、標點符號;
將詞條內容中的大小寫以及簡繁體進行統一。

7.  一種建立輸入建議的數據處理系統,其特征在于,包括:前綴生成單元、倒排索引生成單元、第一判斷單元、判斷截取單元、更新單元;其中,
所述前綴生成單元,用于為每一詞條生成長度小于或等于第一長度的前綴,將所述前綴作為當前前綴,將所述第一長度作為當前長度;
所述倒排索引生成單元,用于合并當前前綴中內容相同的前綴,為合并后的當前前綴及前綴對應的詞條生成倒排索引;
所述第一判斷單元,用于判斷所生成的倒排索引中每一前綴指向詞條的個數是否大于N,若詞條個數大于N,則進入判斷截取單元進行處理,若每一前綴指向詞條的個數均小于或等于N,則將所述倒排索引作為建立的輸入建議索引進行輸出;
所述判斷截取單元,用于對倒排索引中對于詞條個數大于N的前綴截取詞條;
所述更新單元,用于根據倒排索引中前綴長度等于當前長度且詞條個數為(N+1)的前綴,更新當前前綴和當前長度,將更新后的當前前綴和當前長度返回至倒排索引生成單元重新進行處理。

8.  如權利要求7所述的一種建立輸入建議的數據處理系統,其特征在于,所述判斷截取單元包括:長度判斷單元、截取單元;其中,
所述長度判斷單元,用于判斷當前前綴中每一個前綴的長度是否小于當前長度;
所述截取單元,用于對長度判斷單元的結果中前綴長度小于當前長度的前綴所指向的詞條截取前N個詞條,對長度判斷單元結果中前綴長度等于當前長度的前綴所指向的詞條截取前(N+1)個詞條。

9.  如權利要求7所述的一種建立輸入建議的數據處理系統,其特征在于,所述更新單元包括:前綴更新單元、當前長度更新單元;其中,
所述前綴更新單元,用于對長度判斷單元的結果中前綴長度等于當前長度的前綴,根據詞條內容將所述前綴內容增加一個字節,形成新的前綴,將新增了前綴的所有前綴的更新為當前前綴;
所述當前長度更新單元,用于將當前長度加1作為更新后的當前長度。

10.  如權利要求7所述的一種建立輸入建議的數據處理系統,其特征在于,所述倒排索引生成單元包括:合并單元、索引單元;其中,
所述合并單元,用于對所有當前前綴中內容相同的前綴進行合并;
所述索引單元,用于為合并后的當前前綴和前綴對應的詞條生成倒排索引。

11.  如權利要求7所述的一種建立輸入建議的數據處理系統,其特征在于,所述第一判斷單元包括:個數判斷單元、輸出單元;其中,
所述個數判斷單元,用于判斷倒排索引生成單元生成的倒排索引中當前前綴中每一前綴指向的詞條的個數是否大于N個;
所述輸出單元,用于輸出倒排索引,具體地,若個數判斷單元的判斷結果中,每一前綴指向詞條的個數均小于或等于N個,則輸出倒排索引生成單元中的倒排索引結果。

12.  如權利要求7所述的一種建立輸入建議的數據處理系統,其特征在于,所述建立輸入建議的數據處理系統,還包括:詞條預處理單元;所述詞條預處理單元,用于為每一詞條進行預處理。

13.  一種基于權利要求1~6中任意一項所述方法建立的索引提供輸入建議的方法,其特征在于,包括:
設置第二長度,判斷接收到的查詢串的長度是否大于第二長度,對長度小于或者等于第二長度的查詢串,將其對應的倒排索引作為輸入建議的結果;
對于長度大于第二長度的查詢串,根據第二長度對所述查詢串進行截斷;
判斷截斷后的查詢串對應的倒排索引中詞條數是否大于N,詞條數大于N的,更新第二長度,返回更新后的第二長度重新進行截斷,直至查詢串截斷后所對應的詞條數小于或等于N;
對于長度大于第二長度且查詢串截斷后詞條數小于或等于N的查詢串,過濾掉不匹配的詞條;
輸出查詢串的輸入建議結果。

14.  如權利要求13所述的一種根據建立的輸入建議索引提供輸入建議的方法,其特征在于,所述更新第二長度包括:將第二長度加1作為更新后的第二長度。

15.  如權利要求13所述的一種根據建立的輸入建議索引提供輸入建議的方法,其特征在于,所述過濾掉不匹配的詞條,具體包括:將截斷的查詢串對應的所有詞條和查詢串從第一個字符開始進行一一比對,將詞條中前x個字符與查詢串不完全相同的詞條過濾掉;所述x表示查詢串的長度。

16.  如權利要求15所述的一種根據建立的輸入建議索引提供輸入建議的方法,其特征在于,所述將截斷的查詢串查找到的倒排索引中的所有詞條和查詢串進行一一比對,包括:在進行比對的過程中,當查詢串與詞條的字符不是相同的語言時,將查詢串和詞條中的內容都轉換為拼音后再進行比對。

17.  如權利要求13所述的一種根據建立的輸入建議索引提供輸入建議的方法,其特征在于,所述輸出查詢串的輸入建議結果,包括:對于查詢串長度小于第二長度的,直接輸出對應的詞條作為查詢串的輸入建議結果;對于截斷后查詢不到相同的索引的,返回空值作為 查詢串的輸入建議結果;對于截斷后進行查詢的索引,將過濾掉不匹配的詞條的結果作為查詢串的輸入建議結果。

18.  如權利要求13所述的一種根據建立的輸入建議索引提供輸入建議的方法,其特征在于,所述設置第二長度包括:設置第二長度的值等于第一長度的值。

19.  一種基于權利要求7~12中任意一項所述系統建立的索引提供輸入建議的系統,其特征在于,包括:長度查詢單元、查詢串截斷單元、判斷更新單元、過濾單元、建議輸出單元;其中,
所述長度查詢單元,用于設置第二長度,查詢接收到的查詢串的長度是否大于第二長度,對查詢串的長度小于或者等于第二長度的,將其對應的倒排索引作為輸入建議的結果;
所述查詢串截斷單元,用于對于長度大于第二長度的查詢串,根據第二長度對所述查詢串進行截斷;
所述判斷更新單元,用于判斷截斷后的查詢串對應的倒排索引中詞條數是否大于N,詞條數大于N的,更新第二長度值并返回至查詢串截斷單元重新進行截斷,直至查詢串截斷后詞條數小于或等于N;
所述過濾單元,用于對長度大于第二長度且查詢串截斷后詞條數小于或等于N的查詢串,過濾掉不匹配的詞條;
所述建議輸出單元,用于輸出查詢串的輸入建議結果。

20.  如權利要求19所述的一種根據建立的輸入建議索引提供輸入建議的系統,其特征在于,所述判斷更新單元,包括:詞條數判斷單元、第二長度更新單元、返回單元;其中,
所述詞條數判斷單元,用于判斷所述查詢串截斷單元截斷后的查詢串對應的倒排索引中詞條數是否大于N;
所述第二長度更新單元,用于將第二長度加1作為更新后的第二長度;
所述返回單元,用于將所述詞條數判斷單元中判斷結果為詞條數大于N的查詢串和所述第二長度更新單元更新后的第二長度,返回至查詢串截斷單元。

21.  如權利要求19所述的一種根據建立的輸入建議索引提供輸入建議的系統,其特征在于,所述過濾單元,包括:識別轉換單元、比對篩選單元;其中,
所述識別轉換單元,用于識別查詢串與詞條的內容是否屬于同一種語言,若不是,轉換查詢串或詞條的語言,使兩者的語言相同;
所述比對篩選單元,用于將截斷的查詢串對應的所有詞條和查詢串的內容從第一個字符開始進行一一比對,剔除不匹配的詞條。

關 鍵 詞:
一種 建立 輸入 建議 數據處理 方法 系統
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種建立輸入建議的數據處理方法和系統.pdf
鏈接地址:http://www.wwszu.club/p-6373756.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大