鬼佬大哥大
  • / 16
  • 下載費用:30 金幣  

信息排序方法、用于生成信息排序模型的方法及裝置.pdf

關 鍵 詞:
信息 排序 方法 用于 生成 模型 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
摘要
申請專利號:

CN201510325823.6

申請日:

2015.06.12

公開號:

CN104899310A

公開日:

2015.09.09

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150612|||公開
IPC分類號: G06F17/30; G06F17/27 主分類號: G06F17/30
申請人: 百度在線網絡技術(北京)有限公司
發明人: 宋元峰; 沈劍平; 李炫; 莫洋; 鄭楚煜; 車麗美; 齊沁芳
地址: 100085北京市海淀區上地十街10號百度大廈三層
優先權:
專利代理機構: 北京金律言科知識產權代理事務所(普通合伙)11461 代理人: 羅延紅; 楊移
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510325823.6

授權公告號:

||||||

法律狀態公告日:

2018.01.19|||2015.10.07|||2015.09.09

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明提供一種信息排序方法、用于生成信息排序模型的方法及裝置。所述信息排序方法包括:獲取關聯的多篇文章;根據預設的主題詞集,分別從所述多篇文章提取主題詞,所述主題詞集包括不同粒度的主題詞;分別將從所述多篇文章提取的主題詞輸入預先訓練的信息排序模型,以分別獲取所述多篇文章的相關度;根據所述多篇文章的相關度對所述多篇文章進行排序。本發明提供的信息排序方法、用于生成信息排序模型的方法、搜索處理方法及裝置,由于所述主題詞集包括不同粒度的主題詞,即主題集的質量得到了提高,進而改善了從所述多篇文章中提取的關鍵詞的質量,提升排序質量。

權利要求書

權利要求書
1.  一種信息排序方法,其特征在于,所述方法包括:
獲取關聯的多篇文章;
根據預設的主題詞集,分別從所述多篇文章提取主題詞,所述主題詞集包括不同粒度的主題詞;
分別將從所述多篇文章提取的主題詞輸入預先訓練的信息排序模型,以分別獲取所述多篇文章的相關度;
根據所述多篇文章的相關度對所述多篇文章進行排序。

2.  根據權利要求1所述的方法,其特征在于,所述根據預設的主題詞集,分別從所述多篇文章提取主題詞的處理包括:
對所述多篇文章中的任一篇文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞,并且
根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇文章中任一篇文章的主題詞。

3.  根據權利要求1所述的方法,其特征在于,所述方法還包括:
從客戶端接收包括至少一個關鍵詞的搜索詞;
所述獲取關聯的多篇文章的處理包括:根據所述包括至少一個關鍵詞的搜索詞獲取多篇文章。

4.  根據權利要求3所述的方法,其特征在于,所述方法還包括:
將經過排序的所述多篇文章發送給所述客戶端。

5.  一種用于生成信息排序模型的方法,其特征在于,所述方法包括:
獲取已標注相關度屬性的多篇訓練樣本文章;
根據預設的主題詞集,分別從所述多篇訓練樣本文章提取主題詞,所述主題詞集包括不同粒度的主題詞;
根據標注的所述多篇訓練樣本文章以及為其提取的主題詞訓練信息排序模型。

6.  根據權利要求5所述的方法,其特征在于,所述根據預設的主題詞集,分別從所述多篇訓練樣本文章提取主題詞的處理包括:
對所述多篇訓練樣本文章中的任一篇訓練樣本文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞,并且
根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇訓練樣本文章中任一篇訓練樣本文章的主題詞。

7.  根據權利要求5的所述的方法,其特征在于,所述方法還包括:構建所述主題詞集。

8.  根據權利要求7的所述的方法,其特征在于,所述構建所述主題詞集的處理包括:
獲取多篇主題詞樣本文章;
分別對所述多篇主題詞樣本文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞;
分別計算所述不同粒度的分詞的評分;
根據所述評分超過預定閾值的分詞生成所述預設的主題詞集。

9.  一種搜索處理方法,其特征在于,所述方法包括:
接收包括至少一個關鍵詞的搜索詞;
對所述搜索詞進行自然語言分析,將所述搜索詞切分為不同粒度的分詞;
對切分出的分詞進行篩選,以獲取至少一個主題詞;
根據所述至少一個主題詞獲取多篇文章的信息。

10.  根據權利要求9的所述的方法,其特征在于,所述對切分出的分詞進行篩選,以獲取至少一個主題詞的處理包括:
分別計算切分出的分詞的信息增益評分;
選擇所述信息增益評分超過預定閾值的分詞作為所述至少一個主題詞。

11.  一種用于文章排序的裝置,其特征在于,所述裝置包括:
文章獲取單元,用于獲取關聯的多篇文章;
主題詞提取單元,用于根據預設的主題詞集,分別從所述多篇文章提取主題詞,所述主題詞集包括不同粒度的主題詞;
相關度獲取單元,用于分別將從所述多篇文章提取的主題詞輸入預先訓練的信息排序模型,以分別獲取所述多篇文章的相關度;
文章排序單元,用于根據所述多篇文章的相關度對所述多篇文章進行排序。

12.  根據權利要求11所述的裝置,其特征在于,所述主題詞提取單元包括:
切分子單元,用于對所述多篇文章中的任一篇文章中的語句進行自 然語言分析,將所述語句切分為不同粒度的分詞;
主題詞提取子單元,用于根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇文章中任一篇文章的主題詞。

13.  根據權利要求11所述的裝置,其特征在于,所述裝置還包括:
搜索詞接收單元,用于從客戶端接收包括至少一個關鍵詞的搜索詞;
所述文章獲取單元用于根據所述包括至少一個關鍵詞的搜索詞獲取多篇文章。

14.  根據權利要求13所述的裝置,其特征在于,所述裝置還包括:
文章發送單元,用于將經過排序的所述多篇文章發送給所述客戶端。

15.  一種用于生成信息排序模型的裝置,其特征在于,所述裝置包括:
訓練樣本文章獲取單元,用于獲取已標注相關度屬性的多篇訓練樣本文章;
提取單元,用于根據預設的主題詞集,分別從所述多篇訓練樣本文章提取主題詞,所述主題詞集包括不同粒度的主題詞;
信息排序模型訓練單元,用于根據標注的所述多篇訓練樣本文章以及為其提取的主題詞訓練信息排序模型。

16.  根據權利要求15所述的裝置,其特征在于,所述提取單元包括:
第一切分子單元,用于對所述多篇訓練樣本文章中的任一篇訓練樣本文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞;
提取子單元,用于根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇訓練樣本文章中任一篇訓練樣本文章的主題詞。

17.  根據權利要求15的所述的裝置,其特征在于,所述裝置還包括:
主題詞集構建單元,用于構建所述主題詞集。

18.  根據權利要求17的所述的裝置,其特征在于,所述主題詞集構建單元包括:
主題詞樣本文章獲取子單元,用于獲取多篇主題詞樣本文章;
第二切分子單元,用于分別對所述多篇主題詞樣本文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞;
評分計算子單元,用于分別計算所述不同粒度的分詞的評分;
主題詞集生成子單元,用于根據所述評分超過預定閾值的分詞生成 所述預設的主題詞集。

19.  一種搜索處理裝置,其特征在于,所述裝置包括:
接收單元,用于接收包括至少一個關鍵詞的搜索詞;
切分單元,用于對所述搜索詞進行自然語言分析,將所述搜索詞切分為不同粒度的分詞;
主題詞獲取單元,用于對切分出的分詞進行篩選,以獲取至少一個主題詞;
文章信息獲取單元,用于根據所述至少一個主題詞獲取多篇文章的信息。

20.  根據權利要求19的所述的裝置,其特征在于,所述主題詞獲取單元包括:
計算子單元,用于分別計算切分出的分詞的信息增益評分;
選擇子單元,用于選擇所述信息增益評分超過預定閾值的分詞作為所述至少一個主題詞。

說明書

說明書信息排序方法、用于生成信息排序模型的方法及裝置
技術領域
本發明涉及計算機技術領域,尤其涉及一種信息排序方法、用于生成信息排序模型的方法、搜索處理方法及裝置。
背景技術
隨著互聯網的飛速發展,各種搜索引擎、網站等媒介中充斥著數量巨大的各種文章資源。因此,如何實現對這些文章資源進行合理排序,將用戶最關心的文章資源推薦到用戶界面的最前面,或者如何從這些文章資源中搜索到用戶想要的文章信息,成為一個亟待解決的問題。
現有技術中,在進行文章排序時,由于文檔排序模型過于簡單,且對待排序的文章進行主題詞提取時,提取的主題詞也過于簡單,所以最終得到的文章排序質量不好。而在用戶搜索文章時,由于搜索處理所使用的關鍵詞的質量較差,所以經常出現搜索結果條目覆蓋不全面或者搜索結果條目過多的情況,搜索結果不理想。
發明內容
本發明的目的在于提供一種信息排序方法、用于生成信息排序模型的方法、搜索處理方法及裝置,以通過提取相對優質關鍵詞對文章的排序和搜索進行優化,提高搜索結果的質量。
根據本發明的一方面,本發明提供一種信息排序方法,所述方法包括:獲取關聯的多篇文章;根據預設的主題詞集,分別從所述多篇文章提取主題詞,所述主題詞集包括不同粒度的主題詞;分別將從所述多篇文章提取的主題詞輸入預先訓練的信息排序模型,以分別獲取所述多篇文章的相關度;根據所述多篇文章的相關度對所述多篇文章進行排序。
可選地,所述根據預設的主題詞集,分別從所述多篇文章提取主題詞的處理包括:對所述多篇文章中的任一篇文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞,并且根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇文章中任一篇文章的主題詞。
可選地,所述方法還包括:從客戶端接收包括至少一個關鍵詞的搜索詞;所述獲取關聯的多篇文章的處理包括:根據所述包括至少一個關鍵詞的搜索詞獲取多篇文章。
可選地,所述方法還包括:將經過排序的所述多篇文章發送給所述 客戶端。
根據本發明的另一方面,本發明還提供一種用于生成信息排序模型的方法,所述方法包括:獲取已標注相關度屬性的多篇訓練樣本文章;根據預設的主題詞集,分別從所述多篇訓練樣本文章提取主題詞,所述主題詞集包括不同粒度的主題詞;根據標注的所述多篇訓練樣本文章以及為其提取的主題詞訓練信息排序模型。
可選地,所述根據預設的主題詞集,分別從所述多篇訓練樣本文章提取主題詞的處理包括:對所述多篇訓練樣本文章中的任一篇訓練樣本文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞,并且根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇訓練樣本文章中任一篇訓練樣本文章的主題詞。
可選地,所述方法還包括:構建所述主題詞集。
可選地,所述構建所述主題詞集的處理包括:獲取多篇主題詞樣本文章;分別對所述多篇主題詞樣本文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞;分別計算所述不同粒度的分詞的評分;根據所述評分超過預定閾值的分詞生成所述預設的主題詞集。
根據本發明的另一方面,本發明還提供一種搜索處理方法,所述方法包括:接收包括至少一個關鍵詞的搜索詞;對所述搜索詞進行自然語言分析,將所述搜索詞切分為不同粒度的分詞;對切分出的分詞進行篩選,以獲取至少一個主題詞;根據所述至少一個主題詞獲取多篇文章的信息。
可選地,所述對切分出的分詞進行篩選,以獲取至少一個主題詞的處理包括:分別計算切分出的分詞的信息增益評分;選擇所述信息增益評分超過預定閾值的分詞作為所述至少一個主題詞。
根據本發明的另一方面,本發明還提供一種用于文章排序的裝置,所述裝置包括:文章獲取單元,用于獲取關聯的多篇文章;主題詞提取單元,用于根據預設的主題詞集,分別從所述多篇文章提取主題詞,所述主題詞集包括不同粒度的主題詞;相關度獲取單元,用于分別將從所述多篇文章提取的主題詞輸入預先訓練的信息排序模型,以分別獲取所述多篇文章的相關度;文章排序單元,用于根據所述多篇文章的相關度對所述多篇文章進行排序。
可選地,所述主題詞提取單元包括:切分子單元,用于對所述多篇文章中的任一篇文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞;主題詞提取子單元,用于根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇文章中任一篇文章的主題詞。
可選地,所述裝置還包括:搜索詞接收單元,用于從客戶端接收包括至少一個關鍵詞的搜索詞;所述文章獲取單元用于根據所述包括至少一個關鍵詞的搜索詞獲取多篇文章。
可選地,所述裝置還包括:文章發送單元,用于將經過排序的所述多篇文章發送給所述客戶端。
根據本發明的另一方面,本發明還提供一種用于生成信息排序模型的裝置,所述裝置包括:訓練樣本文章獲取單元,用于獲取已標注相關度屬性的多篇訓練樣本文章;提取單元,用于根據預設的主題詞集,分別從所述多篇訓練樣本文章提取主題詞,所述主題詞集包括不同粒度的主題詞;信息排序模型訓練單元,用于根據標注的所述多篇訓練樣本文章以及為其提取的主題詞訓練信息排序模型。
可選地,所述提取單元包括:第一切分子單元,用于對所述多篇訓練樣本文章中的任一篇訓練樣本文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞;提取子單元,用于根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇訓練樣本文章中任一篇訓練樣本文章的主題詞。
可選地,所述裝置還包括:主題詞集構建單元,用于構建所述主題詞集。
可選地,所述主題詞集構建單元包括:主題詞樣本文章獲取子單元,用于獲取多篇主題詞樣本文章;第二切分子單元,用于分別對所述多篇主題詞樣本文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞;評分計算子單元,用于分別計算所述不同粒度的分詞的評分;主題詞集生成子單元,用于根據所述評分超過預定閾值的分詞生成所述預設的主題詞集。
根據本發明的另一方面,本發明還提供一種搜索處理裝置,所述裝置包括:接收單元,用于接收包括至少一個關鍵詞的搜索詞;切分單元,用于對所述搜索詞進行自然語言分析,將所述搜索詞切分為不同粒度的 分詞;主題詞獲取單元,用于對切分出的分詞進行篩選,以獲取至少一個主題詞;文章信息獲取單元,用于根據所述至少一個主題詞獲取多篇文章的信息。
可選地,所述主題詞獲取單元包括:計算子單元,用于分別計算切分出的分詞的信息增益評分;選擇子單元,用于選擇所述信息增益評分超過預定閾值的分詞作為所述至少一個主題詞。
本發明實施例提供的信息排序方法、用于生成信息排序模型的方法、搜索處理方法及裝置,根據預設的包括不同粒度的主題詞的主題詞集,分別從待排序的多篇文章提取在粒度上優化的主題詞,并且在信息排序模型的訓練以及對多篇文章的排序處理中,使用所述粒度優化的主題詞,改善了文章排序的效果并且提高了搜索質量。
附圖說明
圖1是示出本發明示例性實施例信息排序方法的流程示意圖;
圖2是示出基于搜索詞獲取的多篇文章的頁面示意圖;
圖3是示出本發明示例性實施例用于生成信息排序模型的方法的流程示意圖;
圖4是示出本發明示例性實施例搜索處理方法的流程示意圖;
圖5是示出本發明示例性實施例用于文章排序的裝置的結構示意圖;
圖6是示出本發明示例性實施例用于生成信息排序模型的裝置的結構示意圖;
圖7是示出本發明示例性實施例搜索處理裝置的結構示意圖。
具體實施方式
本發明提出一種在信息的排序處理和用于所述排序的信息排序模型訓練處理中,選取不同粒度的主題詞,根據選取的不同粒度的主題詞來對進行信息排序模型的訓練以及之后對召回文章的優化排序,以得到主題相關性強的排序效果。
下面結合附圖對本發明示例性實施例的信息排序方法、用于生成信息排序模型的方法、搜索處理方法及裝置進行詳細描述。
實施例一
圖1是示出本發明示例性實施例信息排序方法的流程示意圖。
參照圖1,在步驟S110,獲取關聯的多篇文章。
具體地,本步驟中的多篇文章即待排序的多篇文章。
在步驟S120,根據預設的主題詞集,分別從所述多篇文章提取主題詞,所述主題詞集包括不同粒度的主題詞。
可在線下通過以下處理生成所述主題詞集:對多篇主題詞樣本文章中的語句進行自然語言分析(NLP),將所述語句切分為不同粒度的分詞,分別為所述不同粒度的分詞計算評分,如歸一化折扣累積增益(Normalized Discounted Cumulative Gain,簡稱NDCG)或平均準確率(Mean Average Precision,簡稱MAP)評分,并基于所述評分超過預定閾值的分詞生成所述預設的主題詞集。通過對不同粒度的分詞進行評價來選取主題詞,可生成優質的主題詞集。所述主題詞集的生成不是本發明的主要發明點,因此在此不予贅述。
具體地,步驟S120的處理可包括:對所述多篇文章中的任一篇文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞,并且根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇文章中任一篇文章的主題詞。其中,根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇文章中任一篇文章的主題詞的處理可包括:從所述切分出的分詞中檢索出與所述主題詞集包括的不同粒度的分詞相同或相似的分詞作為所述多篇文章中任一篇文章的主題詞。
為方面理解,下面以語句“人民代表大會制度是我國的根本政治制度”為例,對上述獲取主題詞的過程做進一步的說明。首先,將語句“人民代表大會制度是我國的根本政治制度”切分為不同粒度的分詞,如“人民、代表、人民代表、大會、人民代表大會、制度、是、我國、的、根本、政治、制度、政治制度、根本政治制度”。假設主題詞集中包括的分詞有“人民、代表大會、人民代表大會、政治制度”,則篩選出的上述語句的主題詞為“人民、人民代表大會、政治制度”。
由于在主題詞的選取中,從文章提取多個粒度的分詞,并且通過預設的主題詞集對所述分詞進行篩選,因此可獲得質量相對高的主題詞。
在步驟S130,分別將從所述多篇文章提取的主題詞輸入預先訓練的信息排序模型,以分別獲取所述多篇文章的相關度。
稍后將參照圖3詳細描述所述信息排序模型的訓練。
在步驟S140,根據所述多篇文章的相關度對所述多篇文章進行排序。
本發明實施例提供的信息排序方法,根據預設的包括不同粒度的主題詞的主題詞集,分別從待排序的多篇文章提取在粒度上優化的主題詞,并且在信息排序模型的訓練以及對多篇文章的排序處理中,使用所述粒度優化的主題詞,改善了文章排序的效果。
本發明的一個應用場景是對信息搜索結果的排序進行優化。因此,相應地,本發明實施例的信息排序方法還可包括:從客戶端接收包括至少一個關鍵詞的搜索詞。相應地,步驟S110的處理可包括:根據所述包括至少一個關鍵詞的搜索詞獲取多篇文章。此后,所述排序方法還可包括:將經過排序的所述多篇文章發送給所述客戶端。
具體地,上述搜索詞在本發明具體實施中可以是包括文章的時間、地域、屬性和/或媒體類型等信息的關鍵詞。進一步地,基于上述搜索詞獲取多篇文章。當然上述搜索詞在本發明具體實施中并不限于是包括文章的時間、地域、屬性和/或媒體類型等信息的關鍵詞,上述搜索詞還可以是包括其他信息的關鍵詞,例如可以是包括的用戶輸入的關鍵詞。
下面以圖2為例,對根據所述包括至少一個關鍵詞的搜索詞獲取多篇文章加以說明。圖2是示出基于搜索詞獲取的多篇文章的頁面示意圖。具體地,圖2所示為搜索詞時間關鍵詞為“近24小時”,輿情屬性關鍵詞為“全部”,地域關鍵詞為“全國”,媒體類型關鍵詞為“全部”時獲取的多篇文章的頁面示意圖。
具體地,本發明實施例的信息排序方法可應用于任何具有文章推薦的應用程序(Application,簡稱APP)、搜索引擎和網站等,也可應用于一個獨立的模塊或開放平臺的應用程序編程接口(Application Programming Interface,簡稱API)。
實施例二
圖3是示出本發明示例性實施例用于生成信息排序模型的方法的流程示意圖。
參照圖3,在步驟S310,獲取已標注相關度屬性的多篇訓練樣本文章。
具體地,本步驟中的多篇訓練樣本文章的相關度屬性可用數值來標注,也可用預先設置的其他符號來標注所述相關度屬性。
在步驟S320,根據預設的主題詞集,分別從所述多篇訓練樣本文章 提取主題詞,所述主題詞集包括不同粒度的主題詞。
具體地,本步驟中的預設的主題詞集與實施例一種的預設的主題詞集相同。本步驟中從所述多篇訓練樣本文章提取主題詞的處理過程與實施例一中從所述多篇文章提取主題詞的處理過程相同。
與步驟S120對文章內容的處理相似,步驟S320的處理可包括:對所述多篇訓練樣本文章中的任一篇訓練樣本文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞,并且根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇訓練樣本文章中任一篇訓練樣本文章的主題詞。
通過步驟S320的處理,可從訓練樣本文章提取多粒度、質量較高的主題詞,從而后續可以以這些主題詞和標注的所述多篇訓練樣本文章作為訓練特征對信息排序模型進行訓練。
在步驟S330,根據標注的所述多篇訓練樣本文章以及為其提取的主題詞訓練信息排序模型。
具體地,將標注的所述多篇訓練樣本文章作為訓練樣本并且以為其分別提取的主題詞作為訓練特征的值,采用學習排序(Learning To Rank,簡稱LTR)方法訓練所述信息排序模型。
本發明實施例的用于生成信息排序模型的方法,根據預設的包括不同粒度的主題詞的主題詞集,分別從已標注相關度屬性的多篇訓練樣本文章提取在粒度上優化的主題詞,并且在信息排序模型的訓練處理中,使用所述粒度優化的主題詞,提升了所述信息排序模型的質量。
可選地,本發明實施例的用于生成信息排序模型的方法還可包括:構建所述主題詞集。
可選地,本發明實施例的構建所述主題詞集的處理可包括:可在線下通過以下處理生成所述主題詞集:對多篇主題詞樣本文章中的語句進行自然語言分析(NLP),將所述語句切分為不同粒度的分詞,分別為所述不同粒度的分詞計算評分(如NDCG或MAP評分),并基于所述評分超過預定閾值的分詞生成所述預設的主題詞集。通過對不同粒度的分詞進行評價來選取主題詞,可生成優質的主題詞集。
實施例三
圖4是示出本發明示例性實施例搜索處理方法的流程示意圖。
參照圖4,在步驟S410,接收包括至少一個關鍵詞的搜索詞。
在步驟S420,對所述搜索詞進行自然語言分析,將所述搜索詞切分為不同粒度的分詞。
在步驟S430,對切分出的分詞進行篩選,以獲取至少一個主題詞。
具體地,對步驟S420中切分出的分詞進行篩選,將篩選后剩余的分詞作為所述搜索詞的主題詞。
可選地,步驟S430的處理可包括:分別計算切分出的分詞的信息增益評分;選擇所述信息增益評分超過預定閾值的分詞作為所述至少一個主題詞。
在步驟S440,根據所述至少一個主題詞獲取多篇文章的信息。
本發明實施例的搜索處理方法,對包括至少一個關鍵詞的搜索詞進行自然語言分析,將所述搜索詞切分為不同粒度的分詞;對切分出的分詞進行篩選,以獲取至少一個主題詞;根據所述至少一個主題詞獲取多篇文章的信息。由于在上述搜索處理過程中,對所述包括至少一個關鍵詞的搜索詞進行了自然語言分析和篩選處理,所以獲得的主題詞的質量得到了有效的提高,根據所述獲得的主題詞獲取的多篇文章的信息的質量更好,提高了搜索質量。
實施例四
圖5是示出本發明示例性實施例用于文章排序的裝置的結構示意圖。
參照圖5,本發明實施例的用于文章排序的裝置可執行實施例一的信息排序方法。本發明實施例的用于文章排序的裝置可包括:文章獲取單元510、主題詞提取單元520、相關度獲取單元530和文章排序單元540。
文章獲取單元510用于獲取關聯的多篇文章。
主題詞提取單元520用于根據預設的主題詞集,分別從所述多篇文章提取主題詞,所述主題詞集包括不同粒度的主題詞。
相關度獲取單元530用于分別將從所述多篇文章提取的主題詞輸入預先訓練的信息排序模型,以分別獲取所述多篇文章的相關度。
文章排序單元540用于根據所述多篇文章的相關度對所述多篇文章進行排序。
本發明實施例提供的文章的排序裝置,根據預設的包括不同粒度的 主題詞的主題詞集,分別從待排序的多篇文章提取在粒度上優化的主題詞,并且在信息排序模型的訓練以及對多篇文章的排序處理中,使用所述粒度優化的主題詞,改善了文章排序的效果。
可選地,所述主題詞提取單元520可包括:切分子單元,用于對所述多篇文章中的任一篇文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞;主題詞提取子單元,用于根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇文章中任一篇文章的主題詞。
可選地,本發明實施例的用于文章排序的裝置還可包括:搜索詞接收單元,用于從客戶端接收包括至少一個關鍵詞的搜索詞;所述文章獲取單元用于根據所述包括至少一個關鍵詞的搜索詞獲取多篇文章。
可選地,本發明實施例的用于文章排序的裝置還可包括:文章發送單元,用于將經過排序的所述多篇文章發送給所述客戶端。
實施例五
圖6是示出本發明示例性實施例用于生成信息排序模型的裝置的結構示意圖。
參照圖6,本發明實施例的用于生成信息排序模型的裝置可執行實施例二的用于生成信息排序模型的方法,本發明實施例的用于生成信息排序模型的裝置可包括:訓練樣本文章獲取單元610、提取單元620和信息排序模型訓練單元630。
訓練樣本文章獲取單元610用于獲取已標注相關度屬性的多篇訓練樣本文章。
提取單元620用于根據預設的主題詞集,分別從所述多篇訓練樣本文章提取主題詞,所述主題詞集包括不同粒度的主題詞。
信息排序模型訓練單元630用于根據標注的所述多篇訓練樣本文章以及為其提取的主題詞訓練信息排序模型。
本發明實施例的用于生成信息排序模型的裝置,根據預設的包括不同粒度的主題詞的主題詞集,分別從已標注相關度屬性的多篇訓練樣本文章提取在粒度上優化的主題詞,并且在信息排序模型的訓練處理中,使用所述粒度優化的主題詞,提升了所述信息排序模型的質量。
可選地,所述提取單元620可包括:第一切分子單元,用于對所述多篇訓練樣本文章中的任一篇訓練樣本文章中的語句進行自然語言分析, 將所述語句切分為不同粒度的分詞;提取子單元,用于根據所述主題詞集對切分出的分詞進行篩選,以提取所述多篇訓練樣本文章中任一篇訓練樣本文章的主題詞。
可選地,本發明實施例的用于生成信息排序模型的裝置還可包括:主題詞集構建單元,用于構建所述主題詞集。
可選地,所述主題詞集構建單元可包括:主題詞樣本文章獲取子單元,用于獲取多篇主題詞樣本文章;第二切分子單元,用于分別對所述多篇主題詞樣本文章中的語句進行自然語言分析,將所述語句切分為不同粒度的分詞;評分計算子單元,用于分別計算所述不同粒度的分詞評分(如NDCG或MAP評分);主題詞集生成子單元,用于根據所述(NDCG或MAP)評分超過預定閾值的分詞生成所述預設的主題詞集。
實施例六
圖7是示出本發明示例性實施例搜索處理裝置的結構示意圖。
參照圖7,本發明實施例的搜索處理裝置可執行實施例三的搜索處理方法,本發明實施例的搜索處理裝置可包括:接收單元710、切分單元720、主題詞獲取單元730和文章信息獲取單元740。
接收單元710用于接收包括至少一個關鍵詞的搜索詞。
切分單元720用于對所述搜索詞進行自然語言分析,將所述搜索詞切分為不同粒度的分詞。
主題詞獲取單元730用于對切分出的分詞進行篩選,以獲取至少一個主題詞。
文章信息獲取單元740用于根據所述至少一個主題詞獲取多篇文章的信息。
本發明實施例的搜索處理裝置,對包括至少一個關鍵詞的搜索詞進行自然語言分析,將所述搜索詞切分為不同粒度的分詞;對切分出的分詞進行篩選,以獲取至少一個主題詞;根據所述至少一個主題詞獲取多篇文章的信息。由于在上述搜索處理過程中,對所述包括至少一個關鍵詞的搜索詞進行了自然語言分析和篩選處理,所以獲得的主題詞的質量得到了有效的提高,根據所述獲得的主題詞獲取的多篇文章的信息的質量更好,提高了搜索質量。
可選地,所述主題詞獲取單元730可包括:計算子單元,用于分別 計算切分出的分詞的信息增益評分;選擇子單元,用于選擇所述信息增益評分超過預定閾值的分詞作為所述至少一個主題詞。
需要指出,根據實施的需要,可將本申請中描述的各個步驟拆分為更多步驟,也可將兩個或多個步驟或者步驟的部分操作組合成新的步驟,以實現本發明的目的。
上述根據本發明的方法可在硬件、固件中實現,或者被實現為可存儲在記錄介質(諸如CD ROM、RAM、軟盤、硬盤或磁光盤)中的軟件或計算機代碼,或者被實現通過網絡下載的原始存儲在遠程記錄介質或非暫時機器可讀介質中并將被存儲在本地記錄介質中的計算機代碼,從而在此描述的方法可被存儲在使用通用計算機、專用處理器或者可編程或專用硬件(諸如ASIC或FPGA)的記錄介質上的這樣的軟件處理。可以理解,計算機、處理器、微處理器控制器或可編程硬件包括可存儲或接收軟件或計算機代碼的存儲組件(例如,RAM、ROM、閃存等),當所述軟件或計算機代碼被計算機、處理器或硬件訪問且執行時,實現在此描述的處理方法。此外,當通用計算機訪問用于實現在此示出的處理的代碼時,代碼的執行將通用計算機轉換為用于執行在此示出的處理的專用計算機。
以上所述,僅為本發明的具體實施方式,但本發明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護范圍之內。因此,本發明的保護范圍應以所述權利要求的保護范圍為準。

關于本文
本文標題:信息排序方法、用于生成信息排序模型的方法及裝置.pdf
鏈接地址:http://www.wwszu.club/p-6369620.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大