鬼佬大哥大
  • / 6
  • 下載費用:30 金幣  

一種基于多層次的微博查詢擴展方法.pdf

摘要
申請專利號:

CN201510294437.5

申請日:

2015.06.02

公開號:

CN104915405A

公開日:

2015.09.16

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150602|||公開
IPC分類號: G06F17/30; G06F17/27 主分類號: G06F17/30
申請人: 華東師范大學
發明人: 胡琴敏; 陳琴; 賀樑
地址: 200241上海市閔行區東川路500號
優先權:
專利代理機構: 上海藍迪專利事務所31215 代理人: 徐筱梅; 張翔
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510294437.5

授權公告號:

||||||

法律狀態公告日:

2018.10.23|||2015.10.14|||2015.09.16

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種基于多層次的微博查詢擴展方法,其特點是將原微博查詢詞對應的語料庫PRF層和外部源的web層中提取關鍵詞作為候選查詢擴展詞,將候選查詢擴展詞與原始微博查詢語句合并作為標簽集對PRF層中的文檔進行標注,并利用Labeled LDA對標注的PRF文檔進行語義建模,然后將來自不同源的候選查詢擴展詞和微博查詢詞映射到統一的語義層,挖掘出它們潛在的語義,并根據它們之間的語義相似度,過濾掉與微博查詢詞語義無關的候選擴展詞,組成新的微博查詢詞進行更為精準的查詢和檢索。本發明與現有技術相比具有查詢漂移少,檢索效率高,準確性好,尤其將擴展詞進行有效的整合,以達到最優的擴展效果,使查詢結果能符合用戶真實的信息需求。

權利要求書

權利要求書
1.  一種基于多層次的微博查詢擴展方法,其特征在于將原微博查詢詞在其對應的語料庫PRF層和外部源的web層中提取關鍵詞作為候選查詢擴展詞,以候選查詢擴展詞與原微博查詢詞為標簽集對PRF層中的文檔進行標注,利用Labeled LDA對標注的PRF文檔進行語義建模,然后將來自不同源的候選查詢擴展詞和原微博查詢詞映射到統一的語義層,挖掘出它們潛在的語義,并根據它們之間的語義相似度,過濾掉與原微博查詢詞語義無關的候選擴展詞,作為查詢擴展詞添加到原微博查詢詞中組成新微博查詢詞,使用擴展后的新微博查詢詞進行查詢,其查詢結果更能符合用戶的真實信息需求,微博查詢的具體擴展按下述步驟進行: 
(一)、基于PRF層的候選擴展詞提取
將原微博查詢詞在其對應的語料庫中進行初步檢索,并將前K1個檢索結果作為PRF 文檔,利用TFIDF在 PRF 文檔中提取關鍵詞為候選查詢擴展詞,其中:K1 =10~20;
(二)、基于web層的候選擴展詞提取
將原微博查詢詞在外部源的web層中進行檢索,保存前K2個包括標題和片段的檢索結果,從標題和片段中提取TF較高的關鍵詞為候選查詢擴展詞,其中:K2 =10~20;
(三)、統一語義層建模
將PRF層和web層檢索得到的候選查詢擴展詞與原微博查詢詞合并為標簽集對PRF文檔進行標注,并利用Labeled LDA對標注的PRF文檔進行語義建模得到標簽-詞分布,然后根據標簽與候選查詢擴展詞和原微博查詢詞之間的一一對應關系以及標簽-詞分布,得到原微博查詢詞和候選查詢擴展詞關于所有詞的分布表示,從中選取權重最高的n個詞來表示其潛在的語義;其中:n=10~20;
 (四)、候選查詢擴展詞的篩選
根據上述潛在語義的表示采用余弦相似度計算每個候選查詢擴展詞與原微博查詢詞的語義相似度,并設定一個閾值,對候選查詢擴展詞進行過濾,將語義相似度大于閾值的候選查詢擴展詞作為查詢擴展詞添加到原微博查詢詞中組成新微博查詢詞,使用擴展后的新微博查詢詞進行查詢,其查詢結果更能符合用戶的真實信息需求。

說明書

說明書一種基于多層次的微博查詢擴展方法
技術領域
本發明涉及互聯網信息搜索技術領域,尤其是一種基于多層次的微博查詢擴展方法。
背景技術
隨著社交網絡的興起,微博已成為人們分享實時信息的一個重要平臺。面對每天發布涉及各個方面的海量微博,用戶要想找到自己感興趣的內容,通常采用檢索的方式。然而,一方面由于用戶輸入的查詢詞較少,且不夠準確,另一方面由于微博本身有字數限制,文本較短,常常導致查詢結果不符合用戶真實的信息需求。為了解決這一問題,通常在檢索過程中會對用戶查詢進行擴展,用戶查詢的擴展主要分為基于查詢語料庫本身的擴展和基于外部源的擴展兩大類。最常用的基于查詢語料庫本身的擴展方法是偽相關反饋(pseudo relevance feedback),其主要思想是初步檢索后排在前面k個的文檔中含有一些與查詢相關的詞,可以提取出來加入到原始的查詢中,用于下一次查詢。這樣反復迭代多次,得到最終的查詢結果。基于外部源的擴展主要利用相關的一些外部資源來擴充原始的查詢,如web搜索結果和wikipedia語料庫。由于人們經常在web中搜索微博上的一些實時熱點以便進一步了解事件的發展,所以web檢索結果常被用來作微博檢索的查詢擴展。
然而,現有技術的查詢擴展帶來了大量與原始查詢無關的詞,不僅降低檢索效率,也會造成查詢漂移,有損檢索結果的準確性,尤其如何將上述兩種查詢擴展方法產生的擴展詞進行有效的整合,以達到最優的擴展效果,使查詢結果能符合用戶真實的信息需求。
發明內容
本發明的目的是針對現有技術的不足而設計的一種基于多層次的微博查詢擴展方法,分別從PRF層和web層提取關鍵詞作為候選查詢擴展詞,并利用Labeled LDA對原始微博查詢和所有候選查詢擴展詞進行統一語義建模,將它們映射到統一的語義層,對候選查詢擴展詞進行篩選過濾,使得查詢更精煉準確,查詢漂移少,檢索效率高,不依賴于傳統的特征工程和有監督的分類,操作更簡單易行,在Microblog Track 2011-2014中的檢索結果比傳統的查詢擴展更為準確有效,尤其將擴展詞進行有效的整合,以達到最優的擴展效果,使查詢結果能符合用戶真實的信息需求。
本發明的目的是這樣實現的:一種基于多層次的微博查詢擴展方法,其特點是將原微博查詢詞在其對應的語料庫PRF層和外部源的web層中提取關鍵詞作為候選查詢擴展詞,以候選查詢擴展詞與原微博查詢詞為標簽集對PRF層中的文檔進行標注,利用Labeled LDA對標注的PRF文檔進行語義建模,然后將來自不同源的候選查詢擴展詞和原微博查詢詞映射到統一的語義層,挖掘出它們潛在的語義,并根據它們之間的語義相似度,過濾掉與原微博查詢詞語義無關的候選擴展詞,作為查詢擴展詞添加到原微博查詢詞中組成新微博查詢詞,使用擴展后的新微博查詢詞進行查詢,其查詢結果更能符合用戶的真實信息需求,微博查詢的具體擴展按下述步驟進行:
(一)、基于PRF層的候選擴展詞提取
將原微博查詢詞在其對應的語料庫中進行初步檢索,并將前K1個檢索結果作為PRF 文檔,利用TFIDF在 PRF 文檔中提取關鍵詞為候選查詢擴展詞,其中:K1 =10~20。
(二)、基于web層的候選擴展詞提取
將原微博查詢詞在外部源的web層中進行檢索,保存前K2個包括標題和片段的檢索結果,從標題和片段中提取TF較高的關鍵詞為候選查詢擴展詞,其中:K2 =10~20。
(三)、統一語義層建模
將PRF層和web層檢索得到的候選查詢擴展詞與原微博查詢詞合并為標簽集對PRF文檔進行標注,并利用Labeled LDA對標注的PRF文檔進行語義建模得到標簽-詞分布,然后根據標簽與候選查詢擴展詞和原微博查詢詞之間的一一對應關系以及標簽-詞分布,得到原微博查詢詞和候選查詢擴展詞關于所有詞的分布表示,從中選取權重最高的n個詞來表示其潛在的語義;其中:n=10~20。
 (四)、候選查詢擴展詞的篩選
根據上述潛在語義的表示采用余弦相似度計算每個候選查詢擴展詞與原微博查詢詞的語義相似度,并設定一個閾值,對候選查詢擴展詞進行過濾,將語義相似度大于閾值的候選查詢擴展詞作為查詢擴展詞添加到原微博查詢詞中組成新微博查詢詞,使用擴展后的新微博查詢詞進行查詢,其查詢結果更能符合用戶的真實信息需求。
本發明與現有技術相比具有以下優點:
、全面性:查詢擴展詞來自語料庫的PRF層和外部源的web層,分別從語料庫的PRF文檔和web搜索的標題及片段中提取關鍵詞用作查詢擴展,更全面地捕獲了用戶的查詢企圖,有助于更好地理解用戶查詢,緩解短文檔和短查詢之間的不匹配問題。
、精煉性:傳統的查詢擴展依賴于大量的擴展詞來提高最終的檢索性能,事實上其中真正有效的擴展詞只占少數,通過將原始查詢及來自PRF層和web層的所有擴展詞映射到統一的語義層,并根據擴展詞和原始查詢之間的語義相似度,過濾掉語義無關的擴展詞,進一步精化了查詢擴展,減少了因擴展太多造成的查詢漂移。
、簡單性:采用無監督方式進行查詢擴展詞篩選,即將查詢詞(原始的和擴展的)映射到統一語義層,再自動過濾掉語義無關的詞,更簡單易行,不像傳統方法需要依賴標注好的訓練集,通過特征工程找出查詢擴展詞的特征,再進行有監督的分類。
、有效性:在Microblog Track 2011-2014的數據集上都被證明是有效的,查詢經多層次擴展后,檢索的MAP值超過了最新的一些查詢擴展方法。
附圖說明
圖1為本發明操作流程示意圖。
具體實施方式
參閱附圖1,本發明將原微博查詢詞在其對應的語料庫PRF層和外部源的web層中提取關鍵詞作為候選查詢擴展詞,以候選查詢擴展詞與原微博查詢詞為標簽集對PRF層中的文檔進行標注,利用Labeled LDA對標注的PRF文檔進行語義建模,然后將來自不同源的候選查詢擴展詞和原微博查詢詞映射到統一的語義層,挖掘出它們潛在的語義,并根據它們之間的語義相似度,過濾掉與原微博查詢詞語義無關的候選擴展詞,作為查詢擴展詞添加到原微博查詢詞中組成新微博查詢詞,使用擴展后的新微博查詢詞進行查詢,其查詢結果更能符合用戶的真實信息需求,微博查詢的具體擴展按下述步驟進行:
(一)、基于PRF層的候選擴展詞提取
將原微博查詢詞在其對應的語料庫中進行初步檢索,并將前K1個檢索結果作為PRF 文檔,利用TFIDF在 PRF 文檔中提取關鍵詞為候選查詢擴展詞,其中:K1 =10~20。
(二)、基于web層的候選擴展詞提取
將原微博查詢詞在外部源的web層中進行檢索,保存前K2個包括標題和片段的檢索結果,從標題和片段中提取TF較高的關鍵詞為候選查詢擴展詞,其中:K2 =10~20。
(三)、統一語義層建模
將PRF層和web層檢索得到的候選查詢擴展詞與原微博查詢詞合并為標簽集對PRF文檔進行標注,并利用Labeled LDA對標注的PRF文檔進行語義建模得到標簽-詞分布,然后根據標簽與候選查詢擴展詞和原微博查詢詞之間的一一對應關系以及標簽-詞分布,得到原微博查詢詞和候選查詢擴展詞關于所有詞的分布表示,從中選取權重最高的n個詞來表示其潛在的語義;其中:n=10~20。
 (四)、候選查詢擴展詞的篩選
根據上述潛在語義的表示采用余弦相似度計算每個候選查詢擴展詞與原微博查詢詞的語義相似度,并設定一個閾值,對候選查詢擴展詞進行過濾,將語義相似度大于閾值的候選查詢擴展詞作為查詢擴展詞添加到原微博查詢詞中組成新微博查詢詞,使用擴展后的新微博查詢詞進行查詢,其查詢結果更能符合和滿足用戶的真實信息需求。
以上只是對本發明作進一步的說明,并非用以限制本專利,凡為本發明等效實施,均應包含于本專利的權利要求范圍之內。

關 鍵 詞:
一種 基于 多層次 查詢 擴展 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種基于多層次的微博查詢擴展方法.pdf
鏈接地址:http://www.wwszu.club/p-6373491.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大