鬼佬大哥大
  • / 8
  • 下載費用:30 金幣  

一種基于譜聚類和眾包技術的圖書標簽推薦方法.pdf

摘要
申請專利號:

CN201510270676.7

申請日:

2015.05.26

公開號:

CN104915388A

公開日:

2015.09.16

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150526|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 浙江大學
發明人: 張寅; 魏寶剛; 尹彥飛
地址: 310058浙江省杭州市西湖區余杭塘路866號
優先權: 2015101072904 2015.03.11 CN
專利代理機構: 杭州求是專利事務所有限公司33200 代理人: 邱啟旺
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510270676.7

授權公告號:

||||||

法律狀態公告日:

2018.03.16|||2015.10.14|||2015.09.16

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種基于譜聚類和眾包技術的圖書標簽推薦方法,該方法應用于數字圖書館系統,通過使用用戶的檢索點擊日志構建Laplacian矩陣,并利用譜聚類對檢索詞進行聚類,之后通過使用眾包技術,對聚類的結果進行持續的優化,最后將優化的結果應用于推薦系統中。本發明將用戶的檢索詞作為標簽,通過譜聚類和眾包技術的結合提升檢索詞聚類的準確度,從而提高系統在標簽推薦方面的準確性。

權利要求書

權利要求書
1.  一種基于譜聚類和眾包技術的圖書標簽推薦方法,其特征在于,包括以下步驟:
(1)從日志收集系統或者Web日志中篩選出用戶的檢索數據和檢索點擊數據;
(2)利用用戶的檢索數據和檢索點擊數據,構建檢索詞-圖書矩陣,根據檢索詞-圖書矩陣得到檢索詞-檢索詞的Laplacian矩陣;
(3)使用譜聚類對Laplacian矩陣進行聚類操作,得到檢索詞的聚類結果;
(4)利用眾包技術對步驟3所得到的聚類結果進行持續的優化;
(5)將用戶過去的檢索記錄與步驟4優化后的聚類結果進行映射,利用映射后的聚類結構作為標簽推薦給用戶。

2.  根據權利要求1所述一種基于譜聚類和眾包技術的圖書標簽推薦方法,其特征在于,所述步驟2具體為:從用戶的檢索數據中得到所有用戶的檢索詞集合Q={q1,q2,…,qn},其中n為檢索詞的總數,q為獨立檢索詞;從用戶的檢索點擊數據中得到檢索詞點擊的圖書集合B={b1,b2,…,bm},其中m為點擊圖書的總數,b為獨立的圖書;根據所有用戶的檢索詞集合Q和檢索詞點擊的圖書集合B得到檢索詞-圖書矩陣M,對于檢索詞-圖書矩陣M的每一項,定義如下:

其中Iij為第i個檢索詞和第j本書的對應關系;針對每一本圖書,如果有多個檢索詞均對這本書存在點擊行為,那么這些檢索詞之間存在聯系,根據檢索詞之間的聯系構建檢索詞-檢索詞矩陣D,對于檢索詞-檢索詞矩陣D的每一項,如果兩個檢索詞之間存在聯系則為1,否則為0;通過把檢索詞-檢索詞矩陣D的每一列元素相加得到的值置于對角線上,其它位置設為0,從而構成新的矩陣W;Laplacian矩陣L通過公式L=D-W求出。

3.  根據權利要求1所述一種基于譜聚類和眾包技術的圖書標簽推薦方法,其特征在于,所述步驟3具體為:對于譜聚類算法,選定的目標函數RatioCut為:
RatioCut(Ai,...,Ak)=12Σi=1kW(Ai,Ai‾)|Ai|=Σi=1kcut(Ai,Ai‾)|Ai|]]>
其中k為聚類的個數,Ai表示第i個聚類結果,|Ai|表示第i個聚類結果中的檢索詞數量,表示除去Ai之外的其它聚類結果集合,表示第i個聚類結果與其他聚類結果的權重之和,的計算公式為其中W(a,b)為聚類結果a與聚類結果b的權重;根據Laplacian矩陣L的性質推出最小化目標函數RatioCut等價于最小 化Laplacian矩陣,從而使用SVD矩陣分解的方法實現對Laplacian矩陣的降維,使用K-mean聚類算法完成對降維后的Laplacian矩陣的聚類操作。

4.  根據權利要求1所述一種基于譜聚類和眾包技術的圖書標簽推薦方法,其特征在于,所述步驟4具體為:將步驟3得到的檢索詞的聚類結果中檢索詞對應的用戶作為眾包的選定用戶,通過發送郵件的方式將聚類的結果發送給選定用戶,選定用戶的反饋定義為:

其中,Query表示一個檢索詞,正反饋表示用戶認為該檢索詞符合所在聚類結果的主題,負反饋表示用戶認為該檢索詞不符合聚類結果的主題,零反饋表示該檢索詞難以判斷是否符合主題;根據選定用戶對一個聚類結果的反饋信息,對該聚類結果進行以下三種不同方式的處理:
(a)選定用戶的反饋信息表明該聚類可以很好的表明某一個主題,其具體體現在兩個方面:一方面是負反饋結果少于正反饋結果,另一方面是用戶的反饋信息不存在彼此矛盾的情況;在這種情況下,刪除聚類結果中的負反饋,保留正反饋和零反饋的檢索詞;
(b)選定用戶的反饋信息混亂,難以表明該聚類效果的優劣,其具體表現為多名用戶對相同檢索詞的反饋信息不同甚至相反;該種情況下,意味著當前選定用戶的反饋信息尚不足以對該聚類進行判斷,因而需要引入新的用戶,重新眾包任務分發操作;
(c)選定用戶的反饋信息表明該聚類不具有明確的主題,具體表現為在選定用戶的反饋中超過50%的檢索詞的反饋信息不同或相反;在這種情況下,直接將該聚類結果刪除。

關 鍵 詞:
一種 基于 譜聚類 技術 圖書 標簽 推薦 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種基于譜聚類和眾包技術的圖書標簽推薦方法.pdf
鏈接地址:http://www.wwszu.club/p-6373501.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大