鬼佬大哥大
  • / 9
  • 下載費用:30 金幣  

一種數字化資源個性化推薦方法.pdf

摘要
申請專利號:

CN201510408131.8

申請日:

2015.07.10

公開號:

CN105045864A

公開日:

2015.11.11

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/30申請日:20150710|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 浙江工商大學
發明人: 謝波; 姜波; 劉洋
地址: 310018浙江省杭州市下沙高教園區學正街18號
優先權:
專利代理機構: 杭州求是專利事務所有限公司33200 代理人: 邱啟旺
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510408131.8

授權公告號:

|||

法律狀態公告日:

2015.12.09|||2015.11.11

法律狀態類型:

實質審查的生效|||公開

摘要

本發明公開了一種數字化資源個性化推薦方法,通過腳本獲取用戶瀏覽數字化資源歷史記錄,對其進行分析,結合頁面標簽,產生推薦結果進行個性化推薦。手工為頁面標注標簽,形成標簽庫;對于未標注頁面,進行頁面相似度匹配,在已標注頁面中找出最相似頁面,將該頁面標簽賦予未標注頁面;統計用戶歷史記錄計算標簽訪問頻次,對用戶進行個性化推薦。本發明采用人工標注的方式為頁面標注標簽,通過頁面相似度匹配自動為未標注頁面標注標簽,生成的頁面標簽更能夠體現頁面內容,更能夠體現用戶的潛在興趣;用戶訪問網站已存在于網絡中,資源更加豐富和多樣,因此,本發明具有推薦精確和多樣的特點,更能體現出用戶的個性化。

權利要求書

1.一種數字化資源個性化推薦方法,其特征在于,包括以下步驟:
(1)標注標簽,獲取指定網站的網站地圖,分析地圖文件獲得頁面URL,為每個URL標
注標簽,具體包括以下子步驟:
(1.1)在獲取網站全部頁面URL后,去掉無效頁面,比如腳本文件URL,樣式表文件URL
以及一些錯誤頁面;
(1.2)采用手工的方式為每個URL標注至多10個最能代表頁面內容的標簽,保存在數
據庫中,生成網頁標簽表;
(2)數據獲取,通過腳本獲取用戶瀏覽網站的訪問記錄,具體包括以下子步驟:
(2.1)用戶設置瀏覽器代理,通過代理服務器訪問網站;
(2.2)代理服務器根據預先設置的規則文件,在符合規則的頁面中嵌入腳本,腳本在每
次用戶瀏覽頁面時,將用戶ID,頁面URL、頁面標題、頁面訪問時間、上一跳地址返回給服
務器,保存在數據庫中,生成訪問記錄表;
(3)頁面相似度匹配,若用戶當前訪問頁面不在網頁標簽表中,從網頁標簽表中獲取與
當前用戶訪問頁面最相似的頁面,具體包括以下子步驟:
(3.1)網頁關鍵字提取,獲取當前訪問頁面內容,去掉HTML標簽,獲得頁面中純文本
內容;利用中文分詞工具,去掉嘆詞、副詞、形容詞、介詞等無意義的詞,得到n個有效詞
(w1,w2,...,wk,...,wn),統計每個有效詞wk在該網頁中出現的次數用每個有效詞出現的
次數除以有效詞數n,得到每個有效詞在網頁中出現的詞頻數掃描網頁標簽表
中所有m個頁面,分別統計包含有效詞wk的網頁數用網站網頁總數m除以包含該詞的
網頁數,得到包含有效詞wk的網頁占網頁總數的反比例取用TF與IDF
的乘積相乘得到有效詞wk的TF‐IDF,即按照這個過程,得到n個
有效詞的TF‐IDF,將這些有效詞的TF‐IDF按照降序排列,按順序取前p個作為本頁面的關鍵
字;
(3.2)從網頁標簽表中m個網頁中取出一個頁面,按照步驟(3.1)獲取頁面的p個關
鍵字,將兩個頁面的關鍵字合并為一個集合(t1,t2,...tk,...tr),其中p≤r≤2p,計算集合中關鍵
字tk在兩個頁面中的詞頻數進一步將每個關鍵字詞頻除以所有關鍵字總的詞頻數,即
獲得每個關鍵字的相對詞頻
(3.3)根據步驟(3.2)計算得出的相對詞頻,得到兩個頁面的詞頻分量
計算兩個分量的余弦相似度;
(3.4)依次計算當前訪問頁面和網頁標簽表中所有頁面的余弦相似度,余弦相似度最大,
即為當前訪問頁面最相似頁面;
(4)個性化推薦,結合網頁標簽表和訪問記錄表,統計該用戶訪問過的s個標簽
(l1,l2,...lk,...ls)以及每個標簽的訪問頻次將每個標簽訪問除以所有標簽
總的訪問頻次,即得到每個標簽的相對訪問頻次;根據相對訪問頻次按照降序排
列,計算包含標簽lk的頁面的訪問次數,按照降序排列,生成基于標簽lk的推薦列表,合并s
個標簽生成的推薦列表,將最終推薦結果推薦給用戶。
2.根據權利要求1所述的一種數字化資源個性化推薦方法,其特征在于,步驟(2)
生成的訪問記錄表,用戶所訪問網站是互聯網已存在的,通過用戶設置代理的方式,代理服
務器會將預先設置的腳本嵌入在符合規則的網頁中,腳本獲取用戶在該網站上的訪問記錄并
將其返回到服務器,保存在數據庫中;步驟(1)中生成的網頁標簽表,統計網頁標簽表可以
獲得該領域的標簽庫,在之后訪問未標注頁面時,選取最相似頁面的標簽作為該頁面的標簽,
結合步驟(2)生成的訪問記錄表和網頁標簽表,用戶訪問的頁面都已標注標簽。

關 鍵 詞:
一種 數字化 資源 個性化 推薦 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種數字化資源個性化推薦方法.pdf
鏈接地址:http://www.wwszu.club/p-6401415.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大