鬼佬大哥大
  • / 13
  • 下載費用:30 金幣  

基于網頁鏈接分析和支持向量機的網頁文本分類算法研究.pdf

摘要
申請專利號:

CN201510287308.3

申請日:

2015.05.29

公開號:

CN105205090A

公開日:

2015.12.30

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/30申請日:20150529|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 湖南大學
發明人: 王冰; 陳浩
地址: 410012 湖南省長沙市岳麓區麓山南路麓山門
優先權:
專利代理機構: 北京科億知識產權代理事務所(普通合伙) 11350 代理人: 湯東鳳
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510287308.3

授權公告號:

|||

法律狀態公告日:

2016.01.27|||2015.12.30

法律狀態類型:

實質審查的生效|||公開

摘要

本發明公開了基于網頁鏈接分析和支持向量機的網頁文本分類算法研究,它涉及網頁分類技術領域,它的具體步驟為:(一)把大量網頁分為訓練集和測試集兩部分;(二)對網頁(包括訓練集和測試集)進行預處理;(三)計算訓練集中每個網頁內特征詞的詞頻;(四)計算出訓練集中每個網頁內特征詞的權重;(五)計算測試集中每個類的特征向量;(六)計算訓練集中每個網頁的文本特征向量;(七)確定相似度最小值為閥值;(八)最大程度減少特征詞的數量;(九)對測試集網頁的文本特征向量進行分類;(十)同時計算測試網頁分類后與此類特征向量的相似度。它利用空間向量模型和支持向量機的方法,具有分類時間短,召回率高,內存需求少,學習速度快的特點。

權利要求書

權利要求書
1.  基于網頁鏈接分析和支持向量機的網頁文本分類算法研究,其特征在于:它的具體步驟為:
(一)、把大量網頁分為訓練集和測試集兩部分,一般要求訓練接總網頁數的40%左右,測試集取剩下的部分;
(二)、對網頁(包括訓練集和測試集)進行預處理,主要是對網頁進行分詞,將網頁內的文本切割為單個的詞語,去除網頁中對分類無關的噪音信息,去除停用詞等;
(三)、結合特征詞(網頁內所有能表示網頁內容的詞)的位置特征,計算訓練集中每個網頁內特征詞的詞頻;
(四)、結合特征詞的在網頁文本中的位置分布,計算出訓練集中每個網頁內特征詞的權重(通過TF-IDF函數);
(五)、根據每個類中各網頁的文本特征向量,計算測試集中每個類的特征向量;
(六)、結合每個網頁內特征詞的權重,計算訓練集中每個網頁的文本特征向量;
(七)、計算各類中每個網頁與類的特征向量的文本相似度(采用余弦夾角公式),確定相似度最小值為閥值;
(八)、通過閥值確定最大TF-IDF值,最大程度減少特征詞的數量;
(九)、通過支持向量機訓練出初始分類器,對測試集網頁的文本特征向量進行分類;
(十)、同時計算測試網頁分類后與此類特征向量的相似度,若相似度大于閥值,則不需改變分類器,若相似度小于閥值,則重新確定特征詞和特征向量,獲得新的支持向量分類器,返回步驟(九)。

2.  根據權利要求1所述的基于網頁鏈接分析和支持向量機的網頁文 本分類算法研究,其特征在于:本發明由于網頁的半結構化,不同位置的信息對網頁信息的描述能力存在差異,故將分別根據網頁中的標題,超鏈接文本,具有強調標記和網頁正文中的特征詞的詞頻給予不同的權重,分別進行加權,特征詞的詞頻計算如下:
tf=Σn=14a*tfn]]>
其中,a為不同位置的系數,tfn指對應位置的詞頻

采用基于TF-IDF特征向量的文本相似度,文檔dj和文檔dk的主題相關度表示為:
sim(dj,dk)=dj*dk|dj|×|dk|=Σi=1nwji×wkiΣi=1nw2ji×Σi=1nw2ki]]>

說明書

說明書基于網頁鏈接分析和支持向量機的網頁文本分類算法研究
技術領域:
本發明涉及基于網頁鏈接分析和支持向量機的網頁文本分類算法研究,屬于網頁分類技術領域。
背景技術:
隨著計算機與通訊技術的快速發展,互聯網迅速普及應用,網絡上的網頁正以幾何級數的速度增長。面對這些爆炸式增長的海量網絡信息,如何從中快速、有效地獲得有用的、感興趣的信息變得越來越重要。因此,有效地組織和管理網頁資源,縮短用戶獲取所需信息的時間,成為了目前急需解決的問題。網頁分類技術應運而生,并逐漸成為繼文本分類之后機器學習領域的研究熱點。
傳統上的網頁分類是先由人工判斷類別,即在分析網頁的內容之后,人工手動選擇一個合適的類別。但是,這種人工分類的做法存在著許多缺點:一是在網頁文本數量急劇增長的情況下,用人工分類方法來進行分類變得不切實際,需要耗費大量的人力資源;二是人工對網頁文本進行分類無法保證較高的分類準確率,主要是由于每個人的經驗知識等主觀因素不同,分類結果可能會出現不一致的情況。因此,急需一種有效的方法對網頁文本進行管理,由此網頁文本自動分類技術開始顯示出其優越性。
網頁文本自動分類技術來源于文本自動分類技術,其目標和文本分類技術一致,即在預先定義的網頁分類體系下,把待分類的網頁準確歸屬到一個或多個相應的類別。常用的網頁文本分類算法有以下幾種:KNN算法、算法、支持向量機(SVM)、遺傳算法(GA)、Rocchio算法等。這些網頁文本自動分類技術仍然存在著許多問題,如網頁文本特征空間的維數過高,導致存儲空間大,分類速度慢;網頁中包含有大量網站標記、廣告等噪聲信息,嚴重干擾了對網頁類別的確定,從而降低了分類的準確率;同時網頁中不同位置的信息表達網頁的能力不同,對分類的準確性有一定的影響。因此,迫切需要找到一種有效的網頁文本分類技術,來減少分類的時間,并提高分類的準確率。
發明內容:
針對上述問題,本發明要解決的技術問題是提供基于網頁鏈接分析和支持向量機的網頁文本分類算法研究。
本發明的基于網頁鏈接分析和支持向量機的網頁文本分類算法研究,它的具體步驟為:一、把大量網頁分為訓練集和測試集兩部分,一般要求訓練接總網頁數的40%左右,測試集取剩下的部分;二、對網頁(包括訓練集和測試集)進行預處理,主要是對網頁進行分詞,將網頁內的文本切割為單個的詞語,去除網頁中對分類無關的噪音信息,去除停用詞等;三、結合特征詞(網頁內所有能表示網頁內容的詞)的位置特征,計算訓練集中每個網頁內特征詞的詞頻;四、結合特征詞的在網頁文本中的位置分布,計算出訓練集中每個網頁內特征詞的權重(通過TF-IDF函數);五、根據每個類中各網頁的文本特征向量,計算測試集中每個類的特征向量;六、結合每個網頁內特征詞的權重,計算訓練集中每個網頁的文本特征向量;七、計算各類中每個網頁與類的特征向量的文本相似度(采用余弦夾角公式),確定相似度最小值為閥值;八、通過閥值確定最大TF-IDF值,最大程度減少特征詞的數量;九、通過支持向量機訓練出初始分類器,對測試集網頁的文本特征向量進行分類;十、同時計算測試網頁分類后與此類特征向量的相似度,若相似度大于閥值,則不需改變分類器,若相似度小于閥值,則重新確定特征詞和特征向量,獲得新的支持向量分類器,返回步驟九。
作為優選,本發明由于網頁的半結構化,不同位置的信息對網頁信息的描述能力存在差異,故將分別根據網頁中的標題,超鏈接文本,具有強調標記和網頁正文中的特征詞的詞頻給予不同的權重,分別進行加權,特征詞的詞頻計算如下:
tf=Σn=14a*tfn]]>
其中,a為不同位置的系數,tfn指對應位置的詞頻

采用基于TF-IDF特征向量的文本相似度,文檔dj和文檔dk的主題相關度表示為:
sim(dj,dk)=dj*dk|dj|×|dk|=Σi=1nwji×wkiΣi=1nw2ji×Σi=1nw2ki]]>
本發明的有益效果為:它利用空間向量模型和支持向量機的方法,具有分類時間短,召回率高,內存需求少,學習速度快的特點。
附圖說明:
為了易于說明,本發明由下述的具體實施及附圖作以詳細描述。
圖1為本發明中web文本分類系統的結構框圖,
圖2為本發明實施例中改進前的SVM分類結果表示意圖,
圖3為本發明實施例中改進后的文本分類結果表示意圖,
圖4為本發明中實施例的兩種分類方法的準確率曲線圖,
圖5為本發明中實施例的兩種分類方法召回率曲線圖,
圖6為本發明中實施例的兩種分類方法的F-measure曲線圖,
圖7為本發明實施例中召回率對比曲線圖,
圖8為本發明實施例中準確率對比曲線圖,
圖9為本發明實施例中F值的對比曲線圖。
具體實施方式:
為使本發明的目的、技術方案和優點更加清楚明了,下面通過附圖中示出的具體實施例來描述本發明。但是應該理解,這些描述只是示例性的,而并非要限制本發明的范圍。此外,在以下說明中,省略了對公知結構和技術的描述,以避免不必要地混淆本發明的概念。
如圖1所示,本具體實施方式采用以下技術方案:它的具體步驟為:一、把大量網頁分為訓練集和測試集兩部分,一般要求訓練接總網頁數的40%左右,測試集取剩下的部分;二、對網頁(包括訓練集和測試集)進行預處理,主要是對網頁進行分詞,將網頁內的文本切割為單個的詞語,去除網頁中對分類無關的噪音信息,去除停用詞等;三、結合特征詞(網頁內所有能表示網頁內容的詞)的位置特征,計算訓練集中每個網頁內特征詞的詞頻;四、結合特征詞的在網頁文本中的位置分布,計算出訓練集中每個網頁內特征詞的權重(通過TF-IDF函數);五、根據每個類中 各網頁的文本特征向量,計算測試集中每個類的特征向量;六、結合每個網頁內特征詞的權重,計算訓練集中每個網頁的文本特征向量;七、計算各類中每個網頁與類的特征向量的文本相似度(采用余弦夾角公式),確定相似度最小值為閥值;八、通過閥值確定最大TF-IDF值,最大程度減少特征詞的數量;九、通過支持向量機訓練出初始分類器,對測試集網頁的文本特征向量進行分類;十、同時計算測試網頁分類后與此類特征向量的相似度,若相似度大于閥值,則不需改變分類器,若相似度小于閥值,則重新確定特征詞和特征向量,獲得新的支持向量分類器,返回步驟九。
進一步的,本發明由于網頁的半結構化,不同位置的信息對網頁信息的描述能力存在差異,故將分別根據網頁中的標題,超鏈接文本,具有強調標記和網頁正文中的特征詞的詞頻給予不同的權重,分別進行加權,特征詞的詞頻計算如下:
tf=Σn=14a*tfn]]>
其中,a為不同位置的系數,tfn指對應位置的詞頻

采用基于TF-IDF特征向量的文本相似度,文檔dj和文檔dk的主題相關度表示為:
sim(dj,dk)=dj*dk|dj|×|dk|=Σi=1nwji×wkiΣi=1nw2ji×Σi=1nw2ki]]>
實施例:
按照本發明提出的基于文本相似度反饋的支持向量機主題分類方法的具體實施如下:采用mmseg4j分詞系統,SVM模型的訓練和測試是用R軟件的e1071包進行開發實現的。核函數采用RBF(RadialBasisFunction)。從長沙懂味網的網頁并作分類,其中美食類作為專業分類,將湘菜,農家菜,家常菜,火鍋,川菜,廣東菜,小吃,海鮮,私房菜作為9小類,將其中5000個作為網頁作為訓練集,將11500個網頁文本作為測試集。對網頁進行預處理,主要是對網頁進行分詞,去 除網頁中對分類無關的噪音信息,去除停用詞等。例如,網頁正文內容為“這是一道湘菜”,經過分詞后得到的結果是“這是一道湘菜”這樣一系列的詞組,再經過除噪音和通用詞后得到的結果是“湘菜”。再通過引入搜狗實驗室的常用餐飲詞匯、中國南北大菜-菜名大全、八大菜系菜單列表、飲食大全等語料庫,有效的減少了經典菜名被分詞系統分開的現象。結合特征詞的位置特征,計算訓練集中每個網頁內特征詞的詞頻。統計訓練集內每個網頁內特征詞在該網頁內出現的次數,如果該特征詞出現在錨文本中,則在計算出的次數上乘以2;如果該特征詞在<title></title>、<H1></H1>、<H2></H2>和<strong></strong>處,則在計算出的次數上乘以1.5,如果該特征詞處于正文文本處,則在計算出的次數上乘以1,如果該特征詞在其它地方出現,則在計算出的次數上乘以0.5。選取訓練集中每個網頁內特征詞權重最高的前n個特征詞及其權重作為構成該網頁的文本特征向量,合并某一類的中所有的網頁文本特征向量,并按照權重從大到小排列,選取前n個特征詞及其權重構成該類的特征向量。當得到所有類的特征向量時,開始求得閥值并訓練分類器。
本實施例的分類效果結果表如圖2-3所述,分類正確的網頁個數總體上較多,但是也存在像廣東菜等這樣正確分類數目偏低的類別。這是由于這些類別和其他類別之間包含相同的特征詞太多造成的,即這些不同類別的分類界限模糊造成的。為了驗證本發明的準確性,分別采用傳統的SVM算法與本發明對比,本發明采用正確率和召回率評價網頁分類的性能。查全率(Recall)R衡量的是所有實際屬于類別C的文本被分類器分到該類別中的比率;查準率(Precision)P衡量的是所有被分類器分為類別C的文本中正確文本的比率。
R=TPTP+FNP=TPTP+FP]]>
其中,TP指的是被分類器正確分到類別C的網頁本數;FN指的是實際屬于類別C,但分類器沒有將其正確分到類別C的網頁文本數;FP指的是實際不屬于類別C卻被分類器錯誤的分到類別C的網頁文本數。查全率和查準率是兩個互相矛盾的衡量指標。一般情況下,查全率會隨著查準率地升高而降低,兩者不可兼得。所以很多情況下要將它們綜合在一起考慮。最常用的綜合方法就是F-測量(F-Measure), 定義如式
F=(β2+1)*PRβ2P+R]]>
其中β是一個調整參數,用于以不同權重綜合查全率和查準率。當β=1時,查全率和查準率被平等的對待,F-測量(F-Measure)又被稱作為F1指標,F1定義為P和R的調和平均數。
2F1=1P+1R]]>
如圖4-6所示,通過改進的空間向量模型反饋的支持向量機算法進行分類,在分類精確率和召回率上都優于直接使用支持向量機的多類分類方法,同時該方法通過改進的空間向量模型,有效的減少了特征向量SV的數量,減少了計算,提高了分類效率。
如圖7-9所示,本具體實施方式為了驗證算法的有效性,分別采用未考慮鏈接網頁內容的算法與本算法對比,本發明采用正確率和召回率評價網頁分類的性能。
以上顯示和描述了本發明的基本原理和主要特征和本發明的優點。本行業的技術人員應該了解,本發明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本發明的原理,在不脫離本發明精神和范圍的前提下,本發明還會有各種變化和改進,這些變化和改進都落入要求保護的本發明范圍內。本發明要求保護范圍由所附的權利要求書及其等效物界定。

關 鍵 詞:
基于 網頁 鏈接 分析 支持 向量 文本 分類 算法 研究
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:基于網頁鏈接分析和支持向量機的網頁文本分類算法研究.pdf
鏈接地址:http://www.wwszu.club/p-6405720.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大