鬼佬大哥大
  • / 11
  • 下載費用:30 金幣  

一種網站鏡像的檢測方法及裝置.pdf

摘要
申請專利號:

CN201510547203.7

申請日:

2015.08.31

公開號:

CN105069169A

公開日:

2015.11.18

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150831|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 國家計算機網絡與信息安全管理中心
發明人: 易立; 杜翠蘭; 鈕艷; 項菲; 劉曉輝; 李鵬霄; 劉洋; 任彥; 郭晶
地址: 100029北京市朝陽區裕民路甲3號
優先權:
專利代理機構: 工業和信息化部電子專利中心11010 代理人: 梁軍
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510547203.7

授權公告號:

||||||

法律狀態公告日:

2019.03.05|||2015.12.16|||2015.11.18

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明提出了一種網站鏡像的檢測方法及裝置。所述檢測方法包括:計算待檢測網站的標題信息與原始網站的標題信息的相似度,若所述相似度超過設定閾值,則所述待檢測網站為疑似網站;比對所述疑似網站的網頁結構中的可視化元素和所述原始網站的網頁結構中的可視化元素,若滿足預設條件,則判定所述疑似網站為鏡像網站,在保證檢測準確性的同時,提高網站鏡像檢測的效率。

權利要求書

1.一種網站鏡像的檢測方法,其特征在于,包括:計算待檢測網站的標題信息與原始網站的標題信息的相似度,若所述相似度超過設定閾值,則所述待檢測網站為疑似網站;比對所述疑似網站的網頁結構中的可視化元素和所述原始網站的網頁結構中的可視化元素,若滿足預設條件,則判定所述疑似網站為鏡像網站。2.根據權利要求1所述的檢測方法,其特征在于,所述計算待檢測網站的標題信息與原始網站的標題信息的相似度,若所述相似度超過設定閾值,則所述待檢測網站為疑似網站之前,所述方法還包括:加載待檢測網站的網頁內容;從待檢測網站的網頁內容中提取標題。3.根據權利要求2所述的檢測方法,其特征在于,所述計算待檢測網站的標題信息與所述原始網站的標題信息的相似度,具體包括:將待檢測網站的標題和原始網站的標題分別進行中英文分詞;提取待檢測網站的標題和原始網站的標題中的中英文單詞,分別建立待檢測索引和原始索引;分別比對所述待檢測索引中的單詞和所述原始索引中的單詞,以計算待檢測網站的標題信息與所述原始網站的標題信息的相似度。4.根據權利要求1至3中任一項所述的檢測方法,其特征在于,比對所述疑似網站的網頁結構中的可視化元素和所述原始網站的網頁結構中的可視化元素,若滿足預設條件,則判定所述疑似網站為鏡像網站之前,所述方法還包括:篩選所述疑似網站中疑似網頁的文檔對象模型DOM樹節點,保留反映DOM樹形結構的關鍵節點,篩選所述原始網站中原始網頁的文檔對象模型DOM樹節點,保留反映DOM樹形結構的原始節點;在所述關鍵節點和原始節點上分別附加位置屬性,構建疑似網頁的可視化元素樹和原始網頁的可視化元素樹。5.根據權利要求4所述的檢測方法,其特征在于,所述篩選所述疑似網站中疑似網頁的文檔對象模型DOM樹節點,保留反映DOM樹形結構的關鍵節點,具體包括:確定所述疑似網頁的視覺邊界;刪除分隔欄;刪除節點面積小于設定下限值的關鍵節點;刪除節點面積小于閾值的關鍵節點所包含的所有子節點,以歸并零碎區域;刪除節點面積大于設定上限值并且包含所有子節點的關鍵節點。6.根據權利要求4所述的檢測方法,其特征在于,所述位置屬性包括位置四元組:關鍵節點或者原始節點顯示的矩形區域的左上角頂點對應地與疑似網頁或者原始網頁的頁面上邊緣的像素距離為頂坐標top、關鍵節點或者原始節點顯示的矩形區域的左上角頂點對應地與疑似網頁或者原始網頁的頁面左邊緣的像素距離為左坐標left、關鍵節點或者原始節點顯示的矩形區域的像素高度height以及關鍵節點或者原始節點顯示的矩形區域的像素寬度width。7.根據權利要求6所述的檢測方法,其特征在于,所述比對所述疑似網站的網頁結構中的可視化元素和所述原始網站的網頁結構中的可視化元素,具體包括:判斷關鍵節點和原始節點的相似性;分別將疑似網頁的可視化元素樹上的關鍵節點和原始網頁的可視化元素樹上的原始節點分別變為線性列表;依次比對線性列表上的關鍵節點和原始節點,則關鍵節點的節點面積等同于原始節點的節點面積,并且滿足以下條件的節點對具有相似性:1)、水平位置差異符合整體位移,且頂坐標相同;2)、垂直位置差異符合整體位移,且左坐標相同;3)、水平和垂直位置差異均符合整體位移;4)、水平位置差異符合整體位移,且底坐標至網頁底部的距離相同。8.根據權利要求7所述的檢測方法,其特征在于,若滿足預設條件,則判定所述疑似網站為鏡像網站,具體包括:若滿足:C–k/A+D–t/B+w>0時,判定所述疑似網頁與所述原始網頁相似,所述疑似網站為鏡像網站,其中:遍歷節點占比:A=遍歷的節點總數/鏡像節點總數;遍歷面積占比:B=遍歷的節點總面積/鏡像節點總面積;相似結點占比:C=相似的節點總數/遍歷的節點總數;相似面積占比:D=相似的節點總面積/遍歷的節點總面積;參數k、t、w的取值在實際應用中根據訓練集進行計算。9.一種網站鏡像的檢測裝置,其特征在于,包括:網站標題驗證模塊:用于計算待檢測網站的標題信息與原始網站的標題信息的相似度,若所述相似度超過設定閾值,則所述待檢測網站為疑似網站;網頁結構比對模塊:用于比對所述疑似網站的網頁結構中的可視化元素和所述原始網站的網頁結構中的可視化元素,若滿足預設條件,則判定所述疑似網站為鏡像網站。10.根據權利要求8所述的檢測裝置,其特征在于,所述網頁標題驗證模塊,還用于:將待檢測網站的標題和原始網站的標題分別進行中英文分詞;提取待檢測網站的標題和原始網站的標題中的中英文單詞,分別建立待檢測索引和原始索引;分別比對所述待檢測索引中的單詞和所述原始索引中的單詞,以計算待檢測網站的標題信息與所述原始網站的標題信息的相似度。

說明書

一種網站鏡像的檢測方法及裝置

技術領域

本發明涉及互聯網應用技術領域,尤其涉及一種網站鏡像的檢測方法及裝
置。

背景技術

“網站”是構成互聯網的重要主體之一。對于網站所有者而言,網站的排名
和流量是網站的核心價值,能夠與在線廣告投放等商業模式相結合,為網站所
有者帶來可觀的商業利益。然而,現在互聯網上出現一種稱為“網站惡意鏡像”
的侵權行為,對網站所有者的利益造成嚴重損害。該行為是指:侵權者將原始
網站的內容復制到自己掌握的多個域名上,形成原始網站的多個惡意鏡像網站,
當這些鏡像網站被搜索引擎檢索收錄后,用戶通過搜索引擎查找相關信息時,
就會被分流到侵權者掌握的大量鏡像網站上,不僅使侵權者輕易獲取大量流量
以及其背后的商業價值,而且還對原始網站的排名和流量造成嚴重影響,侵害
了原始網站所有者的權益。

原始網站所有者發現其擁有的網站惡意鏡像后,一般通過屏蔽鏡像域名被訪
問等方式,防止侵權者繼續盜取原始網站的內容。但由于互聯網上存在大量的
免費域名資源,因此侵權者很容易以低廉的成本更換域名后,再次盜取原始網
站的內容,建立惡意鏡像網站。因此,需要一種網站鏡像的檢測方法及裝置,
以解決現有技術中存在的上述技術問題。

發明內容

本發明提供一種網站鏡像的檢測方法及裝置,在保證檢測準確性的同時,
提高網站鏡像檢測的效率。

本發明采用的技術方案是:

一種網站鏡像的檢測方法,其包括:計算待檢測網站的標題信息與原始網
站的標題信息的相似度,若所述相似度超過設定閾值,則所述待檢測網站為疑
似網站;比對所述疑似網站的網頁結構中的可視化元素和所述原始網站的網頁
結構中的可視化元素,若滿足預設條件,則判定所述疑似網站為鏡像網站。

優選地,所述計算待檢測網站的標題信息與原始網站的標題信息的相似度,
若所述相似度超過設定閾值,則所述待檢測網站為疑似網站之前,所述方法還
包括:加載待檢測網站的網頁內容;從待檢測網站的網頁內容中提取標題。

優選地,所述計算待檢測網站的標題信息與所述原始網站的標題信息的相
似度,具體包括:將待檢測網站的標題和原始網站的標題分別進行中英文分詞;
提取待檢測網站的標題和原始網站的標題中的中英文單詞,分別建立待檢測索
引和原始索引;分別比對所述待檢測索引中的單詞和所述原始索引中的單詞,
以計算待檢測網站的標題信息與所述原始網站的標題信息的相似度。

優選地,比對所述疑似網站的網頁結構中的可視化元素和所述原始網站的
網頁結構中的可視化元素,若滿足預設條件,則判定所述疑似網站為鏡像網站
之前,所述方法還包括:篩選所述疑似網站中疑似網頁的文檔對象模型DOM樹
節點,保留反映DOM樹形結構的關鍵節點,篩選所述原始網站中原始網頁的文
檔對象模型DOM樹節點,保留反映DOM樹形結構的原始節點;在所述關鍵節
點和原始節點上分別附加位置屬性,構建疑似網頁的可視化元素樹和原始網頁
的可視化元素樹。

優選地,所述篩選所述疑似網站中疑似網頁的文檔對象模型DOM樹節點,
保留反映DOM樹形結構的關鍵節點,具體包括:確定所述疑似網頁的視覺邊界;
刪除分隔欄;刪除節點面積小于設定下限值的關鍵節點;刪除節點面積小于閾
值的關鍵節點所包含的所有子節點,以歸并零碎區域;刪除節點面積大于設定
上限值并且包含所有子節點的關鍵節點。

優選地,所述位置屬性包括位置四元組:關鍵節點或者原始節點顯示的矩
形區域的左上角頂點對應地與疑似網頁或者原始網頁的頁面上邊緣的像素距離
為頂坐標top、關鍵節點或者原始節點顯示的矩形區域的左上角頂點對應地與疑
似網頁或者原始網頁的頁面左邊緣的像素距離為左坐標left、關鍵節點或者原始
節點顯示的矩形區域的像素高度height以及關鍵節點或者原始節點顯示的矩形
區域的像素寬度width。

優選地,所述比對所述疑似網站的網頁結構中的可視化元素和所述原始網
站的網頁結構中的可視化元素,具體包括:判斷關鍵節點和原始節點的相似性:
分別將疑似網頁的可視化元素樹上的關鍵節點和原始網頁的可視化元素樹上的
原始節點分別變為線性列表;依次比對線性列表上的關鍵節點和原始節點,則
關鍵節點的節點面積等同于原始節點的節點面積,并且滿足以下任一條件的節
點對具有相似性:A、水平位置差異符合整體位移,且頂坐標相同;B、垂直位
置差異符合整體位移,且左坐標相同;C、水平和垂直位置差異均符合整體位移;
D、水平位置差異符合整體位移,且底坐標至網頁底部的距離相同。

優選地,若滿足預設條件,則判定所述疑似網站為鏡像網站,具體包括:
若滿足:C–k/A+D–t/B+w>0時,判定所述疑似網頁與所述原始網頁相似,所述
疑似網站為鏡像網站,其中:遍歷節點占比:A=遍歷的節點總數/鏡像節點總數;
遍歷面積占比:B=遍歷的節點總面積/鏡像節點總面積;相似結點占比:C=相似
的節點總數/遍歷的節點總數;相似面積占比:D=相似的節點總面積/遍歷的節點
總面積;參數k、t、w的取值在實際應用中根據訓練集進行計算。

本發明還提供了一種網站鏡像的檢測裝置,其包括:網站標題驗證模塊:
用于計算待檢測網站的標題信息與原始網站的標題信息的相似度,若所述相似
度超過設定閾值,則所述待檢測網站為疑似網站;網頁結構比對模塊:用于比
對所述疑似網站的網頁結構中的可視化元素和所述原始網站的網頁結構中的可
視化元素,若滿足預設條件,則判定所述疑似網站為鏡像網站。

優選地,所述網頁標題驗證模塊,還用于:將待檢測網站的標題和原始網
站的標題分別進行中英文分詞;提取待檢測網站的標題和原始網站的標題中的
中英文單詞,分別建立待檢測索引和原始索引;分別比對所述待檢測索引中的
單詞和所述原始索引中的單詞,以計算待檢測網站的標題信息與所述原始網站
的標題信息的相似度。

采用上述技術方案,本發明至少具有下列效果:

本發明的網站鏡像的檢測方法可以準確的檢測出原始網站的鏡像網
站,并且檢測效率較高。

附圖說明

圖1為本發明第一實施例網站鏡像的檢測方法的流程圖;

圖2為本發明第二實施例網站鏡像的檢測方法的流程圖;

圖3為本發明第三實施例網站鏡像的檢測方法的流程圖;

圖4為本發明第四實施例網站鏡像的檢測裝置的方框圖。

具體實施方式

為更進一步闡述本發明為達成預定目的所采取的技術手段及功效,以下結
合附圖及較佳實施例,對本發明進行詳細說明如后。

本發明提供的網站鏡像的檢測方法包括前級檢測步驟和后級檢測步驟,下
面將詳細地描述本發明的網站鏡像的檢測方法及其各個步驟。

第一實施例

如圖1所示,本實施例的網站鏡像的檢測方法包括:前級驗證步驟S10:計
算待檢測網站的標題信息與原始網站的標題信息的相似度,若相似度超過設定
閾值,則待檢測網站為疑似網站。

后級驗證步驟S20:比對疑似網站的網頁結構中的可視化元素和原始網站的
網頁結構中的可視化元素,若滿足預設條件,則判定疑似網站為鏡像網站。

前級驗證步驟僅是對待檢測網站的標題信息進行驗證,與原始網站的標題
信息的相似度,該步驟檢測速度快,具有較高的準確性。而后級驗證步驟是對
符合前級驗證步驟的疑似網站的網頁結構進行驗證,復雜性較高,速度較慢,
但具有非常高的準確性。前后兩級驗證,使得前級驗證步驟能夠從輸入的大量
待檢測網站中快速排除明顯不具有相似度的待檢測網站,后級驗證步驟再對剩
余的具有相似度的少量疑似網站樣本進行精確判定,這樣從總體上在保證網站
鏡像準確性的同時,盡可能提高檢測效率。

作為優選地,計算待檢測網站的標題信息與原始網站的標題信息的相似度,
具體包括:步驟S100:將待檢測網站的標題和原始網站的標題分別進行中英文分
詞;步驟S101:提取待檢測網站的標題和原始網站的標題中的中英文單詞,分別
建立待檢測索引和原始索引;步驟S102:分別比對待檢測索引中的單詞和原始索
引中的單詞,以計算待檢測網站的標題信息與原始網站的標題信息的相似度。
所述相似度超過設定閾值,則檢測出的疑似網站包括對應的HTML內容作
為后級驗證步驟的輸入量進行下面的驗證步驟,其它待檢測網站被判定
為“非鏡像”網站直接結束。

第二實施例

如圖2所示,本實施例中的網站鏡像的檢測方法在第一實施例的基礎上,
前級驗證步驟除了步驟S10:計算待檢測網站的標題信息與原始網站的標題信息
的相似度,若相似度超過設定閾值,則待檢測網站為疑似網站之前,前級驗證
步驟通過步驟S20和步驟S30完成待檢測網站標題的提取。

步驟S30:加載待檢測網站的網頁內容。利用標準HTTP/HTTPS協議讀取
并下載待檢測網站的內容。

步驟S40:從待檢測網站的網頁內容中提取標題。從待檢測網站的網頁內容
中提取標題,在實際應用中存在兩種情況。一是部分鏡像網站直接將原始網站
的HTML內容完整拷貝,其標題可以從HTML內容的<title>標簽中直接獲取。
二是部分鏡像網站僅含有動態執行的Javascript代碼,當用戶瀏覽器執行鏡像網
站所含的Javascript代碼后,才會將鏡像網站的網頁內容所對應的HTML內容動
態地加載出來。對于第二種情況,本發明引入待檢測網站的網頁Javascript解釋
引擎,該解釋引擎是基于開源的QtWebkit實現的,可模擬瀏覽器自動地加載并
且執行Javascript代碼,由此將完整的HTML內容及其中包含的<title>渲染出來。

第三實施例

如圖3所示,步驟S20:比對疑似網站的網頁結構中的可視化元素和原始網
站的網頁結構中的可視化元素,若滿足預設條件,則判定疑似網站為鏡像網站
之前,后級驗證步驟還包括:步驟S50:篩選疑似網站中疑似網頁的文檔對象模
型DOM樹節點,保留反映DOM樹形結構的關鍵節點,篩選原始網站中原始網
頁的文檔對象模型DOM樹節點,保留反映DOM樹形結構的原始節點。所謂的
反映DOM樹形結構的關鍵節點是指在視覺上明顯可見的,并且含有網頁實際內
容的節點。

本發明的后級驗證步驟通過疑似網站和原始網站的網頁結構中可視化元素
的相似性進行判定。其中,步驟S50中,根據HTML規范標準,每個HTML頁
面均對應一個DOM樹,通過視覺判定疑似網站的網頁和原始網站的網頁相似性
時,過小的元素,例如疑似網頁中的一個按鈕或者過大的元素,例如網頁的整
個<body>都是不合適的。

基于上述觀點,本裝置對疑似網頁DOM樹的節點和原始網頁DOM樹的節
點分別進行一系列的篩選,保留視覺面積適中、并能夠反映樹形結構的關鍵節
點。需要說明的是,對原始網頁DOM樹的節點進行篩選,可以進篩選一次得到
原始節點附加位置屬性,構建原始網頁的可視化元素樹后保存,下次直接拿過
來與疑似網頁的可視化元素樹進行比對。另外,下面幾條中分別提到的節點的
高度和寬度的下界閾值是不一樣的,分別在具體應用中進行預設。具體的篩選
由以下步驟組成:1、確定疑似網頁的視覺邊界,將疑似網頁的首個父節點的左
坐標和右坐標,分別作為該疑似網頁的最左坐標和最右坐標,用于界定疑似網
頁的邊界。2、刪除分隔欄,網頁中的分隔欄在視覺上是一條細線,在實際的網
站視覺中并不明顯,并且其位置經常發生改變,干擾判斷,因此需要刪除疑似
網站中的分隔欄。本發明的網站鏡像的檢測方法利用疑似網站中節點的高度和
寬度的下界閾值,這里的高度和寬度的下界閾值可以為2~3個像素,即視覺上
很窄的一個元素。刪除節點高度或寬度小于該下界閾值的節點,達到刪除分隔
欄的目的。3、刪除節點面積小于設定下限值的節點。通過節點的高和寬計算出
節點面積,若節點面積小于預先給定的下限值,則刪除節點。同樣在應用中預
設的參考值可以為10個像素,即占據10個像素以下的元素,視覺上幾乎不可
見。4、刪除節點面積小于設定閾值的節點所包含的所有子節點,以歸并零碎區
域,預設的設定閾值一般為50至100個像素,即總共占據50到100個像素的
一組零碎區域建議合并為一個整塊區域。逆序遍歷DOM樹,若一個節點的面積
小于上述設定閾值,且完全包含其所有子結點,則刪除其下的所有子結點,即:
對較小的零碎區域進行歸并。5、刪除節點面積大于設定上限值并且包含所有子
節點的節點。刪除冗余的大塊上層區域:網頁中存在一些大塊的上層區域,能
夠被其所有子區域完全覆蓋,則刪除上層區域而保留所有子區域,對于視覺判
定沒有影響。例如,假設區域A被劃分為B、C、D三個子區域,那么刪除A
而保留B、C、D,無論是從結構上還是視覺上都足以保留完整信息,不會影響
判定。本裝置通過DOM樹前序遍歷,計算出面積大于上限值且完全包含所有子
節點的上層節點,將這些上層節點進行刪除,這里的完全包含是指大塊區域的
內容完全被其內部的若干子區域劃分。這里的上限值一般為10萬、20萬或者
30萬像素等(分辨率為1024*768的屏幕有78.6萬個像素),即一個非常大的矩
形顯示區域建議拆分為一組子區域進行判定(因為一個非常大的區域內部有很
多信息會影響相似性的判斷,應該細分)。這樣可以減少后續比對的工作量,提
高檢測效率。

以及,步驟S60:在關鍵節點和原始節點上分別附加位置屬性,構建疑似網
頁的可視化元素樹和原始網頁的可視化元素樹。優選地,位置屬性包括位置四
元組:關鍵節點或者原始節點顯示的矩形區域的左上角頂點對應地與疑似網頁
或者原始網頁的頁面上邊緣的像素距離為頂坐標top、關鍵節點或者原始節點顯
示的矩形區域的左上角頂點對應地與疑似網頁或者原始網頁的頁面左邊緣的像
素距離為左坐標left、關鍵節點或者原始節點顯示的矩形區域的像素高度height
和關鍵節點或者原始節點顯示的矩形區域的像素寬度width。這樣每個疑似網站
和原始的DOM樹節點附加了位置屬性后,就成為了可視化元素樹VTree。

當兩個可視化元素樹上的節點進行比較時,首先判斷兩節點的節點面積是
否相同,其次要考慮疑似網頁是否出現整體位移的情況。因此,首先按照面積
相同的條件得到相似節點對列表,然后計算每一相似節點對的頂坐標top屬性之
差與左坐標left屬性之差,將出現次數最多的頂坐標top之差和left之差分別作
為整體位移的垂直偏移值和水平偏移值。最后結合每一節點對的位置差異,確
定具有相似性的節點對。具體地:

比對疑似網站的網頁結構中的可視化元素和原始網站的網頁結構中的可視
化元素,具體包括:判斷關鍵節點和原始節點的相似性;按先序遍歷順序分別
將疑似網頁的可視化元素樹上的關鍵節點和原始網頁的可視化元素樹上的原始
節點分別變為線性列表;依次比對線性列表上的關鍵節點和原始節點,則關鍵
節點的節點面積等同于原始節點的節點面積,并且滿足以下任一條件的節點對
具有相似性:1、僅發生水平位移的:水平位置差異符合整體位移,且頂坐標相
同;2、僅發生垂直位移的:垂直位置差異符合整體位移,且左坐標相同;3、
雙向位移的:水平和垂直位置差異均符合整體位移;4、由于疑似網頁中插入了
部分新節點,導致插入位置后的關鍵節點出現更多垂直位移,而水平位置差異
符合整體位移,且底坐標(top+height)與網頁底部的距離相同。滿足以上條件的
節點對對具有相似性。接下來在具有相似性的節點對中,執行下面的步驟。

若滿足預設條件,則判定所述疑似網站為鏡像網站,具體包括:
C–k/A+D–t/B+w>0時,判定疑似網頁與原始網頁相似,疑似網站為鏡像網站,
其中:遍歷節點占比:A=遍歷的節點總數/鏡像節點總數;遍歷面積占比:B=
遍歷的節點總面積/鏡像節點總面積;相似結點占比:C=相似的節點總數/遍歷的
節點總數;相似面積占比:D=相似的節點總面積/遍歷的節點總面積;參數k、t、
w的取值在實際應用中根據訓練集進行計算。需要說明的是:參數可取默認值:
k=t=0.03,w=-0.05。針對上文提到的實際應用中的訓練集是指:如果先前已
經保存有若干鏡像網站的樣本,以及若干其它非鏡像網頁的樣本,那么可以將
這些樣本當作訓練集,讓檢測方法對這些樣本進行檢測,同時調整參數的取值,
使得鏡像網站的樣本總是計算出C–k/A+D–t/B+w>0,即鏡像網站的樣本與原始
網站是相似的,其它非鏡像網站的樣本總是計算出C–k/A+D–t/B+w<=0,即非鏡
像網站的樣本與原始網站是不相似,這樣就可以得到符合此次訓練集的一組參
數值,在接下來的檢測方法中采用上述訓練集得到的一組參數值即可。

上文中所述的遍歷的節點總數以及遍歷的節點總面積為遍歷一個疑似網站
中總的節點總數以及總的節點總面積,而相似的節點總數以及相似的節點總面
積是以具有相似性的節點對中的節點數進行計算。

第四實施例

如圖4所示,本實施例中的網站鏡像的檢測裝置包括:網站標題驗證模塊
10:用于計算待檢測網站的標題信息與原始網站的標題信息的相似度,若相似
度超過設定閾值,則待檢測網站為疑似網站,以及網頁結構比對模塊20:用于
比對疑似網站的網頁結構中的可視化元素和原始網站的網頁結構中的可視化元
素,若滿足預設條件,則判定疑似網站為鏡像網站。

優選地,網頁標題驗證模塊10,還用于:將待檢測網站的標題和原始網站
的標題分別進行中英文分詞;提取待檢測網站的標題和原始網站的標題中的中
英文單詞,分別建立待檢測索引和原始索引;分別比對待檢測索引中的單詞和
原始索引中的單詞,以計算待檢測網站的標題信息與原始網站的標題信息的相
似度。

通過以下實例說明本發明的網站鏡像的檢測方法檢測的準確性,并且檢測
效率較高。

步驟一:原始網站的所有者通過爬取搜索引擎結果的方式,獲得大量含有
本網站主要關鍵詞的待檢測網站列表,本例中共包含1142個待檢測網站。

步驟二:將1142個待檢測網站的URL以及原始網站的主頁進行前級驗證
步驟和后級驗證步驟,最終自動檢測發現52個鏡像網站和1090個非鏡像網站,
并輸出每個鏡像網站的標題及檢測結果,供人工核驗。

步驟三:本實例為了核驗本發明方法的具體效果,人工對1142個待檢測網
站進行了核驗,最終結果如下:

表一



裝置檢測為鏡像
裝置檢測為非鏡像
人工核驗為鏡像
51
3
人工核驗為非鏡像
1
1085

因此,可知此例中:

查準率(準確率)為51/52=98.08%,

查全率(召回率)為51/54=94.44%。

通過具體實施方式的說明,應當可對本發明為達成預定目的所采取的技術
手段及功效得以更加深入且具體的了解,然而所附圖示僅是提供參考與說明之
用,并非用來對本發明加以限制。

關 鍵 詞:
一種 網站 檢測 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種網站鏡像的檢測方法及裝置.pdf
鏈接地址:http://www.wwszu.club/p-6386057.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大