鬼佬大哥大
  • / 7
  • 下載費用:30 金幣  

一種企業專利公告信息抓取與管理的方法.pdf

摘要
申請專利號:

CN201510539921.X

申請日:

2015.08.31

公開號:

CN105205588A

公開日:

2015.12.30

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06Q 10/06申請日:20150831|||公開
IPC分類號: G06Q10/06(2012.01)I; G06Q50/18(2012.01)I; G06F17/30 主分類號: G06Q10/06
申請人: 佛山市恒南微科技有限公司
發明人: 黃慶梅; 陳少娜; 其他發明人請求不公開姓名
地址: 528000 廣東省佛山市禪城區張槎三路35號德暉花園4號樓502室
優先權:
專利代理機構: 代理人:
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510539921.X

授權公告號:

|||

法律狀態公告日:

2017.01.04|||2015.12.30

法律狀態類型:

實質審查的生效|||公開

摘要

一種企業專利公告信息抓取與管理的方法。本發明公開了一種基于專利公眾公開的登記或變更公告數據的頁面級別的通過getHTTPPage方法的抓取技術,再結合標記分析方法獲得第一信息碼、第二信息碼和第三信息碼,再通過上述信息碼之間的對比,在相應程序下生成第四信息碼,然后依對應的方法寫入第一知識產權信息庫和第二知識產權信息庫,以備不同的場合使用的一種企業知識產權信息抓取與管理的方法。

權利要求書

權利要求書
1.  一種企業專利公告信息抓取與管理的方法,其特征包括,其主要包含以下步驟:
步驟S102,在企業信息庫中讀出企業名稱的待查數據;
步驟S103,將步驟S102所讀出的企業名稱通過函數轉為UTF8編碼方式進行數據編碼;
步驟S104,在步驟S103生成的對應編碼方式的數據后,通過URLencode/URLDecode加密/解密函數將上述步驟S103的數據進行加密,并輸出為第一變量;
步驟S105,以上述第一變量作為對應的URL的對應參數值生成第一URL;
步驟S106,通過getHTTPPage方式訪問步驟S105生成的第一URL,獲得第一URL對應的頁面的HTML格式的數據源碼供步驟S107進行標記截取;
步驟S107,通過S106獲得的HTML格式的數據源碼,通過以“<title>”標記開始和“</title>”標記結束生成第一信息碼;通過如下標記截取生成第二信息碼:開始標記為“sop-totalCount”,結束標記為“</span>]”;
當第一信息碼的值為空時,返回S102步驟,同時檢查網絡是否正常;當第二信息碼為空時,跳過步驟S108和S109,并設置第三信息碼的值為“0”;當第二信息碼不為空時,執行步驟S108;
步驟S108,生成第三信息碼:第二信息碼不為空時,第三信息碼通過第二信息碼去雜質后剩下數字獲得;
步驟S109,當第二信息碼不為空時,將第一信息碼、第二信息碼和第三信息碼的信息,以及相應的輔助數據對應存貯在擁有專利申請的企業信息庫中;
將所有數據執行步驟S110存入專利企業信息總表,同時返回步驟S101將已經成功檢索的記錄的進行已執行的標記然后,返回步驟S102循環執行,直至所有符合條件的企業數據檢索完成為止。

2.  根據權利要求1所述的一種企業專利公告信息抓取與管理的方法,其特征包括,執行步驟S102前執行步驟S101進行企業信息查詢中,進行企業類型、企業名稱、企業成立時間、企業注冊資金和企業注冊地址的一種條件或者多個條件組合檢索篩選出所需要檢索的數據。

3.  根據權利要求1和權利要求2所述的一種企業專利公告信息抓取與管理的方法,其特征包括,所述的步驟S110還可以通過將數據存貯在步驟S101所述的企業信息表對應的字段中,同時將相應的執行標記字段的值標記為已執行,然后步驟S102循環執行,直至所有符合條件的企業數據檢索完成為止。

4.  根據權利要求1所述的一種企業專利公告信息抓取與管理的方法,其特征包括,步驟S109所述的輔助數據包括通過步驟S102所讀出的企業名稱傳遞而獲得企業名稱,通過步驟S107和步驟S108追加獲取當前的系統時間。

5.  根據權利要求1所述的一種企業專利公告信息抓取與管理的方法,其特征包括,在執行步驟S102前,通過設置一定數量的采樣數據進行采樣,采樣數據包括企業擁有三種知識產權類別的一種、兩種、三種及上述組合的一定量的企業,以及沒有任何知識產權的一定量的企業,采樣走完整個流程,查看相關采集是否正常,此步驟確定網絡是否正常,官方公布數據格式是否發生變化和確定所設置的數據編碼方式是否正確。

6.  根據權利要求1所述的一種企業專利公告信息抓取與管理的方法,其特征包括,步驟S103所述的編碼方式,當官方機構公布的數據對應的編碼發生變更時,本方法將根據實際所發生的變化變更編碼方式。

7.  根據權利要求1所述的一種企業專利公告信息抓取與管理的方法,其特征包括,步驟S104所述的URL中,當官方機構公布時采用的URL進行加密發布時,本方法將根據實際情況進行數據加密編碼。

8.  根據權利要求1所述的一種企業專利公告信息抓取與管理的方法,其特征包括,步驟S104所述的URLencode/URLDecode加密/解密函數將上述步驟S103的數據進行加密,其加密編碼根據實際情況進行一次加密、二次和多次加密。

說明書

說明書一種企業專利公告信息抓取與管理的方法
技術領域
本發明主要涉及一種企業專利公告信息抓取與管理的方法,尤其是通過專利公告公布網站的頁面信息抓取、分析、整理和建檔的方法。
背景技術
目前,知識產權的信息獲取大多基于通過相關部門所公開的數據接口來實現知識產權信息的同步,或者通過復雜的運算與抓取而獲得信息量較少的信息。此方法對于經常性的、大數據的企業知識產權的信息獲取顯得難以勝任,并且應用成本高,風險大,不利于中小中介服務機構推廣應用。
專利公告的信息,尤其是建立企業研發信用體系,更顯得非常重要,同時也是中介服務機構提高自身服務質量的有力支持。
發明內容
為了解決上述問題,本發明提出了一種基于專利公眾公開的登記或變更公告數據的頁面級別的通過getHTTPPage方法的抓取技術,再結合標記分析方法獲得第一信息碼、第二信息碼和第三信息碼,再通過上述信息碼之間的對比,在相應程序下生成第三信息碼,然后依對應的方法寫入第一知識產權信息庫和第二知識產權信息庫,以備不同的場合使用的一種企業專利公告信息抓取與管理的方法。
一種企業專利公告信息抓取與管理的方法,其主要包含以下步驟:
步驟S102,在企業信息庫中讀出企業名稱的待查數據;
步驟S103,將步驟S102所讀出的企業名稱通過函數轉為UTF8編碼方式進行數據編碼;
步驟S104,在步驟S103生成的對應編碼方式的數據后,通過URLencode/URLDecode加密/解密函數將上述步驟S103的數據進行加密,并輸出為第一變量;
步驟S105,以上述第一變量作為對應的URL的對應參數值生成第一URL;
步驟S106,通過getHTTPPage方式訪問步驟S105生成的第一URL,獲得第一URL對應的頁面的HTML格式的數據源碼供步驟S107進行標記截取;
步驟S107,通過S106獲得的HTML格式的數據源碼,通過以“<title>”標記開始和“</title>”標記結束生成第一信息碼;通過如下標記截取生成第二信息碼:開始標記為“sop-totalCount”,結束標記為“</span>]”;
當第一信息碼的值為空時,返回S102步驟,同時檢查網絡是否正常;當第二信息碼為空時,跳過步驟S108和S109,并設置第三信息碼的值為“0”;當第二信息碼不為空時,執行步驟S108;
步驟S108,生成第三信息碼:第二信息碼不為空時,第三信息碼通過第二信息碼去雜質后剩下數字獲得;
步驟S109,當第二信息碼不為空時,將第一信息碼、第二信息碼和第三信息碼的信息,以及相應的輔助數據對應存貯在擁有專利申請的企業信息庫中;
將所有數據執行步驟S110存入專利企業信息總表,同時返回步驟S101將已經成功檢索的記錄的進行已執行的標記然后,返回步驟S102循環執行,直至所有符合條件的企業數據檢索完成為止。
執行步驟S102前執行步驟S101進行企業信息查詢中,進行企業類型、企業名稱、企業成立時間、企業注冊資金和企業注冊地址的一種條件或者多個條件組合檢索篩選出所需要檢索的數據。
其特征包括,所述的步驟S110還可以通過將數據存貯在步驟S101所述的企業信息表對應的字段中,同時將相應的執行標記字段的值標記為已執行,然后步驟S102循環執行,直至所有符合條件的企業數據檢索完成為止。
步驟S109所述的輔助數據包括通過步驟S102所讀出的企業名稱傳遞而獲得企業名稱,通過步驟S107和步驟S108追加獲取當前的系統時間。
在執行步驟S102前,通過設置一定數量的采樣數據進行采樣,采樣數據包括企業擁有三種知識產權類別的一種、兩種、三種及上述組合的一定量的企業,以及沒有任何知識產權的一定量的企業,采樣走完整個流程,查看相關采集是否正常,此步驟確定網絡是否正常,官方公布數據格式是否發生變化和確定所設置的數據編碼方式是否正確。
步驟S103所述的編碼方式,當官方機構公布的數據對應的編碼發生變更時,本方法將根據實際所發生的變化變更編碼方式。
步驟S104所述的URL中,當官方機構公布時采用的URL進行加密發布時,本方法將根據實際情況進行數據加密編碼。
步驟S104所述的URLencode/URLDecode加密/解密函數將上述步驟S103的數據進行加密,其加密編碼根據實際情況進行一次加密、二次和多次加密。
附圖說明
圖1一種企業專利公告信息抓取與管理的方法流程圖。
具體實施方式
一種企業專利公告信息抓取與管理的方法,其主要包含以下步驟:
步驟S101,進行企業信息查詢中,進行企業類型等條件檢索篩選出所需要檢索的數據。
步驟S102,在企業信息庫中讀出企業名稱的待查數據,設變量為“aa”。
步驟S103,根據三種類別將步驟S102所讀出的企業名稱通過函數轉為UTF8方式進行數據編碼。
其中UTF8編碼的需要在文件頭加入以下代碼段:
<scriptlanguage="javaScript"runat="Server">
functionce(str)
{
returnencodeURIComponent(str)
}
</script>
<head>
<metahttp-equiv="Content-Type"content="text/html;charset=UTF8">
<metahttp-equiv="Content-Language"content="zh-cn">
步驟S104,在步驟S103生成的對應編碼方式的數據后,通過URLencode/URLDecode加密/解密函數將上述步驟S103的數據進行加密,并輸出為第一變量,其中軟件著作權公告信息中,第一變量為明文,不進行加密;URLencode/URLDecode加密/解密函數將上述步驟S103的數據進行加密,其加密編碼根據實際情況進行一次加密、二次和多次加密,其中一次加密的bb=ce(""&aa&""),兩次加密的方式為cc=ce(""&bb&""),多次加密的方法類似。
步驟S105,以上述第一變量作為對應的URL的對應參數值生成第一URL,使用ASP開發語言表達如下:第一變量假設為cname,專利公告發布網站假設為www.abcde.com:
http://www.abcde.com//txnQueryOrdinaryPatents.do?select-key%3Ashenqingh=&select-key%3Azhuanlimc=&select-key%3Ashenqingrxm=<%=cname%>&select-key%3Azhuanlilx=&select-key%3Ashenqingr_from=&select-key%3Ashenqingr_to=&attribute-node:record_start-row=60&attribute-node:record_page-row=100&#anchor
步驟S106,通過getHTTPPage方式訪問步驟S105生成的第一URL,獲得第一URL對應的頁面的HTML格式的數據源碼供步驟S107進行標記截取。
步驟S107,通過S106獲得的HTML格式的數據源碼,通過以“<title>”標記開始和“</title>”標記結束生成第一信息碼;通過開始標記為“sop-totalCount”,結束標記為“</span>]”標記截取生成第二信息碼。
當第一信息碼的值為空時,返回S102步驟,同時檢查網絡是否正常;當第二信息碼為空時,跳過步驟S108,并設置第三信息碼的值為“0”;當第二信息碼不為空時,執行步驟S108。
步驟S108,生成第三信息碼:第二信息碼不為空時,第三信息碼通過第二信息碼去雜質后剩下數字為第三信息碼的值;知識產權類型為商標時,第二信息碼不為空時,第三信息碼的值為“1”。
步驟S109,當第二信息碼不為空時,將第一信息碼、第二信息碼和第三信息碼的信息,以及相應的輔助數據對應存貯在擁有知識產權的企業信息庫中,輔助數據包括通過步驟S102所讀出的企業名稱傳遞而獲得企業名稱,通過步驟S107和步驟S108追加獲取當前的系統時間。
將所有數據執行步驟S110存入知識產權的企業信息總表,同時返回步驟S101將已經成功檢索的記錄的進行已執行的標記然后,返回步驟S102循環執行,直至所有符合條件的企業數據檢索完成為止。
在執行步驟S102前,通過設置一定數量的采樣數據進行采樣,采樣數據包括企業擁有三種知識產權類別的一種、兩種、三種及上述組合的一定量的企業,以及沒有任何知識產權的一定量的企業,采樣走完整個流程,查看相關采集是否正常,此步驟確定網絡是否正常,官方公布數據格式是否發生變化和確定所設置的數據編碼方式是否正確。
上述實施方式僅僅為本發明的其中實施方式之一。

關 鍵 詞:
一種 企業 專利 公告 信息 抓取 管理 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種企業專利公告信息抓取與管理的方法.pdf
鏈接地址:http://www.wwszu.club/p-6405729.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大