鬼佬大哥大
  • / 12
  • 下載費用:30 金幣  

一種實現區域企業軟件著作權公告摸底與管理的系統.pdf

摘要
申請專利號:

CN201510539860.7

申請日:

2015.08.31

公開號:

CN105160209A

公開日:

2015.12.16

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 21/10申請日:20150831|||公開
IPC分類號: G06F21/10(2013.01)I; G06F17/30 主分類號: G06F21/10
申請人: 佛山市恒南微科技有限公司
發明人: 黃慶梅; 鄭俊杰; 其他發明人請求不公開姓名
地址: 528000廣東省佛山市禪城區張槎三路35號德暉花園4號樓502室
優先權:
專利代理機構: 代理人:
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510539860.7

授權公告號:

|||

法律狀態公告日:

2016.12.28|||2015.12.16

法律狀態類型:

實質審查的生效|||公開

摘要

一種實現區域企業軟件著作權公告摸底與管理的系統。本發明公開了一種基于軟件著作權的公眾公開的登記或變更公告數據的頁面級別的通過getHTTPPage方法的抓取技術,再結合數據庫技術,采用企業數據預處理,第一次定性查詢,第二次定量查詢和第三次詳情查詢,最后進行第二數據庫為基礎的軟件著作權狀態監控、詳細情況等監控與管理的系統,本系統無需第三方的各種許可,而是通過合法的數據獲取而低成本高速度地實現。

權利要求書

權利要求書
1.  一種實現區域企業軟件著作權公告摸底與管理的系統,其特征包括,其主要包含以下結構:
企業信息庫、第一軟件著作權信息采集模塊、第一比對信息庫、第二比對信息庫、第二軟件著作權信息采集模塊、第一企業知識產權信息庫和第二企業知識產權信息庫;其中企業信息庫包含企業名稱字段,第一比對信息庫含企業名稱字段;第一軟件著作權信息采集模塊包含編碼方式管理程序、信息碼管理模塊和軟件著作權公布數據采集管理模塊;企業信息庫包含企業信息數據和SQL語句管理模塊,其通過SQL語句條件檢索后返回值給第一軟件著作權信息采集模塊進行getHTTPPage方式訪問生成的URL生成HTML代碼后進行標記識別獲取各信息碼,各信息碼根據對應的值判斷,對應寫入第一比對信息庫和第二比對信息庫;其中,第二比對信息庫是匯總的比對信息庫,寫入第二比對信息庫的數據同步寫入第一企業知識產權信息庫;第一比對信息庫是通過參數對比成功的信息,即擁有軟件著作權的企業數據,進行數據合并后存入第一比對信息庫,然后對應地通過第二軟件著作權信息采集模塊進行第二次詳細軟件著作權信息的采集,第二軟件著作權信息采集模塊包含編碼方式管理程序、信息碼管理模塊和軟件著作權公布數據采集管理模塊,與第一軟件著作權信息采集模塊不同的是,第二軟件著作權信息采集模塊的采集程序中的標記信息及生成的URL的不同,其中第二知識產權信息采集模塊生成URL時,同時采用所采集到的頁碼信息碼作為參數,通過FOR循環生成URL集;經第二軟件著作權信息采集模塊采集到具體的知識產權信息集合后存入第二企業知識產權信息庫。

2.  根據權利要求1所述的一種實現區域企業軟件著作權公告摸底與管理的系統,其特征包括,所述的第一軟件著作權信息采集模塊均包含第一信息碼:通過以“<title>”標記開始和“</title>”標記結束生成;通過截取如下標記生成第二信息碼:開始標記為“登記日期”,結束標記為“>2”;獲取第三信息碼,其開始標記為“中國”,結束標記為“<tdclass=”;第四信息碼通過開始標記為“[總數”,結束標記為“]”獲取生成。

3.  根據權利要求1所述的一種實現區域企業軟件著作權公告摸底與管理的系統,其特征包括,所述的SQL語句管理模塊,包括企業類型、企業名稱、企業成立時間、企業注冊資金和企業注冊地址的一種條件或者多個條件組合檢索篩選出所需要檢索的數據。

4.  根據權利要求1所述的一種實現區域企業軟件著作權公告摸底與管理的系統,其特征包括,所述的第一比對信息庫包含第一信息碼、第二信息碼、第三信息碼、第四信息碼、第五信息碼、第六信息碼、第七信息碼、第八信息碼和第九信息碼,其截取的開始標記與結束標記與第一信息碼的標記相同,第六信息碼截取的開始標記與結束標記與二信息碼的標記相同,第七信息碼截取的開始標記與結束標記與三信息碼的標記相同,第八信息碼對應的起止標記分別如下:
軟件著作權:開始標記:“頁/共”,結束標記:“頁”。

5.  根據權利要求1所述的一種實現區域企業軟件著作權公告摸底與管理的系統,其特征包括,所述的編碼管理模塊,當官方機構公布的數據對應的編碼發生變更時,將根據實際所發生的變化變更編碼方式;所述的URL中,當官方機構公布時采用的URL進行加密發布時,本方法將根據實際情況進行數據加密編碼;所述的URLencode/URLDecode加密/解密函數將上述步驟S103的數據進行加密,其加密編碼根據實際情況進行一次加密、二次和多次加密。

6.  根據權利要求1所述的一種實現區域企業軟件著作權公告摸底與管理的系統,其特征包括,所述的第一比對信息庫,還包含第八信息碼和第十三信息碼,當第八信息碼的值大于1時,通過獲取軟件著作權的條數的統計數據第十三信息碼與現有的第二企業知識產權信息庫中的數據對比,當第十三信息碼不大于第二企業知識產權信息庫中對應的企業的軟件著作權的總計數值時,不必進行第二頁及后面的讀取;當第十三信息碼大于第二企業知識產權信息庫中對應的企業的軟件著作權的總計數值時,根據超出的數量進行增量更新。

說明書

說明書一種實現區域企業軟件著作權公告摸底與管理的系統
技術領域
本發明主要涉及一種實現區域企業軟件著作權公告摸底與管理的系統,尤其是通過軟件著作權公布網站的頁面信息抓取、分析、整理、建檔和運用以實現待查的區域的企業的軟件著作權擁有情況摸底及運用的系統。
背景技術
目前,一個地區,或者說一定區域的企業,想查詢所有企業各自的軟件著作權擁有情況,尤其是廣譜式的全民式查底,目前的方法相對難以實現,其不但需要到每個部門將軟件著作權等數據歸庫,并且需要對每個地區數以百萬計的企業與數以百萬計的數據進行比對,這樣不但成本高,而且數據源相對敏感而難以實現。
然而,一個地區的企業的知識產權狀況,對于地方知識產權政策的制定與實施,以及地方政府對企業知識產權的管理等具有極強的基礎性需求。
發明內容
為了解決上述問題,本發明提出了一種基于軟件著作權的公眾公開的登記或變更公告數據的頁面級別的通過getHTTPPage方法的抓取技術,再結合數據庫技術,采用企業數據預處理,第一次定性查詢,第二次定量查詢和第三次詳情查詢,最后進行第二數據庫為基礎的軟件著作權情況等監控與管理的系統,此系統無需第三方的各種許可,而是通過合法的數據獲取而低成本高速度地實現。
一種實現區域企業軟件著作權公告摸底與管理的系統,其主要包含以下結構:
企業信息庫、第一軟件著作權信息采集模塊、第一比對信息庫、第二比對信息庫、第二軟件著作權信息采集模塊、第一企業知識產權信息庫和第二企業知識產權信息庫;其中企業信息庫包含企業名稱字段,第一比對信息庫含企業名稱字段;第一軟件著作權信息采集模塊包含編碼方式管理程序、信息碼管理模塊和軟件著作權公布數據采集管理模塊;企業信息庫包含企業信息數據和SQL語句管理模塊,其通過SQL語句條件檢索后返回值給第一軟件著作權信息采集模塊進行getHTTPPage方式訪問生成的URL生成HTML代碼后進行標記識別獲取各信息碼,各信息碼根據對應的值判斷,對應寫入第一比對信息庫和第二比對信息庫;其中,第二比對信息庫是匯總的比對信息庫,寫入第二比對信息庫的數據同步寫入第一企業知識產權信息庫;第一比對信息庫是通過參數對比成功的信息,即擁有軟件著作權的企業數據,進行數據合并后存入第一比對信息庫,然后對應地通過第二軟件著作權信息采集模塊進行第二次詳細軟件著作權信息的采集,第二軟件著作權信息采集模塊包含編碼方式管理程序、信息碼管理模塊和軟件著作權公布數據采集管理模塊,與第一軟件著作權信息采集模塊不同的是,第二軟件著作權信息采集模塊的采集程序中的標記信息及生成的URL的不同,其中第二知識產權信息采集模塊生成URL時,同時采用所采集到的頁碼信息碼作為參數,通過FOR循環生成URL集;經第二軟件著作權信息采集模塊采集到具體的知識產權信息集合后存入第二企業知識產權信息庫。
所述的第一軟件著作權信息采集模塊均包含第一信息碼:通過以“<title>”標記開始和“</title>”標記結束生成;通過截取如下標記生成第二信息碼:開始標記為“登記日期”,結束標記為“>2”;獲取第三信息碼,其開始標記為“中國”,結束標記為“<tdclass=”;第四信息碼通過開始標記為“[總數”,結束標記為“]”獲取生成。
所述的SQL語句管理模塊,包括企業類型、企業名稱、企業成立時間、企業注冊資金和企業注冊地址的一種條件或者多個條件組合檢索篩選出所需要檢索的數據。
所述的第一比對信息庫包含第一信息碼、第二信息碼、第三信息碼、第四信息碼、第五信息碼、第六信息碼、第七信息碼、第八信息碼和第九信息碼,其截取的開始標記與結束標記與第一信息碼的標記相同,第六信息碼截取的開始標記與結束標記與二信息碼的標記相同,第七信息碼截取的開始標記與結束標記與三信息碼的標記相同,第八信息碼對應的起止標記分別如下:
軟件著作權:開始標記:“頁/共”,結束標記:“頁”。
所述的編碼管理模塊,當官方機構公布的數據對應的編碼發生變更時,將根據實際所發生的變化變更編碼方式;所述的URL中,當官方機構公布時采用的URL進行加密發布時,本方法將根據實際情況進行數據加密編碼;所述的URLencode/URLDecode加密/解密函數將上述步驟S103的數據進行加密,其加密編碼根據實際情況進行一次加密、二次和多次加密。
所述的第一比對信息庫,還包含第八信息碼和第十三信息碼,當第八信息碼的值大于1時,通過獲取軟件著作權的條數的統計數據第十三信息碼與現有的第二企業知識產權信息庫中的數據對比,當第十三信息碼不大于第二企業知識產權信息庫中對應的企業的軟件著作權的總計數值時,不必進行第二頁及后面的讀取;當第十三信息碼大于第二企業知識產權信息庫中對應的企業的軟件著作權的總計數值時,根據超出的數量進行增量更新。
附圖說明
圖1一種實現區域企業軟件著作權公告摸底與管理的系統的總體流程圖。
圖2一種實現區域企業軟件著作權公告摸底與管理的系統第一組步驟集合的流程圖。
圖3一種實現區域企業軟件著作權公告摸底與管理的方法的實現流程圖。
具體實施方式
一種實現區域企業軟件著作權公告摸底與管理的系統,其主要包含以下步驟:
企業信息庫、第一軟件著作權信息采集模塊、第一比對信息庫、第二比對信息庫、第二軟件著作權信息采集模塊、第一企業知識產權信息庫和第二企業知識產權信息庫;其中企業信息庫包含企業名稱字段,第一比對信息庫含企業名稱字段;第一軟件著作權信息采集模塊包含編碼方式管理程序、信息碼管理模塊和軟件著作權公布數據采集管理模塊;企業信息庫包含企業信息數據和SQL語句管理模塊,其通過SQL語句條件檢索后返回值給第一軟件著作權信息采集模塊進行getHTTPPage方式訪問生成的URL生成HTML代碼后進行標記識別獲取各信息碼,各信息碼根據對應的值判斷,對應寫入第一比對信息庫和第二比對信息庫;其中,第二比對信息庫是匯總的比對信息庫,寫入第二比對信息庫的數據同步寫入第一企業知識產權信息庫;第一比對信息庫是通過參數對比成功的信息,即擁有軟件著作權的企業數據,進行數據合并后存入第一比對信息庫,然后對應地通過第二軟件著作權信息采集模塊進行第二次詳細軟件著作權信息的采集,第二軟件著作權信息采集模塊包含編碼方式管理程序、信息碼管理模塊和軟件著作權公布數據采集管理模塊,與第一軟件著作權信息采集模塊不同的是,第二軟件著作權信息采集模塊的采集程序中的標記信息及生成的URL的不同,其中第二知識產權信息采集模塊生成URL時,同時采用所采集到的頁碼信息碼作為參數,通過FOR循環生成URL集;經第二軟件著作權信息采集模塊采集到具體的知識產權信息集合后存入第二企業知識產權信息庫。
所述的第一軟件著作權信息采集模塊均包含第一信息碼:通過以“<title>”標記開始和“</title>”標記結束生成;通過截取如下標記生成第二信息碼:開始標記為“登記日期”,結束標記為“>2”;獲取第三信息碼,其開始標記為“中國”,結束標記為“<tdclass=”;第四信息碼通過開始標記為“[總數”,結束標記為“]”獲取生成。
所述的SQL語句管理模塊,包括企業類型、企業名稱、企業成立時間、企業注冊資金和企業注冊地址的一種條件或者多個條件組合檢索篩選出所需要檢索的數據。
所述的第一比對信息庫包含第一信息碼、第二信息碼、第三信息碼、第四信息碼、第五信息碼、第六信息碼、第七信息碼、第八信息碼和第九信息碼,其截取的開始標記與結束標記與第一信息碼的標記相同,第六信息碼截取的開始標記與結束標記與二信息碼的標記相同,第七信息碼截取的開始標記與結束標記與三信息碼的標記相同,第八信息碼對應的起止標記分別如下:
軟件著作權:開始標記:“頁/共”,結束標記:“頁”。
所述的編碼管理模塊,當官方機構公布的數據對應的編碼發生變更時,將根據實際所發生的變化變更編碼方式;所述的URL中,當官方機構公布時采用的URL進行加密發布時,本方法將根據實際情況進行數據加密編碼;所述的URLencode/URLDecode加密/解密函數將上述步驟S103的數據進行加密,其加密編碼根據實際情況進行一次加密、二次和多次加密。
所述的第一比對信息庫,還包含第八信息碼和第十三信息碼,當第八信息碼的值大于1時,通過獲取軟件著作權的條數的統計數據第十三信息碼與現有的第二企業知識產權信息庫中的數據對比,當第十三信息碼不大于第二企業知識產權信息庫中對應的企業的軟件著作權的總計數值時,不必進行第二頁及后面的讀取;當第十三信息碼大于第二企業知識產權信息庫中對應的企業的軟件著作權的總計數值時,根據超出的數量進行增量更新。
具體實現方法如下:
步驟S101,進行企業信息查詢中,進行企業類型等條件檢索篩選出所需要檢索的數據。
步驟S102,在企業信息庫中讀出企業名稱的待查數據,設變量為“aa”。
步驟S103,根據三種類別將步驟S102所讀出的企業名稱通過函數轉為下列所列的對應數據編碼,設變量為“bb”:軟件著作權公告信息對應編碼方式為GB2312。
其中讀取URL的頁面需要在文件頭加入以下代碼段:
<head>
<metahttp-equiv="Content-Type"content="text/html;charset=gb2312">
</head>
步驟S104,以上述“bb”變量作為對應的URL的對應參數值生成第一URL,使用ASP開發語言表達如下:“bb”變量假設為cname:
http://www.ccopyright.com.cn/cpcc/RRegisterAction.do?method=list&no=fck&sql_name=&sql_regnum=&sql_author=<%=cname%>&curPage=1&count=10&sortOrder=&sortLabel=。
步驟S105,通過getHTTPPage方式訪問步驟S104生成的第一URL,獲得第一URL對應的頁面的HTML格式的數據源碼供步驟S106進行標記截取。
步驟S106,通過S105獲得的HTML格式的數據源碼,通過以“<title>”標記開始和“</title>”標記結束生成第一信息碼;通過如下標記生成第二信息碼:開始標記為“登記日期”,結束標記為“>2”;通過如下標記獲取第三信息碼:開始標記為“中國”,結束標記為“<tdclass=”。
當第一信息碼的值為空時,返回S102步驟,同時檢查網絡是否正常;當第二信息碼為空時,跳過步驟S107和步驟S108,并設置第四信息碼的值為“0”;當第二信息碼不為空時,執行步驟S107。
步驟S107,生成第四信息碼:當第二信息碼不為空,并且第三信息碼為空時,第四信息碼通過開始標記為“[總數”,結束標記為“]”獲取生成,第二信息碼不為空并且第三信息碼不為空時,第四信息碼的值為“1”;第二信息碼不為空時,第四信息碼通過第二信息碼去雜質后剩下數字。
步驟S108,當第二信息碼不為空時,將第一信息碼、第二信息碼和第四信息碼的信息,以及相應的輔助數據對應存貯在擁有軟件著作權的企業信息庫中,輔助數據包括通過步驟S102所讀出的企業名稱傳遞而獲得企業名稱,通過步驟S106和步驟S107追加獲取當前的系統時間。
將所有數據執行步驟S109存入軟件著作權的企業信息總表,同時返回步驟S101將已經成功檢索的記錄的進行已執行的標記然后,返回步驟S102循環執行,直至所有符合條件的企業數據檢索完成為止。
在執行步驟S102前,通過設置一定數量的采樣數據進行采樣,采樣數據包括企業擁有三種軟件著作權類別的一種、兩種、三種及上述組合的一定量的企業,以及沒有任何軟件著作權的一定量的企業,采樣走完整個流程,查看相關采集是否正常,此步驟確定網絡是否正常,官方公布數據格式是否發生變化和確定所設置的數據編碼方式是否正確。
當全部待查的企業信息庫中符合條件的數據均已被正確執行,并存入第一比對信息庫后,第一比對信息庫里的信息即為擁有軟件著作權的企業,接下來執行步驟S201獲取詳細的軟件著作權數據;
步驟S201從第一比對信息庫中獲取企業名稱,將編碼方式設置為GB2312后生成符合規范的企業名稱數據,并設置為第二變量;
步驟S202,生成對應的帶第二變量的第二URL,并通過getHTTPPage方式訪問第二URL,將結果HTML靜態化,供步驟S203分別進行標記截取;
步驟S203,根據進行不同的標記進行HTML內容截取獲得第五信息碼、第六信息碼、第七信息碼和第八信息碼;當第五信息碼為空時,對應的企業的軟件著作權公告信息截取出錯,返回步驟S201,并檢查網絡連接狀態、第一信息庫連接情況和對應的軟件著作權公告信息發布網站的URL是否發生變化;
當第五信息碼不為空,第六信息碼為空時,表明該企業軟件著作權公布頁面中顯示只有一頁,不需要翻頁,程序依次標記并截取生成如下字段:企業名稱、軟件名稱、軟件著作權登記日期、軟件著作權編號和軟件著作權公開時間,同時與第二輔助信息存貯到第一企業知識產權信息庫;
當第五信息碼和第六信息碼同時不為空,并且第七信息碼為空時,第八信息碼即為頁碼,將第八信息碼去雜余數字后加入URL的頁碼參數,生成第三URL,以第三URL中的第八信息碼為結束碼,0為開始碼生成FOR循環列出第三URL的子URL,并且依次執行步驟S203步驟,直至FOR循環結束;
步驟S204,通過步驟S203,軟件著作權的基本信息存入第一企業知識產權信息庫;
步驟S301,上述所有步驟完成后,分別對第一組步驟S101、S102、S103、S104、S105、S106、S107、S108和S109,第二組步驟S201、S202、S203和S204分別設定下一次的執行時間以定期檢索,并且可以對S101的企業信息庫中新增的企業進行增量的檢索;
步驟S302,上述所有步驟完成后,結束全部步驟。
所述的第一信息碼:通過以“<title>”標記開始和“</title>”標記結束生成;標記生成第二信息碼:開始標記為“登記日期”,結束標記為“>2”;軟件著作權類型時獲取第三信息碼,其開始標記為“中國”,結束標記為“<tdclass=”;第四信息碼通過開始標記為“[總數”,結束標記為“]”獲取生成。
執行步驟S102前執行步驟S101進行企業信息查詢中,進行企業類型、企業名稱、企業成立時間、企業注冊資金和企業注冊地址的一種條件或者多個條件組合檢索篩選出所需要檢索的數據。
步驟S109所述的輔助數據包括通過步驟S102所讀出的企業名稱傳遞而獲得企業名稱,通過步驟S107和步驟S108追加獲取當前的系統時間。
在執行步驟S102前,通過設置一定數量的采樣數據進行采樣,采樣數據包括企業擁有軟件著作權的一定量的企業,以及沒有任何軟件著作權的一定量的企業,采樣走完整個流程,查看相關采集是否正常,此步驟確定網絡是否正常,官方公布數據格式是否發生變化和確定所設置的數據編碼方式是否正確。
步驟S203所述的第五信息碼截取的開始標記與結束標記與第一信息碼的標記相同,第六信息碼截取的開始標記與結束標記與二信息碼的標記相同,第七信息碼截取的開始標記與結束標記與三信息碼的標記相同,第八信息碼起止標記分別如下:
軟件著作權:開始標記:“頁/共”,結束標記:“頁”。
步驟S103所述的編碼方式,當官方機構公布的數據對應的編碼發生變更時,本方法將根據實際所發生的變化變更編碼方式;步驟S104所述的URL中,當官方機構公布時采用的URL進行加密發布時,本方法將根據實際情況進行數據加密編碼;步驟S104所述的URLencode/URLDecode加密/解密函數將上述步驟S103的數據進行加密,其加密編碼根據實際情況進行一次加密、二次和多次加密。
步驟S203中,當第八信息碼的值大于1時,通過獲取軟件著作權的條數的統計數據第十三信息碼與現有的第二企業知識產權信息庫中的數據對比,當第十三信息碼不大于第二企業知識產權信息庫中對應的企業的軟件著作權的總計數值時,不必進行第二頁及后面的讀取;當第十三信息碼大于第二企業知識產權信息庫中對應的企業的軟件著作權的總計數值時,根據超出的數量進行增量更新。
上述實施方式僅僅為本發明的其中實施方式之一。

關 鍵 詞:
一種 實現 區域 企業 軟件 著作權 公告 摸底 管理 系統
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種實現區域企業軟件著作權公告摸底與管理的系統.pdf
鏈接地址:http://www.wwszu.club/p-6401479.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大