鬼佬大哥大
  • / 7
  • 下載費用:30 金幣  

一種人工干預校準的自動化數據采集方法.pdf

摘要
申請專利號:

CN201510302065.6

申請日:

2015.06.05

公開號:

CN104915411A

公開日:

2015.09.16

當前法律狀態:

撤回

有效性:

無權

法律詳情: 發明專利申請公布后的視為撤回IPC(主分類):G06F 17/30申請公布日:20150916|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 張赟
發明人: 張赟; 黃家樂; 陳國勝
地址: 518000廣東省深圳市南山區東濱路城市山林17-2D號
優先權:
專利代理機構: 代理人:
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510302065.6

授權公告號:

|||

法律狀態公告日:

2018.12.21|||2015.09.16

法律狀態類型:

發明專利申請公布后的視為撤回|||公開

摘要

本發明提出了一種人工干預校準的自動化數據采集方法,包括以下步驟:提供簡單直觀的數據采集建模工具;根據數據使用人員提供的模型進行小規模數據預采集;對采集數據中的id和class進行人工校準;利用人工校準后的最終數據采集模型進行大規模數據抓取,本發明提供一種可供非技術人員直接操作的數據采集工具,用以解決現有技術中不能由數據使用人員設計采集模型和數據準確度無法實時進行校準的問題,本發明杜絕了過往數據采集顆粒度過高、無效信息參雜和提交規格不合理的問題。

權利要求書

權利要求書
1.  一種人工干預校準的自動化數據采集方法,其特征在于,包括以下步驟:
A、提供簡單直觀的數據采集建模工具;
B、根據數據使用人員提供的模型進行小規模數據預采集;
C、對采集數據中的id和class進行人工校準;
D、利用人工校準后的最終數據采集模型進行大規模數據抓取。

2.  根據權利要求1所述的一種人工干預校準的自動化數據采集方法,其特征在于:所述步驟A包括提供直觀簡潔的后臺界面,以表格的方式向目標用戶提供數據采集建模工具,用戶能夠根據示范,進行標的數據源地址的錄入,采集數據規格描述以及分類數據庫定義。

3.  根據權利要求2所述的一種人工干預校準的自動化數據采集方法,其特征在于:所述步驟B包括以下步驟:
   1)根據數據采集人員提供的地址,分析標的網址類型,獲取網頁上的鏈接并根據鏈接地址的相似度進行歸類;
   2)數據采集人員根據歸類地址進行數據采集建模,對歸類地址進行定義,此時操作界面提供相對的分類名稱,創建數據源地址和數據采集庫類目的一一對應關系,創建數據采集第一原始模型;
   3)本數據采集建模工具根據數據采集人員提供的原始數據采集模型,進行小規模數據預采集,本數據采集建模工具將隨機抽取指定類目下的數據信息,由用戶指定對應值到對應內容框中,由此創建數據采集第二原始模型。

4.  根據權利要求3所述的一種人工干預校準的自動化數據采集方法,其特征在于:所述步驟C包括以下步驟:
   1)當小規模數據采集完成之后,根據用戶填寫的內容生成匹配算法,具體操作為:找到最靠近該地址的id或class,建立一一匹配規則;
   2)對于具備id的數據源,由于id具備唯一對應的特征,所以能夠完成數據源與數據庫模型的直接對應關系,即時獲得最終采集模型;
   3)對于不具備class的數據源,可將該class涉及的所有數據均采集過來,此時進行人工校準,選取正確的數據地址與數據庫模型進行匹配,通過該匹配算法進行對應頁面的數據采集并輸出結果,用戶將對該數據進行最終的判斷及確認,正式生成最終采集模型。

5.  根據權利要求4所述的一種人工干預校準的自動化數據采集方法,其特征在于:所述步驟D包括利用最終采集模型對數據源實現批量定向數據抓取,實現精準數據的大規模輸出。

說明書

說明書一種人工干預校準的自動化數據采集方法
技術領域
本發明涉及網絡數據采集技術領域,尤其涉及一種能夠讓非技術人員直接自定義數據采集及分類的方法及工具。
背景技術
數據采集是一種網絡常見的數據搜集方法。用戶通過對數據開放網站的站點分析,數據篩選,進行定向數據搜集,該數據搜集后能夠進行整合加工,為其他領域所使用。
現有技術中,數據采集一般由技術人員進行機械性海量數據采集,在數據的精度、采集過程中的應變能力上都無法提供保證,大部分數據采集過來后還面臨著大量的深度加工工作。大部分情況下由于技術采集人員對數據本身的需求和應用場合不了解,會造成包括但不限于如下的問題:無法保證數據與數據需求是一一匹配的;當數據源格式發生變化后無法進行及時的干預,最終輸出是才發現數據問題,耽誤采集時間;無法提供通用采集工具,小規模數據采集時成本過高;真正數據使用人員不能參與到模型設計及數據校驗過程中去。
 因此,針對上述現有技術中存在的技術問題,就亟需提出一種人工干預校準的自動化數據采集方法。
發明內容
本發明提供一種可供非技術人員直接操作的數據采集方法,用以解決現有技術中不能由數據使用人員設計采集模型和數據準確度無法實時進行校準的問題。本發明杜絕了過往數據采集顆粒度過高、無效信息參雜和提交規格不合理的問題。
本發明的技術方案是這樣實現的:一種人工干預校準的自動化數據采集方法,包括以下步驟:
A、提供簡單直觀的數據采集建模工具;
B、根據數據使用人員提供的模型進行小規模數據預采集;
C、對采集數據中的id和class進行人工校準;
D、利用人工校準后的最終數據采集模型進行大規模數據抓取。
優選地,所述步驟A包括提供直觀簡潔的后臺界面,以表格的方式向目標用戶提供數據采集建模工具,用戶能夠根據示范,進行標的數據源地址的錄入,采集數據規格描述以及分類數據庫定義。
優選地,所述步驟B包括以下步驟:
   1)根據數據采集人員提供的地址,分析標的網址類型,獲取網頁上的鏈接并根據鏈接地址的相似度進行歸類;
   2)數據采集人員根據歸類地址進行數據采集建模,對歸類地址進行定義,此時操作界面提供相對的分類名稱,創建數據源地址和數據采集庫類目的一一對應關系,創建數據采集第一原始模型;
   3)本數據采集建模工具根據數據采集人員提供的原始數據采集模型,進行小規模數據預采集,本數據采集建模工具將隨機抽取指定類目下的數據信息,由用戶指定對應值到對應內容框中,由此創建數據采集第二原始模型。
優選地,所述步驟C包括以下步驟:
   1)當小規模數據采集完成之后,根據用戶填寫的內容生成匹配算法,具體操作為:找到最靠近該地址的id或class,建立一一匹配規則;
   2)對于具備id的數據源,由于id具備唯一對應的特征,所以能夠完成數據源與數據庫模型的直接對應關系,即時獲得最終采集模型;
   3)對于不具備class的數據源,可將該class涉及的所有數據均采集過來,此時進行人工校準,選取正確的數據地址與數據庫模型進行匹配,通過該匹配算法進行對應頁面的數據采集并輸出結果,用戶將對該數據進行最終的判斷及確認,正式生成最終采集模型。
優選地,所述步驟D包括利用最終采集模型對數據源實現批量定向數據抓取,實現精準數據的大規模輸出。
本發明具有以下有益效果:
(1)本發明為缺乏技術背景的人員提供一種簡單有效但精度很高的數據采集方法,本發明僅需數據采集人員按照工具提供的格式和要求列明數據來源的地址及數據采集需求,在數據采集過程中進行直觀的數據校驗,主要是通過對多個采集結果進行勾選的方式實現數據的定位校準。該方法對數據采集人員的要求較低,數據反饋及時直觀,避免了傳統的文本或表格形式的數據返回模式,能夠比較輕松的實現數據校驗,尤其在圖片類與文字類有匹配需求的應用場景中,交互簡單體驗良好。
(2)本發明數據采集成本相對較低,能夠在小規模數據采集中發揮優勢。本發明對技術人員的開發工作進行了拆分和限定,技術人員僅會在絕對需要技術參與的環節進行開發。在未采用本工具進行數據采集的情況下,技術人員往往會在一些簡單的環節進行重復的開發,同時由于技術人員并非最終數據使用人員,往往在進行標的數據的理解上耗費不必要的精力和時間。而采用該工具,技術人員無需理解數據采集的具體內容即可模塊化的展開工作,同時因為數據使用人員的人工干預,數據最終的有效性也得到了保障,因此可以說該工具的能夠有效的提高技術人員的效率、降低數據采集成本
(3)本發明數據采集方法靈活,能夠應用于各種不同規格的數據來源之下。當前垂直化網站數量龐大,站點規格千差萬別,數據規格形式多樣。本工具初步建模、小批量采集、校準、最終模型確定、大規模數據采集的流程,能夠適應絕大部分特殊結構的數據來源,實現對多樣性數據來源的有效采集
(4)本發明采取數據精度高,格式規范,能夠直接投入到正式的數據研究中或者產品應用中取。本發明工具在建模的過程中就已經約定了最終規范化數據輸出格式,用戶能夠根據自己最終輸出的需要,進行數據建模,最終數據將按數據采集者前期約定的格式批量輸出,能夠快速投入到數據分析或商品應用中去。
(5)本發明在大數據分析及電子商務領域擁有廣泛應用前景。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明操作原理示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
實施例1:
參照圖1,本實施例提供一種人工干預校準的自動化數據采集方法,其包括以下步驟:
A、提供簡單直觀的數據采集建模工具;
B、根據數據使用人員提供的模型進行小規模數據預采集;
C、對采集數據中的id和class進行人工校準;
D、利用人工校準后的最終數據采集模型進行大規模數據抓取。
其中,所述步驟A包括提供直觀簡潔的后臺界面,以表格的方式向目標用戶提供數據采集建模工具,用戶能夠根據示范,進行標的數據源地址的錄入,采集數據規格描述以及分類數據庫定義;
其中,所述步驟B包括以下步驟:
   1)根據數據采集人員提供的地址,分析標的網址類型,獲取網頁上的鏈接并根據鏈接地址的相似度進行歸類;
   2)數據采集人員根據歸類地址進行數據采集建模,對歸類地址進行定義,此時操作界面提供相對的分類名稱(如類目地址、商品詳情地址等),創建數據源地址和數據采集庫類目的一一對應關系,創建數據采集第一原始模型;
   3)本數據采集建模工具根據數據采集人員提供的原始數據采集模型,進行小規模數據預采集,本數據采集建模工具將隨機抽取指定類目下的數據信息,由用戶指定對應值到對應內容框中,由此創建數據采集第二原始模型。
其中,所述步驟C包括以下步驟:
   1)當小規模數據采集完成之后,根據用戶填寫的內容生成匹配算法,具體操作為:找到最靠近該地址的id或class,建立一一匹配規則;
   2)對于具備id的數據源,由于id具備唯一對應的特征,所以能夠完成數據源與數據庫模型的直接對應關系,即時獲得最終采集模型;
   3)對于不具備class的數據源,可將該class涉及的所有數據均采集過來,此時進行人工校準,選取正確的數據地址與數據庫模型進行匹配,通過該匹配算法進行對應頁面的數據采集并輸出結果,用戶將對該數據進行最終的判斷及確認,正式生成最終采集模型。
其中,所述步驟D包括利用最終采集模型對數據源實現批量定向數據抓取,實現精準數據的大規模輸出。
對數據源采用動態分析方法,利用機器自學習技術手段,進行數據源的數據拆分分析及建模,對數據源關鍵性內容的定位、監控及提取,實現數據的更新實時掃描及下載,在采集工具內對所采集的數據進行分類管理,提供數據信息展示平臺,在該平臺對異常數據提出警示,經人工干預后進行數據修正,最終得到正確的數據內容,其中對數據源的關鍵性內容的定位包括利用計算機在積累的數據中建模,所述模型可適配不同類型的采集目標,在數據拆分的過程中,能夠保留數據源相互間一一對應的關系,尤其表現在圖片與文字的匹配上,能夠實現數據源的精準識別及匹配,建模包括利用鏈接地址的相似度,進行數據源的預分類,在已有采集數據庫的情況下,進行數據內容的比對和匹配,并通過人工隨機抽取地址對數據匹配情況進行校準,在建模中,根據用戶填寫內容生成匹配算法,該算法通過找到最靠近該地址的id或class并進行數據預采集,該采集輸出結果需由用戶進行確認,以用于生成最終批量采集的模型。在查找數據源id或class數據中,由于id具備唯一性,因此可對配id的數據內容實現機器自動匹配,對于僅有class的地址,則需再次引入人工校準,對隨機抽取數據與數據模型的匹配度進行一一校準。當數據模型經人工校準合格后,能夠進行最終建模確認,確認后的模型將自動進行數據源的套接、采集及分類存儲。采集工具在適用過程中都會形成自己的數據分析模型,關鍵性變量會隨同使用的具體情況進行變更,形成獨一無二的數據采集工具,該過程是一個人工干預下機器自學習的智能過程。
本發明提供一種可供非技術人員直接操作的數據采集工具,用以解決現有技術中不能由數據使用人員設計采集模型和數據準確度無法實時進行校準的問題。本發明杜絕了過往數據采集顆粒度過高、無效信息參雜和提交規格不合理的問題。
以上所述僅為本發明的較佳實施例而已,并不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。

關 鍵 詞:
一種 人工 干預 校準 自動化 數據 采集 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種人工干預校準的自動化數據采集方法.pdf
鏈接地址:http://www.wwszu.club/p-6373547.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大