鬼佬大哥大
  • / 9
  • 下載費用:30 金幣  

一種數據并行處理方法.pdf

摘要
申請專利號:

CN201510430266.4

申請日:

2015.07.21

公開號:

CN105045879A

公開日:

2015.11.11

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/30申請日:20150721|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 上海融甸信息科技有限公司
發明人: 吳衛軍; 范磊
地址: 200333上海市普陀區中江路879弄1號412室
優先權:
專利代理機構: 上海科盛知識產權代理有限公司31225 代理人: 翁惠瑜
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510430266.4

授權公告號:

|||

法律狀態公告日:

2015.12.09|||2015.11.11

法律狀態類型:

實質審查的生效|||公開

摘要

本發明涉及一種數據并行處理方法,該方法包括相互獨立的數據處理階段、數據使用階段和數據合并階段,所述數據處理階段與數據使用階段并行,所述數據使用階段與數據合并階段互斥,其中,所述數據合并階段是對數據歷史區進行替換和添加操作,所述數據歷史區分為當前分區和歷史分區,所述當前分區存儲無結束時間的數據,所述歷史分區存儲有結束時間的數據。與現有技術相比,本發明具有實現數據使用與加載并行、提高數據同步性等優點。

權利要求書

1.一種數據并行處理方法,其特征在于,該方法包括相互獨立的數據處理階
段、數據使用階段和數據合并階段,所述數據處理階段與數據使用階段并行,所述
數據使用階段與數據合并階段互斥,其中,所述數據合并階段是對數據歷史區進行
替換和添加操作,所述數據歷史區分為當前分區和歷史分區,所述當前分區存儲無
結束時間的數據,所述歷史分區存儲有結束時間的數據。
2.根據權利要求1所述的數據并行處理方法,其特征在于,所述數據使用階
段與數據合并階段互斥的機制包括數據使用優先機制和數據合并優先機制。
3.根據權利要求2所述的數據并行處理方法,其特征在于,所述數據使用優
先機制具體為:
當存在數據使用任務命令時,數據合并無限期等待。
4.根據權利要求2所述的數據并行處理方法,其特征在于,所述數據合并優
先機制具體為:
當數據使用任務的當前步驟運行完后,判斷下一步驟需使用的數據表是否存在
數據合并命令,若是,則等待數據合并完成后執行下一步驟,若否,則直接執行下
一步驟。
5.根據權利要求1所述的數據并行處理方法,其特征在于,所述數據處理階
段和數據合并階段的運行模式包括:
a)一天處理,一天合并;或
b)多天處理,一次合并。

說明書

一種數據并行處理方法

技術領域

本發明涉及數據處理領域,尤其是涉及一種數據并行處理方法。

背景技術

數據使用要求在數據使用期間保持數據正在開始時間點上是一致的,在數據開
始使用后,數據就不能被增刪改,同時為提高數據加載的效率往往對時間表采用表
鎖。因此數據處理過程與數據使用間存在沖突,使得在數據使用期間無法做數據加
載,數據加載期間無法使用數據。系統的利用率不高,難以適應高強度,長時間的
分析使用。而采用通常的兩份鏡像數據方法對大數據量存儲(使用的數據環境達到
10T以上容量)和同步帶來了困難(常用的數據庫級日志同步技術難以采用)。

發明內容

本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種數據并行處
理方法。

本發明的目的可以通過以下技術方案來實現:

一種數據并行處理方法,該方法包括相互獨立的數據處理階段、數據使用階段
和數據合并階段,所述數據處理階段與數據使用階段并行,所述數據使用階段與數
據合并階段互斥,其中,所述數據合并階段是對數據歷史區進行替換和添加操作,
所述數據歷史區分為當前分區和歷史分區,所述當前分區存儲無結束時間的數據,
所述歷史分區存儲有結束時間的數據。

所述數據使用階段與數據合并階段互斥的機制包括數據使用優先機制和數據
合并優先機制。

所述數據使用優先機制具體為:

當存在數據使用任務命令時,數據合并無限期等待。

所述數據合并優先機制具體為:

當數據使用任務的當前步驟運行完后,判斷下一步驟需使用的數據表是否存在
數據合并命令,若是,則等待數據合并完成后執行下一步驟,若否,則直接執行下
一步驟。

所述數據處理階段和數據合并階段的運行模式包括:

a)一天處理,一天合并;或

b)多天處理,一次合并。

與現有技術相比,本發明具有以下優點:

1)數據處理階段與數據使用階段通過數據合并階段實現完全獨立且并行;

2)合并階段與數據處理互斥,可以通過選擇處理的優先級提高數據處理效率;

3)由于數據歷史特點只對當前數據作update,歷史數據是不變化的,因此將
整個數據歷史區分為當前數據和歷史數據,作為兩個分區存儲,方便對當前數據作
整體替換和歷史數據作添加;

4)數據采用替換和添加相結合的方法平衡了性能和存儲容量,在增加少量存
儲基礎上大幅度縮短了合并時間。

具體實施方式

下面結合具體實施例對本發明進行詳細說明。本實施例以本發明技術方案為前
提進行實施,給出了詳細的實施方式和具體的操作過程,但本發明的保護范圍不限
于下述的實施例。

本實施例提供一種數據并行處理方法,該方法包括相互獨立的數據處理階段、
數據使用階段和數據合并階段,所述數據處理階段與數據使用階段并行,所述數據
使用階段與數據合并階段互斥。數據處理、數據合并、數據使用三者是各自獨立運
行,通過狀態控制達到數據一致性。

所述數據合并階段是對數據歷史區進行替換和添加操作,所述數據歷史區分為
當前分區和歷史分區,所述當前分區存儲無結束時間的數據,所述歷史分區存儲有
結束時間的數據。一般當前數據量要遠大于當天的歷史數據量(按10%的變化量
測算可達到10倍)。因此當前數據采用替換的方法,先導入影子表,在合并階段與
正式表切換,達到快速合并效果。雖然一天的歷史數據要遠小于當前數據,但是三
年的歷史數據積累又遠大于當天的歷史數據,不能采用影子表替換的方法,而采用
實時添加的方法,完成歷史數據合并。

數據處理階段和數據合并階段是相互獨立的兩個過程支持:

a)一天處理,一天合并;或

b)多天處理,一次合并。

在對數據實時性要求不高時,建議每周合并一次可以簡化合并與數據使用間沖
突處理。

上述數據并行處理方法的具體流程如下:

1、利用數據歷史的特點,只針對變化的數據(狀態類數據)建立整體的影子
表。

2、將當天的全量數據(全量更新表和時間拉鏈表的當前分區)和前一天的歷
史增量數據(增量表和時間拉鏈表的歷史分區)文件處理完成后導入數據庫作為影
子數據。

3、針對不同類型的表設定不同的影子表:

●全量更新表:表結構和數據完全一致

●增量表:表結構完全和增量數據一致

●數據歷史表:明確區分的當前數據和歷史數據。將數據存儲上定義結束時
間為無的為當前數據,有結束時間的為歷史數據。可以視為全量更新表和
增量表的組合。

4、在數據使用的間隙,將當天數據與數據庫中當前數據作整體切換(全量更
新表和時間拉鏈表的當前分區),將當天的歷史數據以增量方式合并到歷史數據(增
量表和時間拉鏈表的歷史分區)。

5、循環第2步開始新一天的數據處理。

6、在長時間使用數據的情形下,可以重復第2累計多天的數據處理,在其后
的適當時機在第3步一次性完成數據合并。

上述過程中,處理階段與數據使用完全并行,合并階段與數據使用有沖突。

所述數據使用階段與數據合并階段互斥的機制包括數據使用優先機制和數據
合并優先機制。

處理階段是指對原始的數據源進行加工成與實際的數據一致,給后續的合并階
段(整體切換)提供基礎,例如:為全量更新表構建當天的影子表,在合并階段做
一次表名切換,以提高切換效率。

數據使用(模型)是指對正式表的一連串查詢,涉及的表數量,步驟,查詢時
間在原則上沒有限制。在合并階段需要處理正式表,此時正式表是不能被使用的,
因此需要在合并處理和模型使用之間建立互斥機制。在一方使用時,另一方等待,
已經在運行的不能自動取消。

數據使用優先機制(模型優先)具體為:當存在數據使用時,數據合并無限期
等待。

數據合并優先機制(合并優先)具體為:當數據使用的當前步驟運行完后,判
斷下一步驟需使用的數據表是否存在數據合并命令,若是,則等待數據合并完成后
執行下一步驟,若否,則執行下一步驟。

合并處理與模型使用互斥案例:

有兩個任務同時運行,每個任務下以串行的方式運行兩個模型(這里的模型是
指在審計系統中對數據使用的一致方式),相同的模型使用相同的數據表。每個模
型的實際使用時間不同,如表1所示。

數據處理時間限定在18h-22h,數據合并時間限定在23時開始,每天只檢測
一次(可以根據實際情況調整以上時間點和頻次,設定以上時間僅為舉例說明)。

表1


1)模型優先模式如表2所示。

表2



2)合并優先模式如表3所示。

表3



采用上述數據處理方法進行數據合并的具體實例如下。

當前系統已更新到20150101,以下示例處理20150102數據的處理流程和合并
流程。其中,灰色表頭是數據文件,保存在數據處理服務器中,黑色表頭是數據庫
表,保存在數據庫服務器中。

1、表狀態

當前數據表


歷史數據表


2、數據狀態

前一天數據文件(20150101),與表的當前數據一致


當天數據(20150102)


3、合并流程

合并后當前數據表(替換)


合并后歷史數據表(添加)


關 鍵 詞:
一種 數據 并行 處理 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種數據并行處理方法.pdf
鏈接地址:http://www.wwszu.club/p-6401422.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大