鬼佬大哥大
  • / 7
  • 下載費用:30 金幣  

一種面向海量數據高效取差集的方法.pdf

摘要
申請專利號:

CN201510464150.2

申請日:

2015.07.31

公開號:

CN105069084A

公開日:

2015.11.18

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150731|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 南威軟件股份有限公司
發明人: 周華; 陳光淙; 許華堂
地址: 362000福建省泉州市豐澤區豐海路南威大廈2號樓16-22層
優先權:
專利代理機構: 泉州市文華專利代理有限公司35205 代理人: 陳雪瑩
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510464150.2

授權公告號:

||||||

法律狀態公告日:

2018.07.31|||2015.12.16|||2015.11.18

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明一種面向海量數據高效取差集實現方法,將存儲機制與索引機制相結合,實現高效取差集;在進行數據存儲時就已經對存儲位置進行分核分片規范,減少了獲取的數據執行時間,提高了執行效率,同時在數據量不斷增大的情況下,可通過增加分核數與分片數進行水平擴展,不會因為數據量增大而在取數據時耗費太多查詢時間;而在取差集時,源數據集合與目標數據集合采用位數組的存儲模式,存儲的都是去重后數據的關鍵匹配元素,避免了全元素存儲,減少了存儲空間,避免因數據量過大而導致內存溢出,在取差集匹配時,采用的是基于哈希表的位索引模式,提高了匹配效率,在取差集數據量越大情況下,越能體現性能方面的優勢。

權利要求書

1.一種面向海量數據高效取差集實現方法,其特征在于包括如
下步驟:
步驟1、數據存儲及歷史數據形成階段
包括若干個數據存儲區,每個數據存儲區下根據時間軸分類或共
性條件設置多個分核,每個分核下根據時間軸分類或共性條件設置多
個分片,分核數量及分片數量可根據數據量進行水平擴展,將海量數
據根據時間軸分類或共性條件進行分核及分片存儲形成歷史數據;
步驟2、形成源數據位數組集合與目標數據位數組集合階段
根據源數據和目標數據查詢條件分別到歷史數據相應的分片獲
取數據組成源數據集合和目標數據集合;
對獲取的源數據集合與目標數據集合分別進行去重處理,去重后
數據的匹配字段采用哈希函數映射到位陣列進行存儲,分別提取后續
會用于匹配的關鍵字段進行存儲形成位數組集合,其中,源數據位數
組集合用來存儲源數據集合的關鍵字段元素,目標數據位數組集合用
來存儲目標數據集合的關鍵字段;
步驟3、源數據位數組集合與目標數據位數組集合進行位索引匹
配取差集階段
循環源數據位數組集合中的元素,通過L個哈希映射函數得到L
個值,匹配到目標數據位數組集合中,判斷目標數據位數組是否都為
1,若全為1,則說明源數據位數組集合中的該元素在目標數據位數
組集合中,否則說明源數據位數組集合中的該元素不在目標數據位數
組集合中,將目標數據位數組集合中的該元素放到另外一個差集集合
中,循環匹配源數據位數組集合所有元素后,得到的差集集合就是源
數據集合與目標數據集合的差集,從而實現數據快速匹配取差集。

關 鍵 詞:
一種 面向 海量 數據 高效 取差集 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種面向海量數據高效取差集的方法.pdf
鏈接地址:http://www.wwszu.club/p-6385943.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大