鬼佬大哥大
  • / 10
  • 下載費用:30 金幣  

一種用于大型服務器集群的日志集群掃描與分析方法.pdf

摘要
申請專利號:

CN201510028382.3

申請日:

2015.01.20

公開號:

CN104917627A

公開日:

2015.09.16

當前法律狀態:

授權

有效性:

有權

法律詳情: 專利權人的姓名或者名稱、地址的變更IPC(主分類):H04L 12/24變更事項:專利權人變更前:杭州安恒信息技術有限公司變更后:杭州安恒信息技術股份有限公司變更事項:地址變更前:310051 浙江省杭州市濱江區通和路浙江中財大廈15層變更后:310051 浙江省杭州市濱江區通和路浙江中財大廈15層|||授權|||實質審查的生效IPC(主分類):H04L 12/24申請日:20150120|||公開
IPC分類號: H04L12/24; G06F17/30 主分類號: H04L12/24
申請人: 杭州安恒信息技術有限公司
發明人: 鄔正平; 范淵
地址: 310051浙江省杭州市濱江區通和路浙江中財大廈15層
優先權:
專利代理機構: 杭州中成專利事務所有限公司33212 代理人: 周世駿
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510028382.3

授權公告號:

|||||||||

法律狀態公告日:

2018.12.18|||2018.06.19|||2015.10.14|||2015.09.16

法律狀態類型:

專利權人的姓名或者名稱、地址的變更|||授權|||實質審查的生效|||公開

摘要

本發明涉及系統監控與系統管理領域,旨在提供一種用于大型服務器集群的日志集群掃描與分析方法。該種用于大型服務器集群的日志集群掃描與分析方法包括單機日志分析、集群日志分析、日志集群分析和日志數據交換。本發明具有單機日志處理的簡單性,統一化處理后單機和集群日志交換高效性,“推”“拉”日志交互協議的及時性,集群日志關聯分析的全面性,事件庫結構的綜合性和高效性,事件預測的準確性。

權利要求書

權利要求書
1.  一種用于大型服務器集群的日志集群掃描與分析方法,其特征在于,包括:
(一)單機日志分析;
(二)集群日志分析;
(三)日志集群分析;
(四)日志數據交換;
(一)單機日志分析包括日志事件的統一化處理和事件快速分類,且單機日志分析在每一單機物理服務器上進行;
所述日志事件的統一化處理的具體步驟為:
步驟A:來源標識:記錄每一日志事件產生的物理服務器在集群內的唯一標識,以及產生該日志事件的虛擬服務器標識;其中,所述虛擬服務器是指運行在物理服務器虛擬化軟件上的服務器個體;
步驟B:時間戳生成:將物理服務器和虛擬服務器的即時時間戳與對應的標識綁定,并生成相應的兩個服務器簽名;
所述事件快速分類具體是指:根據來源的軟硬件層級和預定義的嚴重程度,將所有日志事件分入不同的集合,并存入對應的文件;且若日志事件的嚴重程度超過預先定義的程度,則將該日志事件作為緊急事件推送至日志集群分析;
(二)集群日志分析包括整體事件的關聯處理和集群事件的來源分析,且集群日志分析在集群主管機上進行;所述集群主管機是指集群內用于管理的物理服務器;
所述整體事件的關聯處理具體包括:1、通過比較集群整體日志事件時間戳之間的相互關系,建立整體日志事件之間的關系,包括先后、并發;2、通過比較集群整體日志事件來源的軟硬件層級,建立整體日志事件之間的因果關系;
所述集群事件的來源分析具體是指:記錄導致集群日志事件的物理服務器列表;
(三)日志集群分析用于集群中各類日志的歸總以及集群平臺當前和未來運行狀況的預測,具體包括下述步驟:
步驟C:事件庫的建立或更新:當出現集群日志事件需要進行集群日志分析,或者有緊急事件從單機日志分析推送至日志集群分析,作為第一個集群事件,則觸發建立事件庫;在建立有事件庫后,當出現集群日志事件需要進行集群日志分析,或者有緊急事件從單機日志分析推送至日志集群分析,則觸發更新事件庫;
其中,所述事件庫存儲于集群主管機的一個數據庫中;
步驟D:事件庫統計:每一次進行步驟C中的事件庫更新時,計算事件庫中對應事件在特定時間窗口內的出現次數,并重新計算事件庫中每一事件的出現頻率;
其中,所述特定時間窗口的初始大小預先設定,并能自動調整大小;
步驟E:事件庫建模:建立基于事件頻率、事件來源以及依賴關系的事件庫模型,用于表達不同事件之間的因果關系或先后關系;其中,所述事件頻率通過步驟D獲得,所述事件來源通過步驟A和集群日志分析中的集群事件的來源分析獲得,所述依賴關系通過集群日志分析中的整體事件的關聯處理獲得;
事件庫模型存儲在哈希鏈表樹中,樹形結構的父子指針表示依賴關系中的因果關系或先后關系,樹節點內存儲事件頻率和事件來源,事件索引由哈希鏈表表示;
步驟F:事件模式識別:利用模式識別方法,對步驟E建立的事件庫模型中的信息進行模式的建立和識別,并記錄所有顯示較強統計意義的事件模式,用于為集群平臺緊急狀況監測和預警提供依據;
其中,所述模式識別方法包括主元分析、貝葉斯決策理論方法;所述模式識別的依據是事件來源、事件頻率和事件關系;所述顯示較強統計意義的事件模式是指超過設定值的事件模式,包括出現次數超過設定值的事件模式、出現頻率超過設定值的事件模式、以一個緊急事件結束的事件模式;
步驟G:集群平臺運行狀況預警:當步驟F中識別出顯示較強統計意義的事件模式并記錄時,發出平臺運行狀況警告通知,同時對顯示較強統計意義的事件模式的日志條目進行記錄;
步驟H:集群平臺未來事件預測:根據步驟E中建立的事件庫模型,預測將來可能發生的事件,并發出針對可能發生的緊急事件的預告通知;
(四)日志數據交換用于實現日志數據在單機物理服務器和集群主管機之間進行交換,集群主管機通過集群日志分析獲得日志數據,單機物理服務器和集群主管機通過推送與查詢相結合的交互協議進行交換日志數據;
所述推送方法具體是指:單機物理服務器通過單機日志分析獲得日志數據后,即時將緊急事件及其相關信息推送并匯總到集群主管機,并定期將部分統計信息匯總到集群主管機;其中,單機物理服務器進行定期匯總的匯總頻率,由系統根據集群內部可使用通信帶寬的情況自動調整;
所述查詢方法具體是指:集群主管機在發出步驟G中的平臺運行狀況警告通知、發出步驟H中的針對可能發生的緊急事件的預告通知前,向單機物理服務器以查詢的方式確認相關信息。

說明書

說明書一種用于大型服務器集群的日志集群掃描與分析方法
技術領域
本發明是關于系統監控與系統管理領域,特別涉及一種用于大型服務器集群的日志集群掃描與分析方法。
背景技術
在各種云計算服務日益普及到千家萬戶、超級計算助推國家絕大多數核高基項目的今天,服務器集群的穩定與安全成為這一新型計算模式成功的關鍵。而集群內部的掃描與分析是提供這種穩定性與安全性最及時和可靠的途徑。
首先,現有的日志分析方法專注于單機節點日志的聚攏和統一管理,如專利CN103856354A“一種集群存儲系統日志統一管理實現方法”和CN102724063A“日志采集服務器及數據包分發、日志聚類方法及網絡”中所述的方法。這類方法忽略了單機服務器本身的篩選、分類以及為集群統一監控提供可能的前期預測和即時狀況確認的能力。
其次,現有云計算服務器日志管理則專注于單機物理服務器上的日志分類、篩選,并為管理員的手動維護提供方便,如專利CN103475535A“云計算服務器日志管理系統”和CN102594598A“一種日志管理系統及其實現方法”中所描述的技術。這類技術忽略了基于服務器集群整體的統一管理和監控調度,不利于發揮服務器集群特別是大型服務器集群的整體資源整合與共享。
所以目前仍沒有一個系統的技術來支撐日志集群的統一掃描與整體分析,以得到當前狀況及未來運行趨勢的方法或技術。服務器集群的各種日志可以提供關于整個集群平臺運行狀況最及時、最全面的信息。
發明內容
本發明的主要目的在于克服現有技術中的不足,提供一種能夠充分利用單機服務器上最及時的日志信息以及一種“推”“拉”結合的高效日志數據交換協議來全面實時地監控和預警整個平臺的穩定性和安全性的技術。為解決上述技術問題,本發明的解決方案是:
提供一種用于大型服務器集群的日志集群掃描與分析方法,包括:
(一)單機日志分析;
(二)集群日志分析;
(三)日志集群分析;
(四)日志數據交換;
(一)單機日志分析包括日志事件的統一化處理和事件快速分類,且單機日志分析在每一單機物理服務器上進行;
所述日志事件的統一化處理的具體步驟為:
步驟A:來源標識:記錄每一日志事件(日志事件是指日志里包含的單個事件)產生的物理服務器在集群內的唯一標識,以及產生該日志事件的虛擬服務器標識;其中,所述虛擬服務器是指運行在物理服務器虛擬化軟件上的服務器個體;
步驟B:時間戳生成:將物理服務器和虛擬服務器的即時時間戳與對應的標識綁定,并生成相應的兩個服務器簽名;
所述事件快速分類具體是指:根據來源的軟硬件層級和預定義的嚴重程度,將所有日志事件分入不同的集合,并存入對應的文件(每一個集合對應一個文件);且若日志事件的嚴重程度超過預先定義的程度,則將該日志事件作為緊急事件推送至日志集群分析;
(二)集群日志分析包括整體事件的關聯處理和集群事件的來源分析,且集群日志分析在集群主管機上進行;所述集群主管機是指集群內用于管理的物理服務器(集群主管機通常不提供服務而專用于管理);
所述整體事件的關聯處理具體包括:1、通過比較集群整體日志事件時間戳之間的相互關系,建立整體日志事件之間的關系,包括先后、并發;2、通過比較集群整體日志事件來源的軟硬件層級,建立整體日志事件之間的因果關系;
所述集群事件的來源分析具體是指:記錄導致集群日志事件的物理服務器列表(集群日志事件通常不包含虛擬服務器的信息);
(三)日志集群分析用于集群中各類日志的歸總以及集群平臺當前和未來運行狀況的預測,具體包括下述步驟:
步驟C:事件庫的建立或更新:當出現集群日志事件需要進行集群日志分析,或者有緊急事件從單機日志分析推送至日志集群分析,作為第一個集群事件,則觸發建立事件庫;在建立有事件庫后,當出現集群日志事件需要進行集群日志分析,或者有緊急事件從單機日志分析推送至日志集群分析,則觸發更新事件庫;
其中,所述事件庫存儲于集群主管機的一個數據庫中;
步驟D:事件庫統計:每一次進行步驟C中的事件庫更新時,計算事件庫中對應事件在特定時間窗口內的出現次數,并重新計算事件庫中每一事件的出現頻率;
其中,所述特定時間窗口的初始大小(由系統管理員)預先設定,并能自動調整大小(如果事件庫更新的頻率增高,這一時間窗口將自動縮小;反之,則自動增大);
步驟E:事件庫建模:建立基于事件頻率、事件來源以及依賴關系的事件庫模型(事件庫模型是指事件庫里各種事件間關系的統稱),用于表達不同事件之間的因果關系或先后關系;其中,所述事件頻率通過步驟D獲得,所述事件來源通過步驟A和集群日志分析中的集群事件的來源分析獲得,所述依賴關系通過集群日志分析中的整體事件的關聯處理獲得;
事件庫模型存儲在哈希鏈表樹中,樹形結構的父子指針表示依賴關系中的因果關系或先后關系,樹節點內存儲事件頻率和事件來源,事件索引由哈希鏈表表示;
步驟F:事件模式識別:利用模式識別方法,對步驟E建立的事件庫模型中的信息進行模式(模式是指事件庫里有統計意義的事件序列)的建立和識別,并記錄所有顯示較強統計意義的事件模式,用于為集群平臺緊急狀況監測和預警提供依據;
其中,所述模式識別方法包括主元分析、貝葉斯決策理論方法;所述模式識別的依據是事件來源、事件頻率和事件關系;所述顯示較強統計意義的事件模式是指超過設定值的事件模式,包括出現次數超過設定值的事件模式、出現頻率超過設定值的事件模式、以一個緊急事件(嚴重程度超過預先定義的程度的事件)結束的事件模式;
步驟G:集群平臺運行狀況預警:當步驟F中識別出顯示較強統計意義的事件模式并記錄時,發出平臺運行狀況警告通知,同時對顯示較強統計意義的事件模式的日志條目(這一事件模式可以未完全發生)進行記錄;
步驟H:集群平臺未來事件預測:根據步驟E中建立的事件庫模型(包括已經計算出的樹形結構中父子節點之間的頻率依賴關系),預測將來可能發生的事件(每一對發生頻率相同的父子節點之間有100%的依賴關系,所以一旦父節點中的事件已經發生,子節點中的事件也必然會發生;發生頻率不同的父子節點事件之間的依賴關系可以通過統計方法、基于神經網絡或規則挖掘等的方法進行計算和預測),并發出針對可能發生的緊急事件(一般為嚴重程度超過預先定義的程度)的預告通知;
(四)日志數據交換用于實現日志數據在單機物理服務器和集群主管機之間進行交換,集群主管機通過集群日志分析獲得日志數據,單機物理服務器和集群主管機通過推送(“推”)與查詢(“拉”)相結合的交互協議進行交換日志數據;
所述推送方法具體是指:單機物理服務器通過單機日志分析獲得日志數據后,即時將緊急事件及其相關信息推送并匯總到集群主管機,并定期將部分統計信息(主要包括當前統計時間窗口內的日志集合、日志總數和緊急事件總數)匯總到集群主管機;其中,單機物理服務器進行定期匯總的匯總頻率,由系統根據集群內部可使用通信帶寬的情況自動調整(當集群內部可使用通信帶寬變大時,匯總頻率將自動升高;帶寬變小時,匯總頻率將自動減小);
所述查詢方法具體是指:集群主管機在發出步驟G中的平臺運行狀況警告通知、發出步驟H中的針對可能發生的緊急事件的預告通知前,向單機物理服務器以查詢的方式確認相關信息。
與現有技術相比,本發明的有益效果是:
本發明具有單機日志處理的簡單性,統一化處理后單機和集群日志交換高效性,“推”“拉”日志交互協議的及時性,集群日志關聯分析的全面性,事件庫結構的綜合性和高效性,事件預測的準確性。
附圖說明
圖1為本發明中的哈希表模式庫索引示例圖。
圖2為本發明中的模式庫關聯關系樹形存儲示例圖。
圖3為本發明中的哈希鏈表樹聯合數據結構示例圖。
具體實施方式
首先需要說明的是,本發明是計算機技術在系統監控與系統管理領域的一種應用,在本發明的實現過程中,會涉及到多個軟件功能模塊的應用。申請人認為,如在仔細閱讀申請文件、準確理解本發明的實現原理和發明目的以后,在結合現有公知技術的情況下,本領域技術人員完全可以運用其掌握的軟件編程技能實現本發明。
下面結合附圖與具體實施方式對本發明作進一步詳細描述:
一種用于大型服務器集群的日志集群掃描與分析方法,包括:
(一)單機日志分析;
(二)集群日志分析;
(三)日志集群分析;
(四)日志數據交換。
(一)單機日志分析包括日志事件的統一化處理和事件快速分類,且單機日志分析在每一單機物理服務器上進行。
所述日志事件的統一化處理的具體步驟為:
步驟A:來源標識:記錄每一日志事件產生的物理服務器在集群內的唯一標識,以及產生該日志事件的虛擬服務器標識;其中,所述虛擬服務器是指運行在物理服務器虛擬化軟件上的服務器個體;
步驟B:時間戳生成:將物理服務器和虛擬服務器的即時時間戳與對應的標識綁定,并生成相應的兩個服務器簽名。
所述事件快速分類具體是指:根據來源的軟硬件層級和預定義的嚴重程度,將所有日志事件分入不同的集合,并存入對應的文件(每一個集合對應一個文件);且若日志事件的嚴重程度超過預先定義的程度,則將該日志事件作為緊急事件推送至日志集群分析。
(二)集群日志分析包括整體事件的關聯處理和集群事件的來源分析,且集群日志分析在集群主管機上進行;所述集群主管機是指集群內用于管理的物理服務器(集群主管機通常不提供服務而專用于管理)。
所述整體事件的關聯處理具體包括:1、通過比較集群整體日志事件時間戳之間的相互關系,建立整體日志事件之間的關系,包括先后、并發;2、通過比較集群整體日志事件來源的軟硬件層級,建立整體日志事件之間的因果關系。
所述集群事件的來源分析具體是指:記錄導致集群日志事件的物理服務器列表(集群日志事件通常不包含虛擬服務器的信息)。
(三)日志集群分析用于集群中各類日志的歸總以及集群平臺當前和未來運行狀況的預測,具體包括下述步驟:
步驟C:事件庫的建立或更新:當出現集群日志事件需要進行集群日志分析,或者有緊急事件從單機日志分析推送至日志集群分析,作為第一個集群事件,則觸發建立事件庫;在建立有事件庫后,當出現集群日志事件需要進行集群日志分析,或者有緊急事件從單機日志分析推送至日志集群分析,則觸發更新事件庫。
其中,所述事件庫存儲于集群主管機的一個數據庫中。
步驟D:事件庫統計:每一次進行步驟C中的事件庫更新時,計算事件庫中對應事件在特定時間窗口內的出現次數,并重新計算事件庫中每一事件的出現頻率。
其中,所述特定時間窗口的初始大小(由系統管理員)預先設定,并能自動調整大小,如果事件庫更新的頻率增高,這一時間窗口將自動縮小;反之,則自動增大。
步驟E:事件庫建模:建立基于事件頻率、事件來源以及依賴關系的事件庫模型,用于表達不同事件之間的因果關系或先后關系;其中,所述事件頻率通過步驟D獲得,所述事件來源通過步驟A和集群日志分析中的集群事件的來源分析獲得,所述依賴關系通過集群日志分析中的整體事件的關聯處理獲得。
事件庫模型存儲在哈希鏈表樹中,樹形結構的父子指針表示依賴關系中的因果關系或先后關系,樹節點內存儲事件頻率和事件來源,事件索引由哈希鏈表表示。詳細可參考圖3所示,哈希鏈表樹是哈希鏈表和樹(前綴樹、后綴樹或根據模式庫特點構建的一般樹)的結合體,該全新的聯合數據結構使得事件模式庫的更新、統計、預測速度得到極大的優化和提升。其中,樹結構可以用父子節點間的指針或孩子兄弟節點間的指針形 式來實現,選擇哪一種實現由模式庫在哈希表中的表現形式決定。因為哈希鏈表中同一索引項的鏈表按字典序排序,兩種樹結構形式都可以用;圖3所用為第一種形式。
步驟F:事件模式識別:利用模式識別方法,對步驟E建立的事件庫模型中的信息進行模式的建立和識別,并記錄所有顯示較強統計意義的事件模式,用于為集群平臺緊急狀況監測和預警提供依據。
其中,所述模式識別方法包括主元分析、貝葉斯決策理論方法。所述模式識別的依據是事件來源、事件頻率和事件關系。所述顯示較強統計意義的事件模式是指超過設定值的事件模式,包括出現次數超過設定值的事件模式、出現頻率超過設定值的事件模式、以一個緊急事件(嚴重程度超過預先定義的程度的事件)結束的事件模式。
步驟G:集群平臺運行狀況預警:當步驟F中識別出顯示較強統計意義的事件模式并記錄時,發出平臺運行狀況警告通知,同時對顯示較強統計意義的事件模式的日志條目(這一事件模式可以未完全發生)進行記錄。
步驟H:集群平臺未來事件預測:根據步驟E中建立的事件庫模型(包括已經計算出的樹形結構中父子節點之間的頻率依賴關系),預測將來可能發生的事件(每一對發生頻率相同的父子節點之間有100%的依賴關系,所以一旦父節點中的事件已經發生,子節點中的事件也必然會發生;發生頻率不同的父子節點事件之間的依賴關系可以通過統計方法、基于神經網絡或規則挖掘等的方法進行計算和預測),并發出針對可能發生的緊急事件(一般為嚴重程度超過預先定義的程度)的預告通知。
(四)日志數據交換用于實現日志數據在單機物理服務器和集群主管機之間進行交換,集群主管機通過集群日志分析獲得日志數據,單機物理服務器和集群主管機通過推送(“推”)與查詢(“拉”)相結合的交互協議進行交換日志數據。
所述推送方法具體是指:單機物理服務器通過單機日志分析獲得日志數據后,即時將緊急事件及其相關信息推送并匯總到集群主管機,并定期將部分統計信息匯總到集群主管機;其中,單機物理服務器進行定期匯總的匯總頻率,由系統根據集群內部可使用通信帶寬的情況自動調整(當集群內部可使用通信帶寬變大時,匯總頻率將自動升高;帶寬變小時,匯總頻率將自動減小)。
所述查詢方法具體是指:集群主管機在發出步驟G中的平臺運行狀況警告通知、發出步驟H中的針對可能發生的緊急事件的預告通知前,向單機物理服務器以查詢的方式確認相關信息。
如圖1所示,哈希表用于事件模式的快速更新和查找。鏈表結構在哈希表中的使用可以有效地減少存儲空間和哈希表的更新耗時。具有相同長度的事件模式會分享同一索引,比如“AAAB”和“AAXN”。同時,在哈希表的同一索引項鏈表中的事件可以按字典序排序,比如“AAAB”在“AAXN”之前,“AAXN”在“ACFG”之前。
如圖2所示,前綴樹、后綴樹或根據模式庫特點構建的一般樹用于事件間關聯的快速更新和查找。如果是前綴樹,具有公共前綴的事件模式將存在于樹的同一分支中,比如“AA”和“AC”在以“A”為根節點的同一分支中,而“AAAB”和“AAXN”在以“AA”為根節點的同一分支中;如果是后綴樹,子結點們則存在于公共后綴所在的分支中。
最后,需要注意的是,以上列舉的僅是本發明的具體實施例。顯然,本發明不限于以上實施例,還可以有很多變形。本領域的普通技術人員能從本發明公開的內容中直接導出或聯想到的所有變形,均應認為是本發明的保護范圍。

關 鍵 詞:
一種 用于 大型 服務器 集群 日志 掃描 分析 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種用于大型服務器集群的日志集群掃描與分析方法.pdf
鏈接地址:http://www.wwszu.club/p-6373593.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大