鬼佬大哥大
  • / 12
  • 下載費用:30 金幣  

一種熱詞分析統計系統及方法.pdf

摘要
申請專利號:

CN201510685180.6

申請日:

2015.10.21

公開號:

CN105205048A

公開日:

2015.12.30

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||著錄事項變更IPC(主分類):G06F 17/27變更事項:申請人變更前:上海迪愛斯通信設備有限公司變更后:迪愛斯信息技術股份有限公司變更事項:地址變更前:200032 上海市徐匯區平江路48號1號樓6樓變更后:200233 上海市徐匯區欽江路333號41幢三層|||實質審查的生效IPC(主分類):G06F 17/27申請日:20151021|||公開
IPC分類號: G06F17/27; G06F17/30 主分類號: G06F17/27
申請人: 上海迪愛斯通信設備有限公司
發明人: 陳春東; 杜渂; 劉亮亮; 雷霆; 索濤; 王聚全; 喻小林; 汪朝輝; 戴貞清; 陳同增; 童金陵; 張嘉成
地址: 200032 上海市徐匯區平江路48號1號樓6樓
優先權:
專利代理機構: 上海碩力知識產權代理事務所 31251 代理人: 郭桂峰
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510685180.6

授權公告號:

|||||||||

法律狀態公告日:

2018.05.04|||2018.03.02|||2016.01.27|||2015.12.30

法律狀態類型:

授權|||著錄事項變更|||實質審查的生效|||公開

摘要

本發明提供了一種熱詞分析統計系統和方法,其中,該熱詞分析系統中包括:分析主題模塊,用于確定分析數據源、定義分析主題以及定義每個域的數據類型;關注詞匯模塊,用于形成關注詞匯表序列;分詞服務模塊,用于提取相應域中的數據信息,并根據關注詞匯表序列對數據信息進行分詞,產生詞元序列;索引服務模塊,用于記錄每個詞元在對應域中的索引位置和記錄每個詞元對應的數據信息,生成詞元索引文件;詞元統計模塊,用于統計每個詞元的數量;熱詞分析模塊,將生成的熱詞關聯信息和熱詞的詞頻數反饋給用戶。其實現熱詞的精確統計和熱詞關聯關系的索引存儲,解決了熱詞按類分析的需求,提高了熱詞統計的精確度。

權利要求書

權利要求書
1.  一種熱詞分析統計系統,其特征在于,所述熱詞分析統計系統中包括:
分析主題模塊、關注詞匯模塊、分詞服務模塊、索引服務模塊、詞元統計模塊以及熱詞分析模塊,其中,
所述分析主題模塊,用于確定分析數據源、定義分析主題、定義分析字段的域以及定義每個域的數據類型,產生主題數據結構;
所述關注詞匯模塊,用于確定需要關注的熱詞,形成關注詞匯表序列;
所述分詞服務模塊,分別與所述分析主題模塊和所述關注詞匯模塊連接,所述分詞服務模塊用于根據所述主題數據結構提取相應域中的數據信息,并根據所述關注詞匯表序列對所述數據信息進行分詞,產生詞元序列;
所述索引服務模塊,與所述分詞服務模塊連接,所述索引服務模塊用于記錄所述詞元序列中每個詞元在對應域中的索引位置和記錄每個詞元對應的數據信息,生成詞元索引文件;
所述詞元統計模塊,分別與所述分詞服務模塊和所述索引服務模塊連接,所述熱詞統計處理模塊用于統計每個詞元的數量;
所述熱詞分析模塊,分別與所述索引服務模塊和所述詞元統計模塊連接,所述熱詞分析模塊根據所述詞元索引文件生成熱詞關聯信息,且根據每個詞元的數量生成熱詞的詞頻數;所述熱詞分析模塊將所述熱詞關聯信息和所述熱詞的詞頻數進行反饋。

2.  如權利要求1所述的熱詞分析統計系統,其特征在于,所述分析數據源包括:數據庫數據、文本數據、半結構化數據以及非結構化數據。

3.  如權利要求1或2所述的熱詞分析統計系統,其特征在于,所述索引服務模塊中包括:第一詞元提取單元、信息提取單元以及索引關系生成單元,其中,
所述第一詞元提取單元,與所述分詞服務模塊連接,所述第一詞元提取單元從所述分詞服務模塊中提取所述詞元序列;
所述信息提取單元,與所述第一詞元提取單元,所述詞元提取單元提取所述詞元序列中每個詞元在對應數據信息中的位置關系,且提取所述詞元序列中每個詞元與所述主題結構中對應域的關聯信息;
所述索引關系生成單元,與所述信息提取單元連接,所述索引關系生成單元根據每個詞元在對應數據信息中的位置關系和每個詞元與所述主題結構中對應域的關聯信息生成相應的索引單元,形成詞元索引文件。

4.  如權利要求3所述的熱詞分析統計系統,其特征在于,每個詞元與所述主題結構中對應域的關聯信息包括:
詞元對應的數據信息的來源、詞元的產生時間、詞元產生的區域、與該詞元同時出現的高頻詞元。

5.  如權利要求3或4所述的熱詞分析統計系統,其特征在于,所述詞元統計模塊中包括:第二詞元提取單元和詞頻統計單元,其中,
所述第二詞元提取單元,與所述分詞服務模塊連接,所述第二詞元提取單元從所述分詞服務模塊中提取所述詞元序列;
詞頻統計單元,分別與所述第二詞元提取單元和所述索引服務模塊連接,所述詞頻統計單元根據所述詞元序列中的每個詞元分別遍歷所述詞元索引文件中所有索引單元,且遍歷每個索引單元中對應該詞元的每個域,以統計每個詞元的數量。

6.  一種熱詞分析統計方法,其特征在于,所述熱詞分析統計方法應用于如權利要求1-5任意一項所述的熱詞分析統計系統,所述熱詞分析統計方法包括以下步驟:
S1確定分析數據源、定義分析主題、定義分析字段的域以及定義每個域的數據類型,產生主題數據結構;
S2確定需要關注的熱詞,形成關注詞匯表序列;
S3根據所述主題數據結構提取相應域中的數據信息,并根據所述關注詞 匯表序列對所述數據信息進行分詞,產生詞元序列;
S4記錄所述詞元序列中每個詞元在對應域中的索引位置和記錄每個詞元對應的數據信息,生成詞元索引文件;
S5統計每個詞元的數量;
S6根據所述詞元索引文件生成熱詞關聯信息,且根據每個詞元的數量生成熱詞的詞頻數;
S7將所述熱詞關聯信息和所述熱詞的詞頻數進行反饋。

7.  如權利要求6所述的熱詞分析統計方法,其特征在于,在步驟S4中,具體包括以下步驟:
S41提取所述詞元序列;
S42提取所述詞元序列中每個詞元在對應數據信息中的位置關系;
S43提取所述詞元序列中每個詞元與所述主題結構中對應域的關聯信息;
S44根據每個詞元在對應數據信息中的位置關系和每個詞元與所述主題結構中對應域的關聯信息生成相應的索引單元,形成詞元索引文件。

8.  如權利要求7所述的熱詞分析統計方法,其特征在于,在步驟S5中,具體包括:
S51提取所述詞元序列;
S52根據所述詞元序列中的每個詞元分別遍歷所述詞元索引文件中所有索引單元;
S53遍歷每個索引單元中對應該詞元的每個域,以統計每個詞元的數量。

說明書

說明書一種熱詞分析統計系統及方法
技術領域
本發明涉及數據處理技術領域,尤其涉及一種熱詞分析統計系統及方法。
背景技術
隨著信息化水平的不斷提高,人們對數據的需求不再只停留在簡單的數據獲取與數據檢索上,而是更加注重于利用搜集到的信息發現并解決其中隱藏的問題。如,在公共安全技術領域中,公共安全決策人員更加關注:將搜集到的信息通過文本分析、挖掘技術等技術手段產生熱詞,進而通過熱詞統計分析結果來解決業務問題。
熱詞即熱門詞匯,簡單來說,當一個詞匯的詞頻數達到一定閾值后即稱之為熱詞。作為一種詞匯現象,熱詞的熱度反映了一個國家、一個民族群體在一段時期內普遍關注的問題和事物,相應詞匯的熱度趨勢則反映了問題和事物的發展態勢。例如,在公共安全技術領域中,信息化產生了大量不同結構的數據,如,反映了某一個地區公共安全問題與警情發展趨勢的接處警信息(既包括結構化數據,還包括非結構化數據),通過對接處警信息的熱詞分析,可以發現某一類、某一地區,或某一時期的警情熱度,這樣,公共安全管理部門可以根據熱詞分析結果及時部署或調整警力部署,更好地進行應對警情發展。
在對熱詞進行統計的過程中,文本只有被分割成一個個獨立的詞元才能進行統計,以發掘那些詞頻達到一定閾值的熱詞,可以看出,分詞技術是詞頻統計的基礎。簡單來說,分詞技術是搜索引擎針對用戶提交查詢的關鍵詞串進行的查詢處理后根據用戶的關鍵詞串用各種匹配方法進行分詞的一種技術。
搜索引擎(SearchEngine)是指根據一定的策略、運用特定的計算機程序從各類數據源中搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。目前常見的文本搜索引擎框架有Lucene,其是apache軟件基金會Jakarta項目組的子項目,是一個開放源代碼 的全文檢索引擎工具包,提供了完整的查詢引擎和索引引擎,以及部分文本分析引擎(英文與德文兩種西方語言)。Solr是一個常用的基于Lucene的高性能全文搜索服務器,其提供了比Lucene更為豐富的查詢語言,實現了可配置、可擴展并對查詢性能進行了優化,還提供了一個完善的功能管理界面,是一款非常優秀的全文搜索引擎。
但是,Lucene的詞頻統計用于命中結果打分的計算,不用作數據資源的整體統計。Solr的詞頻統計是為了實現自動補全功能,雖然用作數據資源的整體統計,但是,對于每個信息單元,如果多個field(即“域”)存在多個目標詞元時只計算一次,屬于粗粒度的統計,統計的精確度較差。
發明內容
針對上述問題,本發明旨在提供一種熱詞分析統計系統及方法,其實現熱詞的精確統計和熱詞關聯關系的索引存儲,解決了熱詞按類分析的需求,提高了熱詞統計的精確度。
本發明提供的技術方案如下:
一種熱詞分析統計系統,所述熱詞分析統計系統中包括:
分析主題模塊、關注詞匯模塊、分詞服務模塊、索引服務模塊、詞元統計模塊以及熱詞分析模塊,其中,
所述分析主題模塊,用于確定分析數據源、定義分析主題、定義分析字段的域以及定義每個域的數據類型,產生主題數據結構;
所述關注詞匯模塊,用于確定需要關注的熱詞,形成關注詞匯表序列;
所述分詞服務模塊,分別與所述分析主題模塊和所述關注詞匯模塊連接,所述分詞服務模塊用于根據所述主題數據結構提取相應域中的數據信息,并根據所述關注詞匯表序列對所述數據信息進行分詞,產生詞元序列;
所述索引服務模塊,與所述分詞服務模塊連接,所述索引服務模塊用于記錄所述詞元序列中每個詞元在對應域中的索引位置和記錄每個詞元對應的數據信息,生成詞元索引文件;
所述詞元統計模塊,分別與所述分詞服務模塊和所述索引服務模塊連接, 所述熱詞統計處理模塊用于統計每個詞元的數量;
所述熱詞分析模塊,分別與所述索引服務模塊和所述詞元統計模塊連接,所述熱詞分析模塊根據所述詞元索引文件生成熱詞關聯信息,且根據每個詞元的數量生成熱詞的詞頻數;所述熱詞分析模塊將所述熱詞關聯信息和所述熱詞的詞頻數進行反饋。
優選地,所述分析數據源包括:數據庫數據、文本數據、半結構化數據以及非結構化數據。
優選地,所述索引服務模塊中包括:第一詞元提取單元、信息提取單元以及索引關系生成單元,其中,
所述第一詞元提取單元,與所述分詞服務模塊連接,所述第一詞元提取單元從所述分詞服務模塊中提取所述詞元序列;
所述信息提取單元,與所述第一詞元提取單元,所述詞元提取單元提取所述詞元序列中每個詞元在對應數據信息中的位置關系,且提取所述詞元序列中每個詞元與所述主題結構中對應域的關聯信息;
所述索引關系生成單元,與所述信息提取單元連接,所述索引關系生成單元根據每個詞元在對應數據信息中的位置關系和每個詞元與所述主題結構中對應域的關聯信息生成相應的索引單元,形成詞元索引文件。
優選地,每個詞元與所述主題結構中對應域的關聯信息包括:
詞元對應的數據信息的來源、詞元的產生時間、詞元產生的區域、與該詞元同時出現的高頻詞元。
優選地,所述詞元統計模塊中包括:第二詞元提取單元和詞頻統計單元,其中,
所述第二詞元提取單元,與所述分詞服務模塊連接,所述第二詞元提取單元從所述分詞服務模塊中提取所述詞元序列;
詞頻統計單元,分別與所述第二詞元提取單元和所述索引服務模塊連接,所述詞頻統計單元根據所述詞元序列中的每個詞元分別遍歷所述詞元索引文件中所有索引單元,且遍歷每個索引單元中對應該詞元的每個域,以統計每個詞元的數量。
一種熱詞分析統計方法,應用于上述熱詞分析統計系統,所述熱詞分析統計方法包括以下步驟:
S1確定分析數據源、定義分析主題、定義分析字段的域以及定義每個域的數據類型,產生主題數據結構;
S2確定需要關注的熱詞,形成關注詞匯表序列;
S3根據所述主題數據結構提取相應域中的數據信息,并根據所述關注詞匯表序列對所述數據信息進行分詞,產生詞元序列;
S4記錄所述詞元序列中每個詞元在對應域中的索引位置和記錄每個詞元對應的數據信息,生成詞元索引文件;
S5統計每個詞元的數量;
S6根據所述詞元索引文件生成熱詞關聯信息,且根據每個詞元的數量生成熱詞的詞頻數
S7將所述熱詞關聯信息和所述熱詞的詞頻數進行反饋。
優選地,在步驟S4中,具體包括以下步驟:
S41提取所述詞元序列;
S42提取所述詞元序列中每個詞元在對應數據信息中的位置關系;
S43提取所述詞元序列中每個詞元與所述主題結構中對應域的關聯信息;
S44根據每個詞元在對應數據信息中的位置關系和每個詞元與所述主題結構中對應域的關聯信息生成相應的索引單元,形成詞元索引文件。
優選地,在步驟S5中,具體包括:
S51提取所述詞元序列;
S52根據所述詞元序列中的每個詞元分別遍歷所述詞元索引文件中所有索引單元;
S53遍歷每個索引單元中對應該詞元的每個域,以統計每個詞元的數量。
通過本發明提供的熱詞分析統計系統及方法,能夠帶來以下至少一種有益效果:
1.在本發明中,分析主題模塊可以根據用戶的業務需求來自定義需要分析 和重點關注的分析主題對象,使得本發明提供的熱詞分析統計系統具備非常強的可擴展性。
2.在本發明中,生成的詞元索引文件對應的詞元已經不可能被分成更小的詞,故在TermsComponent(熱詞詞頻)計算中保證了最小粒度的詞頻統計,而不是粗粒度的統計,保證了熱詞詞頻統計的精確性,有效避免了以往系統和方法中統計不精確的問題。
3.在本發明中,采用多域(field)的統計方式,在詞頻統計的同時,能夠提取出熱詞的關聯信息,如,關聯地區、管轄單位、關聯時間等,有效地拓展了熱詞分析統計系統在實際業務中的應用,比如說,為公共安全領域,尤其是為情報信息、指揮中心等部門提供科學、高效、有力的決策指導,進一步提高了國內公共安全的管理和服務能力,體現熱詞挖掘的應用價值。
附圖說明
下面將以明確易懂的方式,結合附圖說明優選實施方式,對上述特性、技術特征、優點及其實現方式予以進一步說明。
圖1為本發明中熱詞分析統計系統的結構示意圖;
圖2為本發明中索引服務模塊結構示意圖;
圖3為本發明中詞元統計模塊結構示意圖;
圖4為本發明中熱詞分析統計方法流程示意圖。
附圖標號說明:
10-分析主題模塊,20-關注詞匯模塊,30-分詞服務模塊,40-索引服務模塊,50-詞元統計模塊,60-熱詞分析模塊,41-第一詞元提取單元,42-信息提取單元,43-索引關系生成單元,51-第二詞元提取單元,52-詞頻統計單元。
具體實施方式
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對照附圖說明本發明的具體實施方式。顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖,并獲得其他的實施方式。
如圖1所示為本發明中提供的熱詞分析統計系統,從圖中可以看出,在該熱詞分析統計系統中包括:分析主題模塊10、關注詞匯模塊20、分詞服務模塊30、索引服務模塊40、詞元統計模塊50以及熱詞分析模塊60,其中,分詞服務模塊30分別與分析主題模塊10和關注詞匯模塊20連接,索引服務模塊40與分詞服務模塊30連接,詞元統計模塊50分別與分詞服務模塊30和索引服務模塊40連接,熱詞分析模塊60分別與索引服務模塊40和詞元統計模塊50連接。
在工作過程中,首先我們通過分析主題模塊10選取分析數據源、定義分析主題、定義分析字段的域(field)以及定義每個域的數據類型,產生主題數據結構。具體來說,分析數據源包括但不限于數據庫數據、文本數據、半結構化數據以及非結構化數據等,且分析數據源中包含的數據可以是歷史產生的數據,也可以是實時產生的數據。在確定了分析數據源之后,系統會對其中的數據進行實時性的判斷,如果其中的數據為實時數據,則緊接著定義分析主題;如果其中的數據為歷史數據,則系統首先根據歷史數據建立數據倉庫,再定義分析主題。在一個具體實施例中,上述分析數據源為某市公安接處警數據,該接處警數據存于SQLServer2008數據庫系統中,經過數據清洗將不合格的數據去掉,并清洗后的數據存于數據倉庫中,以備后續分析。
用戶通過分析主題模塊10選定了分析數據源之后,緊接著定義分析主題、定義分析字段的域(field)以及定義每個域的數據類型。其中,定義分析主題即定義用戶需要分析的業務主題,如,將分析主題定為分析某市公安接處警數據中所有熱詞。從描述中可以看出,僅僅定義分析主題是不夠的,還需要定義該分析主題相關的分析字段的域,如,還需要對上述的某市公安接警處數據中的熱詞的屬性進行定義,例如,將熱詞的屬性定義為警情產生的地區、管轄單位、警情來源、報警方式等。這樣,系統在采集數據時就可以依據熱詞屬性進行采集,進而用戶可以按照采集結果進行熱詞時間、地區、管轄單位、警情來源、報警方式等屬性進行單一指標的統計或多個指標的多維分析。在一個實施例中,將分析主題定義在subject.xml中,在該subject.xml中還定義了需要被分析字段的域以及對應域的數據類型,即定義每個數據信息的唯一標識(ID)、 其中包含的熱詞(Term)、熱詞產生時間(DateTime)等,對應的數據類型分別為字符型(每個數據信息的唯一標識的數據類型)、字符型(熱詞的數據類型)、時間日期類型(熱詞產生的時間的數據類型)。對于每個域對應的數據類型不限定于計算機語言中的基本數據類型,可以根據實際情況進行設定。
對以上信息進行的定義之后,隨即我們使用關注詞匯模塊20定義用戶關注的熱詞,形成關注詞匯表序列。具體來說,用戶通過接口寫入與分析主題相關的需要關注的熱詞,且將關注詞匯表定位為dictionary.txt。在具體實施例中,用戶通過關注詞匯模塊20在關注詞匯表中寫入但不限于加油站、電動車、仿真槍等用戶關注的詞匯,在其他實施例中,用戶根據分析主題寫入不同的熱詞。類似地,在這個過程中,還可以對上述關注的熱詞的分類屬性進行設置,即將熱詞按照用戶的業務主題特征進行分類,便于各業務部門按照其關心的熱詞類型進行統計。如,將電動車、面包車、路口、斑馬線等熱詞歸入交通警情類別;又如,將摩托車、飛車、電動車等詞歸入兩搶一盜類別。這樣,用戶可以通過熱詞分類屬性,按照類別進行熱詞統計,以對熱詞的整體發展趨勢進行分析和統計。
接著,分詞服務模塊30根據主題數據結構提取相應域中的數據信息,并根據關注詞匯表序列對數據信息進行分詞,產生詞元序列。在具體實施例中,這里說的分詞服務模塊30中包括中文分詞器,其對從分析數據源中提取的數據信息進行分詞處理,生成對應的詞元序列(熱詞集)。例如,用戶關注的熱詞為“電動機”,某條數據信息為“今天中午2點,一輛無牌電動車被偷”,則分詞服務模塊30中產生的詞元序列(熱詞集)中就會包括“電動車”這個詞。
之后,索引服務模塊40記錄詞元序列中每個詞元在對應域中的索引位置和記錄每個詞元對應的數據信息,生成詞元索引文件。具體來說,如圖2所示,索引服務模塊40中包括:第一詞元提取單元41、信息提取單元42以及索引關系生成單元43,其中,第一詞元提取單元41與分詞服務模塊30連接,信息提取單元42與第一詞元提取單元41連接,索引關系生成單元43與信息提取單元42連接。在生成詞元索引文件的過程中,首先,第一詞元提取單元41從分詞服務模塊30中提取生成的詞元序列;隨后,詞元提取單元提取詞元序列中 每個詞元在對應數據信息中的位置關系(詞元和與之對應的數據信息之間的關聯關系),同時提取詞元序列中每個詞元與主題結構中對應域的關聯信息;最后,索引關系生成單元43根據每個詞元在對應數據信息中的位置關系和每個詞元與主題結構中對應域的關聯信息生成相應的索引單元(每個詞元形成一個索引單元),每個詞元對應的索引單元集合在一起形成詞元索引文件。更具體來說,每個詞元與主題結構中對應域的關聯信息包括但不限于:詞元對應的數據信息的來源、詞元的產生時間、詞元產生的區域、與該詞元同時出現的高頻詞元等,用戶可以根據實際情況進行設定。假若,詞元序列中包括兩個詞元,分別為:“電動車”和“自行車”,則在這個過程中會通過以上方法分別生成這兩個詞元索引單元,形成詞元索引文件。
進一步地,通過熱詞統計處理模塊統計每個詞元的數量。具體來說,如圖3所示,詞元統計模塊50中包括:第二詞元提取單元41和詞頻統計單元52,其中,第二詞元提取單元41與分詞服務模塊30連接,詞頻統計單元52分別與第二詞元提取單元41和索引服務模塊40連接。在統計詞元的過程中,首先,使用第二詞元提取單元41從分詞服務模塊30中提取詞元序列;隨后,詞頻統計單元52根據詞元序列中的每個詞元分別遍歷詞元索引文件中所有索引單元,且遍歷每個索引單元中對應該詞元的每個域,以統計每個詞元的數量。假若,詞元序列中包括兩個詞元,分別為:“電動車”和“自行車”,則在這個過程中會通過以上方法分別統計出這兩個詞元在分析數據源中出現的總次數。在這個過程中,首先針對其中一個詞元(如“電動車”)遍歷索引文件組中的所有索引單元和每個索引單元中該詞元對應的每個域,統計出該詞元的數量之后再循環統計其他詞元的數量,直到詞元序列中所有詞元都統計完畢。
最后,熱詞分析模塊60根據詞元索引文件生成熱詞關聯信息,且根據每個詞元的數量生成熱詞的詞頻數;熱詞分析模塊60將熱詞關聯信息和熱詞的詞頻數進行反饋,供用戶查看。熱詞關聯信息包括但不限于:熱詞對應的數據信息的來源、熱詞的產生時間、熱詞產生的區域、與該熱詞同時出現的高頻熱詞等,用戶可以根據實際情況進行設定。
作為一個完整的實施例,以下我們以分詞服務模塊30中包括中文分詞器, 索引服務模塊40為索引服務器,對熱詞分析統計系統的全過程進行詳細描述:
首先,初始化熱詞分析組件,配置中文分詞器,并接入關注詞匯表。
隨后,初始化索引服務器,定義詞元索引文件保存路徑,并接入熱詞分析組件。
假若,以“電動車”為熱詞進行處理時,從分析數據源(數據倉庫)中獲取的某條警情內容為:“今天下午1點多,一輛拉土貨車(無牌)撞倒一輛電動車,電動車駕駛人受傷,被送往十三局醫院(急救室)。貨車老板及司機把傷者送往醫院后乘黑色帕薩特(魯n06896)逃跑”,則通過分詞服務模塊30中的中文分詞器對其進行分詞產生的熱詞集(詞元序列)中包含“電動車”這個詞,又假若接收到這條警情的時間是在“2015年3月15日下午1點45分”,則在索引服務器寫入該熱詞“電動車”作為所述關注數據結構中熱詞字段的值,并生成唯一標識ID值標識該熱詞,并寫入“2015-03-1513:45”作為該熱詞產生時間字段的值,生成索引單元。要注意的是,我們看到,在該條警情中包含兩條同樣的熱詞“電動車”,此時,在索引服務器中寫入索引的時候會生成兩個不同的ID值分別標識上述兩個詞元(兩個熱詞“電動車”),包括相應的熱詞產生時間,這樣,在統計分析的時候,熱詞“電動車”被統計了兩次,與實際情況相符。
在上述過程中,生成的索引單元保存在索引服務器中,產生熱詞索引文件。這樣產生的熱詞索引文件中,對于每一個熱詞都關聯了產生該條熱詞的其他相關信息。比如上述所述“電動車”,關聯了時間是“2015-03-1513:45”。要說明的是,關聯的信息取決于所述分析主題定義的數據結構。在上述的具體實施中,對于“電動車”這個熱詞還可以關聯接警員、接警單位、警情類型、警情地區等諸多信息。這樣,用戶在分析“電動車”這個熱詞時,可以看到該熱詞在過去一段時間,如24小時里的熱度趨勢,可以看到該熱詞在該市公安局下轄某支隊的熱度趨勢等等。
如圖4所示為本發明提供的熱詞分析統計方法,應用于上述的熱詞分析統計系統,從圖中可以看出,在該熱詞分析統計方法包括以下步驟:
S1確定分析數據源、定義分析主題、定義分析字段的域以及定義每個域的數據類型,產生主題數據結構。具體來說,在該步驟中,分析數據源包括但不限于數據庫數據、文本數據、半結構化數據以及非結構化數據等,且分析數據源中包含的數據可以是歷史產生的數據,也可以是實時產生的數據。在一個實施例中,將分析主題定義在subject.xml中,在該subject.xml中還定義了需要被分析字段的域以及對應域的數據類型,即定義每個數據信息的唯一標識(ID)、其中包含的熱詞(Term)、熱詞產生時間(DateTime)等,對應的數據類型分別為字符型(每個數據信息的唯一標識的數據類型)、字符型(熱詞的數據類型)、時間日期類型(熱詞產生的時間的數據類型)。對于每個域對應的數據類型不限定于計算機語言中的基本數據類型,可以根據實際情況進行設定。
S2確定需要關注的熱詞,形成關注詞匯表序列。具體來說,在該步驟中,用戶通過接口寫入與分析主題相關的需要關注的熱詞。在具體實施例中,用戶通過關注詞匯模塊20在關注詞匯表中寫入但不限于加油站、電動車、仿真槍等用戶關注的詞匯,在其他實施例中,用戶根據分析主題寫入不同的熱詞。
S3根據主題數據結構提取相應域中的數據信息,并根據關注詞匯表序列對數據信息進行分詞,產生詞元序列。具體來說,在該步驟中,這里說的分詞服務模塊30為中文分詞器,其對從分析數據源中提取的數據信息進行分詞處理,生成對應的詞元序列(熱詞集)。例如,用戶關注的熱詞為“電動機”,某條數據信息為“今天中午2點,一輛無牌電動車被偷”,則分詞服務模塊30中產生的詞元序列(熱詞集)中就會包括“電動車”這個詞。
S4記錄詞元序列中每個詞元在對應域中的索引位置和記錄每個詞元對應的數據信息,生成詞元索引文件。具體來說,在該步驟中,包括以下步驟:
S41提取詞元序列;
S42提取詞元序列中每個詞元在對應數據信息中的位置關系;
S43提取詞元序列中每個詞元與主題結構中對應域的關聯信息;
S44根據每個詞元在對應數據信息中的位置關系和每個詞元與主題結構中對應域的關聯信息生成相應的索引單元,形成詞元索引文件。
S5統計每個詞元的數量。具體來說,在該步驟中,包括以下步驟:
S51提取詞元序列;
S52根據詞元序列中的每個詞元分別遍歷詞元索引文件中所有索引單元;
S53遍歷每個索引單元中對應該詞元的每個域,以統計每個詞元的數量。
S6根據詞元索引文件生成熱詞關聯信息,且根據每個詞元的數量生成熱詞的詞頻數
S7將熱詞關聯信息和熱詞的詞頻數進行反饋。
應當說明的是,上述實施例均可根據需要自由組合。以上所述僅是本發明的優選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發明的保護范圍。

關 鍵 詞:
一種 分析 統計 系統 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種熱詞分析統計系統及方法.pdf
鏈接地址:http://www.wwszu.club/p-6405726.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大