鬼佬大哥大
  • / 12
  • 下載費用:30 金幣  

DINFOOEC文本分析挖掘方法與設備.pdf

摘要
申請專利號:

CN201410155830.1

申請日:

2014.04.18

公開號:

CN105022733A

公開日:

2015.11.04

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20140418|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 中科鼎富(北京)科技發展有限公司
發明人: 不公告發明人
地址: 100085北京市海淀區上地東路25號三層6單元
優先權:
專利代理機構: 代理人:
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201410155830.1

授權公告號:

||||||

法律狀態公告日:

2018.03.23|||2015.12.30|||2015.11.04

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明提供了一種基于概念的非結構化文本大數據分析挖掘方法及其設備。所述方法包括步驟:(1)預處理,包括分詞和命名實體識別;(2)對輸入文本進行概念提取和概念表達式識別;(3)依據挖掘規則,對輸入文本的概念表達式進行分析挖掘;(4)計算挖掘結果的可信度;(5)按可信度輸出挖掘結果;(5)挖掘結果可視化展示。所述方法的挖掘模型包括3棵樹:本體樹,要素樹和概念樹。所述設備包括:(1)建模單元,(2)預處理單元,(3)概念提取與表達式識別單元,(4)分析挖掘單元,(5)可視化展示單元。本發明具有以下優點:建模過程分離業務和自然語言表達的多樣性,降低業務維護投入;挖掘方法能大大提供分析挖掘的準確率。

權利要求書

權利要求書
1.  一種非結構化文本大數據分析挖掘方法,其特征在于,包括以下步驟:
對輸入文本進行概念提取和概念表達式識別;
依據挖掘模型中的挖掘規則,對輸入文本的概念表達式進行分析挖掘;
計算挖掘結果的可信度;
按可信度輸出挖掘結果;挖掘結果可視化展示。

2.   如權利要求1所述的挖掘模型,其特征在于,其包括3棵樹:
本體樹:樹狀組織業務分類,為每個業務類型設置挖掘結果和挖掘規則,挖掘結果包括分類、聚類、關鍵詞組合、傾向性評價等;
要素樹:樹狀組織業務相關的概念,是業務中經常用到對象、工具、屬性等概念;樹的節點是要素名,每個要素名可以對應多個要素值;要素值是一個詞語或文字模式;
概念樹:樹狀組織業務無關的常用復雜概念,即用一句話或一段話表示的概念,樹的節點是概念名,概念值是一句話或文字模式。

3.  如權利要求2所述的挖掘規則,其特征在于,包括3種類型:
一是CR,表示挖掘規則采用概念表達式方式,一個挖掘規則包含n個概念表達式(n>=1);
二是SR,表示挖掘規則采用統計算法,一個挖掘規則對應一種統計算法,系統支持KNN(K近鄰)、SVM(支持向量機)分類算法;
三是UR,表示挖掘規則用戶自定義,可定制算法。

4.   如權利要求1所述的概念表達式,其特征在于,其支持概念之間的復雜語義關系:
用邏輯運算符支持概念之間邏輯關系表達,概念之間邏輯與,用“+”表示;概念之間邏輯或,用“|”表示;概念排除,用“-”表示;邏輯運算優先級,用“(”“)”表示,括號中的運算優先,用謂詞邏輯f(a1,a2,…,an)支持概念之間的復雜語言關系表達,表示a1,a2,…,an之間具有f關系,f是一個概念,比如“在…之前”,ai(i=1~n,n>=1)是一個概念,用特殊符號表示概念之間的位置和順序關系,用“#”表示,表示條件必須在同一個句子出現。

5.   如權利要求1所述的概念提取和概念表達式識別,其特征在于,包括以下步驟:對輸入文本分詞和命名實體識別;從分詞結果中做概念發現,利用同義詞表進行同義擴展,利用概念樹的概念值發現復雜概念,對發現的概念識別概念類型,區分業務要素和常用概念,利用要素樹識別業務要素,利用概念樹識別常用概念類型,對概念提取結果,識別輸入文本中概念之間的語義關系,給出概念表達式。

6.   如權利要求1所述的可信度計算,其特征在于:對類型是CR的挖掘規則,其可信度是輸入文本中提取的概念表達式與本體樹中挖掘規則之間的匹配度,其計算公式如下:其中n是規則中概念表達式的個數,Com(RI)是每個概念表達式匹配概念的個數,OfNo(QRI)是輸入文本中未匹配概念個數,OfNo(BQRI)是規則中概念表達式的匹配概念個數,DSC是調節權值                                                
對類型是SR的挖掘規則,其可信度是統計算法輸出的相似度。

7.   一種DINFO-OEC非結構化文本大數據分析挖掘設備,其特征在于,包括:挖掘模型建模單元,實現挖掘模型的建模,本體樹、要素樹以及概念樹的管理維護等,預處理單元,實現輸入文本的分詞與命名實體識別等基礎處理,概念提取與表達式識別單元,實現輸入文本的概念提取,概念表達式識別,輸出概念列表和概念表達式,分析挖掘單元,實現利用挖掘模型中的挖掘規則,對輸入文本概念提取結果進行挖掘,輸出挖掘結果,每個挖掘結果輸出可信度,可視化展示單元,實現挖掘結果的可視化展示,支持折線圖、柱狀圖、餅圖、詞匯云圖形式展示。

說明書

說明書DINFO-OEC文本分析挖掘方法與設備
技術領域
本發明涉及文本挖掘技術領域,具體涉及一種基于概念的DINFO-OEC挖掘方法以及DINFO-OEC挖掘設備。
背景技術
社會化大數據中80%是非結構化數據,非結構化大數據處理是大數據面臨的最大挑戰。結構化數據分析不能充分挖掘發現大數據中的語義。
非結構化文本挖掘的挑戰在于:
語言多樣性帶來的維護挑戰:文本中的語言表達方式多種多樣,縮寫、簡寫等不規范用法普遍存在,需要窮舉所有語言表達方式,業務人員陷入語言表達細節,維護困難。 
業務分類及規則多變化快帶來的維護挑戰:業務分類多,分類變化快,每次分類變化時,需要把相關的所有分類的語言規則重新梳理,維護工作量巨大,維護效率低。 
多語種同步處理帶來的挑戰:不同語種的挖掘需要同時分析,需要對每種語言單獨建立規則,要求維護的業務人員掌握多語種,對維護人員要求太高。 
文本中噪音大帶來的分類挑戰:文本長短不一,其中的關聯性錯綜復雜,無法使用關鍵詞統計的方法達到很好的挖掘效果。 
而現有的技術一般采用統計方法進行文本挖掘,沒有考慮到業務人員的需求,只提供挖掘算法,給業務人員帶來了很多的困擾。文本挖掘技術面臨的問題是,如何從一篇或海量非結構化文本中分析挖掘出用戶關心的有價值的信息,讓業務人員從業務角度定義挖掘需求和挖掘規則,而無需考慮文本中語言表達習慣的多樣性帶來的語言歧義問題。
發明內容
本發明要解決的技術問題是如何從一篇或海量非結構化文本中分析挖掘出用戶關心的有價值的信息,讓業務人員從業務角度定義挖掘需求和挖掘規則,而無需考慮文本中語言表達習慣的多樣性帶來的語言歧義問題。為了解決上述技術問題,本發明提供了一種基于概念的非結構化文本大數據分析挖掘方法及其設備。
所述方法包括以下步驟:(1)預處理,包括斷句、分詞和命名實體識別;(2)對輸入文本進行概念提取和概念表達式識別;(3)依據挖掘模型中的挖掘規則,對輸入文本的概念表達式進行分析挖掘;(4)計算挖掘結果的可信度;(5)按可信度輸出挖掘結果;(5)挖掘結果可視化展示。
所述方法的挖掘模型包括3棵樹:(1)本體樹:樹狀組織業務分類,為每個業務類型設置挖掘結果和挖掘規則。挖掘結果包括分類、聚類、關鍵詞組合、傾向性評價等。(2)要素樹:樹狀組織業務相關的概念,是業務中經常用到對象、工具、屬性等概念。樹的節點是要素名,每個要素名可以對應多個要素值。要素值是一個詞語或文字模式。(3)概念樹:樹狀組織業務無關的常用復雜概念,即用一句話或一段話表示的概念。樹的節點是概念名,概念值是一句話或文字模式。
所述方法的挖掘規則,包括3種類型:(1)CR,表示挖掘規則采用概念表達式方式。一個挖掘規則包含n個概念表達式(n>=1)。(2)SR,表示挖掘規則采用統計算法。一個挖掘規則對應一種統計算法。系統支持KNN(K近鄰)、SVM(支持向量機)分類算法。(3)UR,表示挖掘規則用戶自定義,可定制算法。
所述方法的概念提取過程,包括步驟:(1)從分詞結果中做概念發現,利用同義詞表進行同義擴展,利用概念樹的概念值發現復雜概念。(2)對發現的概念識別概念類型,區分業務要素和常用概念。利用要素樹識別業務要素,利用概念樹識別常用概念類型。(3)對概念提取結果,識別輸入文本中概念之間的語義關系,給出概念表達式。
所述設備包括以下幾個單元: (1)挖掘模型建模單元,實現挖掘模型的建模,本體樹、要素樹以及概念樹的管理維護等。(2)預處理單元,實現輸入文本的分詞與命名實體識別等基礎處理。(3)概念提取與表達式識別單元,實現輸入文本的概念提取,概念表達式識別。輸出概念列表和概念表達式。(4)分析挖掘單元,實現利用挖掘模型中的挖掘規則,對輸入文本概念提取結果進行挖掘,輸出挖掘結果。每個挖掘結果輸出可信度。(5)可視化展示單元,實現挖掘結果的可視化展示,支持折線圖、柱狀圖、餅圖、詞匯云圖形式展示。
本發明內容具有以下優點,通過挖掘模型建模,分離業務和自然語言表達的多樣性,降低業務維護投入,提高系統的可維護性。通過基于概念的挖掘方法,提供較高準確率的分析挖掘結果。使用DINFO-OEC非結構化大數據分析挖掘設備,可大大提高分析挖掘的效果。
 
附圖說明
圖1 是DINFO-OEC非結構化文本大數據分析挖掘方法示意圖。
圖2 是DINFO-OEC模型示意圖。
圖3 是概念提取流程圖。
圖4是DINFO-OEC分析挖掘設備示意圖。
 
具體實施方式
為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本發明作進一步的詳細說明。
圖1 是DINFO-OEC非結構化文本大數據分析挖掘方法示意圖,如圖1所示的DINFO-OEC文本分析挖掘方法100的輸入是非結構化文本111,這里所說的“非結構化文本”指的是一個文本片段,包括“我要辦卡”這樣的一句話,也包括一篇文章,同時,“非結構化文本”包括簡體中文、英語等各種語言表述的文本。
步驟S120,對非結構化文本111進行預處理,包括斷句處理、分詞、詞性標注。斷句處理是把文本111以句號斷開,分成多個句子進行后續處理。分詞、詞性標注把中文文本進行詞語切分處理,并給每個詞語標注上其對應的詞性,詞性包括名詞、動詞等。
步驟S121,對預處理后的文本111,進行概念識別,這里的“概念”指的是文本中各個詞匯的詞義信息,以及詞匯之間的語義關聯性。一個“概念”可以代表一組詞匯,也可以一個說法,甚至可以代表一句話。比如中文文本中“等了2天了,還沒有收到快件”,這段話可以識別為“未及時”這一概念。概念識別的結果是文本中包含的概念集合{C1,C2,…Cn},概念所屬的類型,以及概念之間的語義關聯。語義關聯用邏輯關系和謂詞邏輯表達。邏輯關系包含與、或、非操作。謂詞邏輯的形式是f(a1,a2,…,an),表示a1,a2,…,an之間具有f關系。f是一個概念,比如“在…之前”。ai(i=1~n,n>=1)是一個概念。概念識別的具體實施方法可參見圖2的實施例。
步驟S122,把概念識別結果,利用DINFO-OEC模型進行分析挖掘。按照DINFO-OEC模型中對挖掘結果和挖掘規則的配置,對概念識別結果進行計算,給出挖掘結果。挖掘結果包括分類、聚類、關鍵詞組合、傾向性評價等。DINFO-OEC模型可參見圖2的具體實施例。
步驟S123,對挖掘結果的可信度計算。可信度計算根據挖掘規則的類型不同,調用不同的計算方法。
對類型是CR的挖掘規則,其可信度是輸入文本中提取的概念表達式與本體樹中挖掘規則之間的匹配度,其計算公式如下。其中n是規則中概念表達式的個數。Com(RI)是每個概念表達式匹配概念的個數,OfNo(QRI)是輸入文本中未匹配概念個數,OfNo(BQRI)是規則中概念表達式的匹配概念個數。DSC是調節權值。
 對類型是SR的挖掘規則,其可信度是統計算法輸出的相似度。
步驟S124,對分析挖掘結果進行結果輸出。按照可信度閾值定義,給出結果列表,每個結果都帶有可信度。輸出結果是結構化數據112。結構化數據112包括類名、分析挖掘結果、可信度等數據。
下面結合一個物流例子說明分析挖掘和可信度計算,輸入文本111:“第三方宋先生(自稱寄方)************來電,稱其有訂msg但是沒有收到簽收短信,客號碼是:***********   系統未發送。請跟進,客服****”
輸出結果是:
操作類->派件異常_0.67
操作類->派件操作不規范_0.6
非公司原因類->派件異常_0.5
操作類->運單使用或填寫不規范_0.43
結果中,“->”前的“操作類”是類名,“->”后的“派件異常”是分析挖掘結果,“_”后的“0.67”是可信度。
步驟S125,對輸出結果進行可視化展示。展示方式包括柱狀圖、餅圖、雷達圖等。
 圖2 是DINFO-OEC模型示意圖,是結合銀行業務給出的示意圖:DINFO-OEC模型包括3個模型樹:
? 本體樹 Ontology Tree
? 要素樹 Element Tree
? 概念樹 Conception Tree。
(1)    要素樹 業務相關的概念,是業務中經常用到對象、工具、屬性等概念。要素可以樹狀組織,每個樹節點是一個要素,一個要素可以對應多個要素值。
要素定義:
?  要素可以是一組詞匯
?  要素可以是一種表達方式,比如“服務技能”<=“不會+安裝”
?  要素的識別規則支持2種要素類型:屬性:此要素的屬性詞語
?  動作:此要素的動作詞語
?  要素的識別規則支持2種要素值類型:文本:用文本表示的詞語
?  模式:用模式表示詞語的組合。比如“(寄方|寄客).{0,5}跟進”表示“寄方”和“跟進”之間最多間隔5個漢字。
如圖2所示,要素樹中包含“工作人員”、“渠道”等,“渠道”包含“柜臺、網點、ATM”等要素值。
(2)概念樹 是業務無關的常用概念,語言表達中常用的基本概念,時間、地點、值、人的情緒、態度等,是基礎的語義資源,系統已內置了常用8萬多詞匯,完全覆蓋了常用詞匯,后臺自動更新維護,概念以樹狀表示,樹節點就是一個概念。每個概念包含一個或多個概念值。
概念值定義:概念可以是一組詞匯;
概念可以是一種表達方式,比如“服務技能”<=“不會+安裝”
概念值類型:
文本:用文本表示的詞語。一般是同義詞
模式:用模式表示詞語的組合。
如圖2所示,概念樹中包含有“人的情緒”“時效”等常用概念。
(3) 本體樹  業務本體,根據業務需求,定制業務類別、挖掘表達式、挖掘結果。本體樹包括3部分:業務類型樹、每個業務類的挖掘結果、每個業務類挖掘結果對應的挖掘規則。
業務類型樹,是一個樹狀的業務分類,樹的層級不限。樹節點是一個具體的業務類別。對樹的節點可以增加、刪除、修改。如圖2所示,是一個銀行業務的本體樹,其中包含了4個一級節點“主題”“業務”“管理”“系統”,其中“業務”又包含節點“基金、借記卡、信用卡、網上銀行、手機銀行”,每個樹節點是一個業務類,每個樹節點均包含挖掘結果類型和挖掘規則,挖掘結果包括分類、聚類、關鍵詞組合、傾向性評價等。
挖掘規則包括3種類型:(1)CR,表示挖掘規則采用概念表達式方式。一個挖掘規則包含n個概念表達式(n>=1)。(2)SR,表示挖掘規則采用統計算法。一個挖掘規則對應一種統計算法。系統支持KNN(K近鄰)、SVM(支持向量機)分類算法。(3)UR,表示挖掘規則用戶自定義,可定制算法。
類型CR的挖掘規則,支持3種元素:
要素,用“e_”前綴表示,表示此元素來自于要素樹,是業務相關要素,比如“運單”、“物流”、“內飾”、“噪音”、“基金申購”等。要素元素會根據識別規則進行泛化;
概念,用“c_”前綴表示,表示此元素來自于概念樹,是常用概念,比如“不規范”“電話異常”、“不及時”、“太吵”等。概念元素會根據識別規則進行泛化;
關鍵詞,用“k_”前綴表示,表示此元素來自于開放詞匯,可以隨意輸入。關鍵詞只做詞語匹配。
挖掘表達式支持邏輯運算:邏輯與,用“+”表示。“+”左右的條件必須同時滿足;邏輯或,用“|”表示。“|”左右的條件只要有一個滿足,表達式即滿足;排除,用“-”表示。“-”右邊的條件必須排除;括號,用“(”“)”表示,括號可以改變匹配的優先級;句子限定,用“#”表示,表示條件必須在同一個句子出現。
圖3 是概念提取流程圖,圖1是S121的具體處理流程圖,如圖3所示的概念識別方法300,能經過預處理S120的分詞與詞性標注結果進行概念識別。
步驟S311,對每個詞匯進行同義擴展,利用同義詞表發現同義詞。比如“此件”是“快件”的同義,“遺失”是“丟失”的同義。 
步驟S312,進行概念發現。利用詞匯的上下文發現用一種表達方式或一句話表示的復雜概念。比如“*個小時之內、兩天”是時間概念,“等了兩天了”是“未及時”概念。
步驟S313,進行C識別,判斷詞匯中是否包含有概念樹中的概念值,如果有,則給出概念值對應的概念。比如“能快點回復”對應的概念是“催件”。
步驟S314,進行E識別,判斷詞匯中是否包含有要素樹中的要素值,如果有,則給出要素值對應的要素。比如“寄方”對應的要素是“客戶”。
步驟S315,概念類型判斷,對每個詞匯標注出其概念類型,概念類型包括概念C和要素E。S315輸出的是概念集合320。
步驟S321,對概念集合320中的概念,利用Bayes算法進行概念同現計算,如果同現,則記為概念之間的邏輯關系是“與”關系。
步驟S316,識別概念之間的語義關系。分別調用下面的步驟進行判斷。
步驟S331,判斷上下位關系,“包含、包括”等連接的概念之間有上下位關系。
步驟S332,判斷定義,“指的是”這樣的表達方式中,其前后是定義關系。
步驟S333,判斷所有時間關系,包括“在…之前”“在…之后”“晚于”等。
步驟S334,判斷并列關系,“和、與”等連接的概念之間是并列關系。
步驟S335,對動詞連接的兩個概念,其順序假設為“N1 V1 N2”,則其形成謂詞邏輯關系,表示為V1(N1,N2)。
步驟S317,結合步驟S321、S331、S332、S333、S334、S335的結果,給出概念表達式。
比如,對下面文本,其概念表達式結果是:
文本: ************   寄方盧先生***********來電催回復,表示此件很急,現客表示此件是否已經丟失了? 
概念表達式:e_客戶+c_催件; e_快件+c_遺失+c_疑問。
 圖4是DINFO-OEC分析挖掘設備示意圖。
DINFO-OEC分析挖掘設備500,包括4個處理單元,1個建模單元,1個可視化單元。
建模單元510,負責DINFO-OEC模型130的管理、配置與更改。用戶可以對DINFO-OEC模型進行增加、刪除、修改等操作。可以對130進行測試。
可視化單元530,負責對分析挖掘結果進行可視化展示。可視化單元包括數據導入、圖形化展示、導出功能。數據導入支持從表格中導入分析挖掘結果。圖形化展示支持柱狀圖、雷達圖、折線圖等圖形顯示。
預處理單元521,負責提供分詞、詞性標注等預處理功能。對非結構化文本111進行預處理,包括斷句處理、分詞、詞性標注。斷句處理是把文本111以句號斷開,分成多個句子進行后續處理。分詞、詞性標注把中文文本進行詞語切分處理,并給每個詞語標注上其對應的詞性,詞性包括名詞、動詞等。
概念識別單元522,負責提供概念識別300功能。對每個詞匯進行同義擴展,利用詞匯的上下文發現用一種表達方式或一句話表示的復雜概念。進行C識別,判斷詞匯中是否包含有概念樹中的概念值,如果有,則給出概念值對應的概念。進行E識別,判斷詞匯中是否包含有要素樹中的要素值,如果有,則給出要素值對應的要素。概念類型判斷,對每個詞匯標注出其概念類型,概念類型包括概念C和要素E。對概念集合320中的概念,利用Bayes算法進行概念同現計算,如果同現,則記為概念之間的邏輯關系是“與”關系。識別概念之間的語義關系。最終給出概念表達式。
分析挖掘單元523,負責提供分析挖掘功能。按照DINFO-OEC模型中對挖掘結果和挖掘規則的配置,對概念識別結果進行計算,給出挖掘結果。挖掘結果包括分類、聚類、關鍵詞組合、傾向性評價等。
可信度計算單元524,負責提供可信度計算功能。對類型是CR的挖掘規則,其可信度是輸入文本中提取的概念表達式與本體樹中挖掘規則之間的匹配度。對類型是SR的挖掘規則,其可信度是統計算法輸出的相似度。

關 鍵 詞:
DINFOOEC 文本 分析 挖掘 方法 設備
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:DINFOOEC文本分析挖掘方法與設備.pdf
鏈接地址:http://www.wwszu.club/p-6401770.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大