鬼佬大哥大
  • / 22
  • 下載費用:30 金幣  

提取文檔中關鍵詞的方法及裝置.pdf

摘要
申請專利號:

CN201510512363.8

申請日:

2015.08.19

公開號:

CN105069143A

公開日:

2015.11.18

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/30申請日:20150819|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 百度在線網絡技術(北京)有限公司
發明人: 姜迪; 石磊; 林鴻宇
地址: 100085北京市海淀區上地十街10號百度大廈三層
優先權:
專利代理機構: 北京品源專利代理有限公司11332 代理人: 孟金喆; 胡彬
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510512363.8

授權公告號:

|||

法律狀態公告日:

2015.12.16|||2015.11.18

法律狀態類型:

實質審查的生效|||公開

摘要

本發明公開了一種提取文檔中關鍵詞的方法及裝置,其中所述方法包括:根據隱含主題向量模型訓練得到與文檔信息相關的至少一個主題向量和至少一個詞向量,所述隱含主題向量模型為主題模型和詞向量的融合模型;計算所述詞向量和主題向量之間的距離;根據詞向量與所述主題向量之間的距離,選取預設個數詞向量對應的詞作為所述文檔的關鍵詞。本發明實施例能夠提取出的精確表達文檔信息的關鍵詞信息。

權利要求書

1.一種提取文檔中關鍵詞的方法,其特征在于,包括:
根據隱含主題向量模型訓練得到與文檔信息相關的至少一個主題向量和至
少一個詞向量,所述隱含主題向量模型為主題模型和詞向量的融合模型;
計算所述詞向量和主題向量之間的距離;
根據詞向量與所述主題向量之間的距離,選取預設個數詞向量對應的詞作
為所述文檔的關鍵詞。
2.根據權利要求1所述的方法,其特征在于,計算所述詞向量和主題向量
之間的距離,包括:
根據所述文檔的主題分布從至少一個主題中選取主題分布概率最大的主題
作為最優主題;
計算所述詞向量和所述最優主題對應的主題向量之間的距離。
3.根據權利要求1所述的方法,其特征在于,計算所述詞向量和主題向量
之間的距離,包括:
根據所述文檔的每個主題的主題分布概率對所述詞向量和每個主題向量之
間的距離進行加權求和;
將加權和作為所述詞向量和主題向量之間的距離。
4.根據權利要求1-3任一項所述的方法,其特征在于,所述距離為余弦距
離。
5.根據權利要求1-3任一項所述的方法,其特征在于,根據隱含主題向量
模型訓練得到與文檔信息相關的至少一個主題向量和至少一個詞向量,包括:
將所述文檔加入訓練資料庫中,為所述訓練資料庫中的每個文檔的每個主
題和每個詞分別構建初始主題向量和初始詞向量;
根據所述初始主題向量和初始詞向量建立所述訓練資料庫中所有文檔的聯
合似然函數;
對所述聯合似然函數進行參數估計得到所述主題向量和詞向量。
6.根據權利要求5所述的方法,其特征在于,根據所述初始主題向量和初
始詞向量建立所述訓練資料庫中所有文檔的聯合似然函數,包括:
通過計算公式得到所述初始詞向量的生成概率;
根據所述計算公式得到所述訓練資料庫中所有文檔的聯合似然函數。
7.根據權利要求6所述的方法,其特征在于,根據所述計算公式得到聯合
似然函數之后,還包括:
采用吉布斯算法對所述聯合似然函數進行處理,可得每個文檔中每個句子
對應的主題的條件分布;
根據所述條件分布中每個主題的條件分布概率為每個文檔的每個句子確定
特定主題;
根據所述特定主題的條件分布概率對所述聯合似然函數進行處理,得到對
數似然函數;
對所述聯合似然函數進行參數估計得到所述主題向量和詞向量,包括:
對所述對數似然函數進行參數估計得到所述主題向量和詞向量。
8.根據權利要求7所述的方法,其特征在于,得到如公式四所述的對數似
然函數之后,還包括:
采用牛頓迭代法對所述對數似然函數中的參數進行優化處理;
和/或,
采用負采樣算法對所述對數似然函數中的詞向量、主題向量和輔助向量進
行優化;
對所述對數似然函數進行參數估計得到所述主題向量和詞向量,包括:
對優化后的對數似然函數進行參數估計得到所述主題向量和詞向量。
9.根據權利要求8所述的方法,其特征在于,采用負采樣算法對詞向量、
主題向量和輔助向量進行優化,包括:
采用負采樣算法對所述訓練資料庫中所有文檔中的詞和主題進行處理,得
到負采樣似然函數;
采用隨機梯度下降法對所述負采樣似然函數進行處理,得到所述詞向量的
優化公式、主題向量的優化公式和輔助向量的優化公式。
10.根據權利要求6~9任一項所述的方法,其特征在于,還包括:
對所述聯合似然函數進行參數估計的過程中得到每個文檔的主題分布。
11.一種提取文檔中關鍵詞的裝置,其特征在于,包括:
向量訓練模塊,用于根據隱含主題向量模型訓練得到與文檔信息相關的至
少一個主題向量和至少一個詞向量,所述隱含主題向量模型為主題模型和詞向
量的融合模型;
距離計算模塊,用于計算所述詞向量和主題向量之間的距離;
關鍵詞提取模塊,用于根據詞向量與所述主題向量之間的距離,選取預設
個數詞向量對應的詞作為所述文檔的關鍵詞。
12.根據權利要求11所述的裝置,其特征在于,所述距離計算模塊具體用
于:
根據所述文檔的主題分布從至少一個主題中選取主題分布概率最大的主題
作為最優主題;計算所述詞向量和所述最優主題對應的主題向量之間的距離。
13.根據權利要求11所述的裝置,其特征在于,所述距離計算模塊具體用
于:
根據所述文檔的每個主題的主題分布概率對所述詞向量和每個主題向量之
間的距離進行加權求和;將加權和作為所述詞向量和主題向量之間的距離。
14.根據權利要求11-13任一項所述的裝置,其特征在于,所述距離為余
弦距離。
15.根據權利要求11-13任一項所述的裝置,其特征在于,所述向量訓練
模塊包括:
向量構建單元,用于將所述文檔加入訓練資料庫中,為所述訓練資料庫中
的每個文檔的每個主題和每個詞分別構建初始主題向量和初始詞向量;
聯合似然函數建立單元,用于根據所述初始主題向量和初始詞向量建立所
述訓練資料庫中所有文檔的聯合似然函數;
參數估計單元,用于對所述聯合似然函數進行參數估計得到所述主題向量
和詞向量。
16.根據權利要求15所述的裝置,其特征在于,所述聯合似然函數建立單
元具體用于:
通過計算公式得到所述初始詞向量的生成概率;
根據所述計算公式得到所述訓練資料庫中所有文檔的聯合似然函數。
17.根據權利要求16所述的裝置,其特征在于,所述向量訓練模塊還包括:
聯合似然函數處理單元,用于在所述聯合似然函數建立單元根據所述計算
公式一得到聯合似然函數之后,采用吉布斯算法對所述聯合似然函數進行處理,
可得每個文檔中每個句子對應的主題的條件分布;
根據所述條件分布中每個主題的條件分布概率為每個文檔的每個句子確定
特定主題;
根據所述特定主題的條件分布概率對所述聯合似然函數進行處理,得到對
數似然函數;
所述參數估計單元具體用于:
對所述對數似然函數進行參數估計得到所述主題向量和詞向量。
18.根據權利要求17所述的裝置,其特征在于,所述向量訓練模塊還包括:
對數似然函數優化處理單元,用于在所述聯合似然函數處理單元得到對數
似然函數之后,采用牛頓迭代法對所述對數似然函數中的參數進行優化處理;
和/或,
采用負采樣算法對所述對數似然函數中的詞向量、主題向量和輔助向量進
行優化;
所述參數估計單元具體用于:
對優化后的對數似然函數進行參數估計得到所述主題向量和詞向量。
19.根據權利要求18所述的裝置,其特征在于,所述對數似然函數優化處
理單元具體用于:
采用負采樣算法對所述訓練資料庫中所有文檔中的詞和主題進行處理,得
到負采樣似然函數;
采用隨機梯度下降法對所述負采樣似然函數進行處理,得到所述詞向量的
優化公式、主題向量的優化公式和輔助向量的優化公式。
20.根據權利要求16~19任一項所述的裝置,其特征在于,所述參數估計
單元還用于:
對所述聯合似然函數進行參數估計的過程中得到每個文檔的主題分布。

說明書

提取文檔中關鍵詞的方法及裝置

技術領域

本發明實施例涉及信息技術領域,尤其涉及一種提取文檔中關鍵詞的方法
及裝置。

背景技術

在當前信息爆炸的時代,用戶不可能瀏覽所有可能包含有相關信息的文檔,
而抽取文檔中的關鍵詞給用戶提供參考,對用戶精準的獲取信息、降低用戶獲
取信息的成本有著重大的意義。

一般來講,文檔的關鍵詞必然是某些與文檔主題高度相關的詞語,因此文
檔的主題信息對于文檔的關鍵詞抽取有著重要的意義。目前,主要是利用關鍵
詞在隱含狄利克雷分配模型(LatentDirichletAllocation,LDA)當中的概率分
布來解決這個問題的。主要有以下兩種方法:

第一種方法是基于似然估計的方法,即利用LDA模型得到文檔的主題分布
P(z|d)以及主題的詞分布P(w|z),計算得到文檔中詞的分布P(w|d)=
∑zP(z|d)P(w|z),其中z表示主題,d表示文檔,w表示某個詞。將上述文檔
中詞的分布概率P(w│d)視為某個詞w在文檔d中的重要性得分,選擇得分最
高的K個詞作為該文檔的關鍵詞。

第二種方法是基于隱變量分布距離的方法,即利用LDA模型得到文檔的主
題分布概率P(z|d)以及詞的主題分布概率 P ( z | w ) = P ( w | z ) P ( z ) P ( w ) P ( w | z ) P ( z ) , ]]>
后計算上述兩個分布概率的余弦距離,選擇余弦距離較大的K個詞作為該文檔
的關鍵詞。

但是,上述提取文檔中關鍵詞的方法均存在一些缺點,對于第一種方法,
對于高頻詞有著嚴重的偏向,即提取出的詞大部分都是某個主題下的高頻詞,
然而這些高頻詞在不同文檔當中出現得都很廣泛,并不能很真實的反應文檔所
表達的信息。

對于第二種方法,由于計算P(z│w)∝P(w│z)P(z)需要得到隱變量的分布
P(z),但是該分布概率并不是LDA模型中的分布參數,一般使用P(z)=
∑dP(z|d)P(d),其中P(d)為文檔的后驗分布,并假設P(d)為均勻分布從而得到
P(z)∝∑dP(z|d)。但是由于對于不同的文檔d,其后驗的分布P(d)并不是均勻
分布,因此該模型的理論基礎不夠堅實,實際應用中的效果也不佳。

發明內容

本發明實施例提供一種提取文檔中關鍵詞的方法及裝置,能夠提取出的精
確表達文檔信息的關鍵詞信息。

第一方面,本發明實施例提供了一種提取文檔中關鍵詞的方法,包括:

根據隱含主題向量模型訓練得到與文檔信息相關的至少一個主題向量和至
少一個詞向量,所述隱含主題向量模型為主題模型和詞向量的融合模型;

計算所述詞向量和主題向量之間的距離;

根據詞向量與所述主題向量之間的距離,選取預設個數詞向量對應的詞作
為所述文檔的關鍵詞。

第二方面,本發明實施例還提供一種提取文檔中關鍵詞的裝置,包括:

向量訓練模塊,用于根據隱含主題向量模型訓練得到與文檔信息相關的至
少一個主題向量和至少一個詞向量,所述隱含主題向量模型為主題模型和詞向
量的融合模型;

距離計算模塊,用于計算所述詞向量和主題向量之間的距離;

關鍵詞提取模塊,用于根據詞向量與所述主題向量之間的距離,選取預設
個數詞向量對應的詞作為所述文檔的關鍵詞。

本發明實施例通過根據主題模型和詞向量融合后的隱含主題向量模型對文
檔進行訓練,得到與文檔信息相關的至少一個主題向量和至少一個詞向量,進
一步根據詞向量與所述主題向量之間的距離,選取預設個數詞向量對應的詞作
為所述文檔的關鍵詞。本發明實施例根據隱含主題向量模型對文檔進行訓練,
在訓練過程中能夠捕捉更多的文檔信息,從而提取出的精確表達文檔信息的關
鍵詞信息。

附圖說明

圖1為本發明實施例一提供的提取文檔中關鍵詞的方法的流程示意圖;

圖2為本發明實施例二提供的提取文檔中關鍵詞的方法的流程示意圖;

圖3為本發明實施例三提供的搜索結果頁顯示裝置的結構示意圖。

具體實施方式

下面結合附圖和實施例對本發明作進一步的詳細說明。可以理解的是,此
處所描述的具體實施例僅僅用于解釋本發明,而非對本發明的限定。另外還需
要說明的是,為了便于描述,附圖中僅示出了與本發明相關的部分而非全部結
構。

本發明實施例提供的提取文檔中關鍵詞的方法的執行主體,可為本發明實
施例提供的提取文檔中關鍵詞的裝置,或者集成了提取文檔中關鍵詞的裝置的
終端設備(例如,智能手機、平板電腦等),該提取文檔中關鍵詞的裝置可以采
用硬件或軟件實現。

實施例一

圖1為本發明實施例一提供的提取文檔中關鍵詞的方法的流程示意圖,如
圖1所示,具體包括:

S11、根據隱含主題向量模型訓練得到與文檔信息相關的至少一個主題向量
和至少一個詞向量,所述隱含主題向量模型為主題模型和詞向量的融合模型;

其中,主題模型(TopicModel)和詞向量(WordEmbedding)都是現有技術
中常用的語義表示方法。主題模型假設每一個詞語都是由一個隱含空間當中的
語義生成的。根據這一假設,可以將文檔和詞語都映射到隱含語義空間內進行
降維。而詞向量則是另外一種詞語的分布式表示方法,它使用固定長度的向量
來表示一個詞語的含義。

主題模型一般是在文檔層級或句子層級進行建模,更加關注于全局的語義,
而詞向量則一般假設一個詞的語義是由它周邊的詞語來表示的,更加關注于局
部的類句法信息。上述兩種方法側重點各有不同,并各自被證明了具有巨大的
應用價值。因此,本實施例將這二者結合起來,從而使得隱含主題向量模型能
夠捕捉到更多的信息。

其中,主題向量和詞向量的維度可自定義設置,向量中的每個元素對應的
數值,通過隱含主題向量模型訓練得到。其中,為了使訓練結果更加精確,隱
含主題向量模型中還包含有訓練資料庫,所述訓練資料庫中有大量的文檔數據。

S12、計算所述詞向量和主題向量之間的距離;

上述訓練得到所述詞向量和主題向量詞語目的是為了計算詞語在文檔當中
的重要程度,并對重要程度進行排序,從而從中挑選出最重要的詞語作為文檔
的關鍵詞。

本實施例中,通過計算詞向量和主題向量之間的距離來衡量詞語在文檔當
中的重要程度,具體的,包括計算所述詞向量和主題向量之間的歐式距離、余
弦距離、或正弦距離等,同時,計算的距離不同,衡量重要程度的標準也不同。
如果,計算所述詞向量和主題向量之間的歐式距離或者正弦距離,則距離越大
則說明該詞語在文檔當中越重要即越能反映文檔所表達的主題思想,如果計算
所述詞向量和主題向量之間的余弦距離,則距離越小則說明該詞語在文檔當中
越重要。

S13、根據詞向量與所述主題向量之間的距離,選取預設個數詞向量對應的
詞作為所述文檔的關鍵詞。

其中,預設個數可根據具體實際情況進行設置,這里不做具體限定。

根據上述步驟12的計算結果,即可確定文檔中較為重要的預設個數詞向
量,則將預設個數詞向量對應的詞作為所述文檔的關鍵詞。

本實施例通過根據主題模型和詞向量融合后的隱含主題向量模型對文檔進
行訓練,得到與文檔信息相關的至少一個主題向量和至少一個詞向量,進一步
根據詞向量與所述主題向量之間的距離,選取預設個數詞向量對應的詞作為所
述文檔的關鍵詞。本實施例根據隱含主題向量模型對文檔進行訓練,在訓練過
程中能夠捕捉更多的文檔信息,從而提取出的精確表達文檔信息的關鍵詞信息。

示例性的,為提高提取關鍵詞的精確度,本發明實施例提供了如下兩種計
算所述詞向量和主題向量之間的距離的方法,其中第一種方法即基于最優主題
的計算方法,主要包括以下步驟:

根據所述文檔的主題分布從至少一個主題中選取主題分布概率最大的主題
作為最優主題;

計算所述詞向量和所述最優主題對應的主題向量之間的距離。

具體的,對于某個文檔,在隱含主題向量模型當中,可以訓練得到它的文
檔的主題分布即P(z|d),包含所述文檔中每一個主題對應的主題分布概率,而該
主題分布當中概率最大的主題z即最優主題則表示該文檔的核心內容。因此可
以認為,文檔當中最重要的詞語就是在向量空間上離主題z的向量表示距離最
近的那些詞語。因此,根據所述主題分布概率的大小從中選擇一個主題分布概
率最大的主題作為最優主題,基于該最優的主題對應的主題向量,計算與各個
詞向量之間的距離,從而根據所述詞向量和所述最優主題對應的主題向量之間
的距離,選取預設個數詞向量對應的詞作為所述文檔的關鍵詞。

其中,第二種方法即基于主題分布的計算方法,主要包括以下步驟:

根據所述文檔的每個主題的主題分布概率對所述詞向量和每個主題向量之
間的距離進行加權求和;

將加權和作為所述詞向量和主題向量之間的距離。

具體的,考慮到在某個文檔中,起到重要作用的主題可能會不止一個,而
上述基于最優主題的方法可能會丟失部分信息,因此考慮對不同主題之間的距
離根據P(z|d)進行加權,可以得到一種新的度量方式即如下述公式所示

S c o r e _ D i s t r ( w ) = Σ z Z P ( z | d ) L ]]>

其中,Score_Distr(w)為加權和,L為所述詞向量和主題向量之間的距離。

上述度量方式即按文檔的主題分布加權后得到的詞語重要性得分。根據上
述方法得到的Score_Distr(w)對詞語進行排序,并選出選取預設個數詞向量對應
的詞作為所述文檔的關鍵詞。

示例性的,本發明實施例還提供了根據隱含主題向量模型訓練得到與文檔
信息相關的至少一個主題向量和至少一個詞向量的具體實現方法,主要包括以
下步驟:

將所述文檔加入訓練資料庫中,為所述訓練資料庫中的每個文檔的每個主
題和每個詞分別構建初始主題向量和初始詞向量;

根據所述初始主題向量和初始詞向量建立所述訓練資料庫中所有文檔的聯
合似然函數;

對所述聯合似然函數進行參數估計得到所述主題向量和詞向量。

其中,所述訓練資料庫可從互聯網(例如,新浪語料數據庫)上進行獲取,
訓練資料庫中包含了各種類型的文檔。其中,初始主題向量和初始詞向量可自
定義設置。

示例性的,根據所述初始主題向量和初始詞向量建立聯合似然函數,包括:

根據公式一得到所述初始詞向量的生成概率:

公式一: P ( v ^ w | x w ) = e x w · v ^ w Σ w e x w · v ^ w ]]>

其中,是當前詞w的詞向量v的輔助向量,xw表示當前詞w的上下文
向量,其中,是當前詞w的周圍詞的詞向量,
vz當前主題z的主題向量,表示加和操作,w′為詞w′;

根據所述公式一得到所述訓練資料庫中所有文檔的聯合似然函數如公式
二:

公式二:


其中,αz為主題z對應的狄利克雷先驗參數,βv為詞v對應的狄利克雷先
驗參數,mdz為文檔d中被采樣成為主題z的句子的個數,nzv表示所述訓練資
料庫中詞v和主題z一起出現的次數總和,M表示所有詞向量和主題向量的集
合,D表示文檔d的總數,T表示文檔d中主題的總數,表示詞v的附屬詞。

示例性的,為進一步優化上述聯合似然函數,在根據所述公式一得到聯合
似然函數如公式二之后,進一步包括如下步驟:

采用吉布斯算法對所述公式二進行處理,可得文檔d中每個句子s對應的
主題的條件分布如公式三:

公式三:

P ( z d s = k | w , z - d s , α , β , M ) ( m d k + α k ) Γ ( Σ w = 1 W ( n k w + β w ) ) Γ ( Σ w = 1 W ( n k w + β w + N i w ) ) Π w s Γ ( n k w + β w + N i w ) Γ ( n k w + β w ) Π w ~ s e x w · v ^ w ]]>

其中,k為待定主題,W為所述訓練資料庫中詞的總數,Niw為詞w在文檔
d中第i個句子中出現的次數;

根據所述條件分布中每個主題的條件分布概率為文檔d的每個句子s確定
特定主題;

根據所述特定主題的條件分布概率對所述公式一進行處理,得到如公式四
所述的對數似然函數:

公式四:


T log ( Γ ( Σ v = 1 V β v ) Π v = 1 V Γ ( β v ) ) + Σ z Σ v log ( Γ ( n z v + β v ) ) - Σ z log ( Γ ( Σ v ( n z v + β v ) ) ) + Σ d Σ s d Σ w ~ s log P ( v ^ w | x w ) . ]]>

對所述聯合似然函數進行參數估計得到所述主題向量和詞向量,包括:

對所述對數似然函數進行參數估計得到所述主題向量和詞向量。

示例性的,可進一步對上述得到的對數似然函數進行優化,具體包括如下
步驟:

采用牛頓迭代法對所述對數似然函數中的參數α和參數β進行優化處理;

和/或,

采用負采樣算法對所述對數似然函數中的詞向量、主題向量和輔助向量進
行優化;

相應的,對所述對數似然函數進行參數估計得到所述主題向量和詞向量,
包括:

對優化后的對數似然函數進行參數估計得到所述主題向量和詞向量。

示例性的,采用負采樣算法對詞向量、主題向量和輔助向量進行優化,包
括:

采用負采樣算法對所述訓練資料庫中所有文檔中的詞和主題進行處理,得
到如公式五所述的似然函數:

公式五:


其中,l為當前詞對應的取值,如果當前詞是正常詞,則l=1,如果當前詞
是負采樣詞,則l=0,|NEG|為詞對應的負采樣詞的個數,|V|為所述訓練資料庫
中詞的總數;

采用隨機梯度下降法對所述公式五進行處理,可得如下詞向量的優化公式
如公式六、主題向量的優化公式如公式七和輔助向量的優化公式如公式八:

公式六:

v u : = v u + η Σ u c w N E G ( c w ) [ l u c w - σ ( x w · v ^ u - l o g ( | N E G | | V | ) ) ] · v ^ u , ]]>

公式七:

v z : = v z + η Σ u c w N E G ( c w ) [ l u c w - σ ( x w · v ^ u - log ( | N E G | | V | ) ) ] · v ^ u . ]]>

公式八:

v ^ u : = v ^ u + η [ l u c w - σ ( x w · v ^ u - l o g ( | N E G | | V | ) ) ] · x w . ]]>

針對所述訓練數據庫中的訓練語料,使用本發明實施例提供的隱含主題向
量模型可以得到每個主題的向量化表示,采用現有技術中提供的基于主題模型
可以學習得到每個主題下詞的多項分布,本發明實施例對比了每個主題下詞的
多項分布中概率最大的10個詞以及離每個主題的向量最接近的10個詞向量,
結果如下表一所示:

表一


從表一可以看出,基于主題模型的多項分布對于高頻詞有著很明顯的傾斜,
但中低頻詞通過傳統的主題分布與主題建立起來的聯系較弱,這就使得在使用
多項分布進行關鍵詞抽取的時候,主題模型會很自然地偏向于高頻詞,從而導
致較差的關鍵詞抽取結果。而隱含主題模型的向量化表示則消除了這個問題,
從上表可以看到,離主題向量最近的詞往往都是該主題下表示實際含義的詞,
這就使得利用主題向量的模型在關鍵詞抽取的任務當中能夠獲得更好的結果。

因此,上述各實施例同樣通過根據主題模型和詞向量融合后的隱含主題向
量模型對文檔進行訓練,得到與文檔信息相關的至少一個主題向量和至少一個
詞向量,進一步根據詞向量與所述主題向量之間的距離,選取預設個數詞向量
對應的詞作為所述文檔的關鍵詞。本實施例根據隱含主題向量模型對文檔進行
訓練,在訓練過程中能夠捕捉更多的文檔信息,從而提取出的精確表達文檔信
息的關鍵詞信息。

實施例二

圖2為本發明實施例二提供的提取文檔中關鍵詞的方法的流程示意圖,如
圖2所示,具體包括:

S21、將待處理文檔加入訓練資料庫中,為所述訓練資料庫中的每個文檔的
每個主題和每個詞分別構建初始主題向量和初始詞向量;

S22、根據公式一得到所述初始詞向量的生成概率:

公式一: P ( v ^ w | x w ) = e x w · v ^ w Σ w e x w · v ^ w ]]>

其中,是當前詞w的詞向量v的輔助向量,xw表示當前詞w的上下文
向量,其中,是當前詞w的周圍詞的詞向量,
vz當前主題z的主題向量,表示加和操作,w′為詞w′;

S23、根據所述公式一得到所述訓練資料庫中所有文檔的聯合似然函數如公
式二:

公式二:


其中,αz為主題z對應的狄利克雷先驗參數,βv為詞v對應的狄利克雷先
驗參數,mdz為文檔d中被采樣成為主題z的句子的個數,nzv表示所述訓練資
料庫中詞v和主題z一起出現的次數總和,M表示所有詞向量和主題向量的集
合,D表示文檔d的總數,T表示文檔d中主題的總數,表示詞v的附屬詞。

S24、采用吉布斯算法對所述公式二進行處理,可得文檔d中每個句子s對
應的主題的條件分布如公式三:

公式三:

P ( z d s = k | w , z - d s , α , β , M ) ( m d k + α k ) Γ ( Σ w = 1 W ( n k w + β w ) ) Γ ( Σ w = 1 W ( n k w + β w + N i w ) ) Π w s Γ ( n k w + β w + N i w ) Γ ( n k w + β w ) Π w ~ s e x w · v ^ w ]]>

其中,k為待定主題,W為所述訓練資料庫中詞的總數,Niw為詞w在文檔
d中第i個句子中出現的次數;

S25、根據所述條件分布中每個主題的條件分布概率為文檔d的每個句子s
確定特定主題;

S26、根據所述特定主題的條件分布概率對所述公式一進行處理,得到如公
式四所述的對數似然函數:

公式四:


T log ( Γ ( Σ v = 1 V β v ) Π v = 1 V Γ ( β v ) ) + Σ z Σ v log ( Γ ( n z v + β v ) ) - Σ z log ( Γ ( Σ v ( n z v + β v ) ) ) + Σ d Σ s d Σ w ~ s log P ( v ^ w | x w ) . ]]>

S27、采用牛頓迭代法對所述對數似然函數中的參數α和參數β進行優化處
理,并采用負采樣算法對所述對數似然函數中的詞向量、主題向量和輔助向量
進行優化;

S28、對優化后的對數似然函數進行參數估計得到所述待處理文檔的主題向
量和詞向量。

S29、計算所述詞向量和主題向量之間的余弦距離;

S210、根據詞向量與所述主題向量之間的余弦距離,選取預設個數詞向量
對應的詞作為所述待處理文檔的關鍵詞。

為了驗證本發明實施例的有效性,發明人分別在不同規模的實驗數據集上
進行了多組對比實驗,實驗效果均超過了傳統基于主題模型的方法的最佳結果。

第一組實驗,小規模數據實驗

實驗目的:從一個文檔中的所有詞當中挑選出最能體現文檔含義的關鍵詞

訓練數據庫:來自于新浪Sina語料的開發集、訓練集和測試集,總共包含
有32000個文檔。

測試數據:來自于Sina語料的測試集,對應于測試集中的每個文檔,包
含有其對應的參考關鍵詞。共1000個文檔。

評估方法:對于每一個文檔,每一個模型生成3個關鍵詞。使用準確率和
召回率來評估實驗結果。準確率指的是模型預測正確的關鍵詞個數占模型預測
關鍵詞個數的百分比。召回率指的是模型預測正確的關鍵詞占參考答案中的關
鍵詞個數的百分比。使用微平均作為評價指標,即對每個文檔分別計算其準確
率與召回率,然后取平均值。

實驗設置:分別考慮了是否在訓練語料當中去除停用詞的情況,并且將本
發明實施例中使用的隱含主題向量模型同多種LDA和SentenceLDA的基于似
然的方法進行了對比。在LDA和以句子為單位的隱含狄利克雷分配(Sentence
LDA,sLDA)方法當中,對于文檔當中的每一個詞,計算了∑zP(z|d)P(w|z)作
為每個詞在當前文檔當中的得分,然后找出了值最大的前3個詞作為關鍵詞。
在上述所有的方法當中,本發明實施例均去除了所有語料當中只有一個字的詞。
實驗結果如下述表二所示:

表二


實驗結果分析:在上述實驗結果當中,可以看到,無論是否去除停用詞,
本發明實施例的方法都取得了最好的實驗結果。在去除停用詞的實驗當中,對
比與LDA模型的實驗結果,本發明實施例提供的隱含主題向量模型的提升幅度
達到了20.9%。同時,是否去除停用詞對于本發明實施例提供的隱含主題向量
模型的最終結果沒有影響,這說明了本發明實施例提供的隱含主題向量模型具
有一定程度上抗噪聲的能力。另外,基于主題分布的計算方法的實驗結果要優
于基于最優主題的計算方法,這說明了在生成最終關鍵詞的時候考慮更多的主
題信息對最終的實驗結果是有幫助的。

第二組實驗,大規模數據實驗

實驗目的:從一個文檔中的所有詞當中挑選出最能體現文檔含義的關鍵詞

訓練數據:來自于Sina語料的開發集、訓練集和測試集,以及來自于新聞
領域的語料數據,總共包含有261173個文檔。

測試數據:來自于Sina語料的測試集,對應于測試集中的每個文檔,包
含有其對應的參考關鍵詞。共1000個文檔。

評估方法:對于每一個文檔,每一個模型生成3個關鍵詞。使用準確率和
召回率來評估實驗結果。準確率指的是模型預測正確的關鍵詞個數占模型預測
關鍵詞個數的百分比。召回率指的是模型預測正確的關鍵詞占參考答案中的關
鍵詞個數的百分比。使用微平均作為評價指標,即對每個文檔分別計算其準確
率與召回率,然后取平均值。

實驗設置:分別考慮了是否在訓練語料當中去除停用詞的情況,并且將本
發明實施例使用的隱含主題向量模型同多種LDA和SentenceLDA的基于似然
函數的方法進行了對比。在LDA和SentenceLDA的PL方法當中,對于文檔當
中的每一個詞,計算了∑zP(z|d)P(w|z)作為每個詞在當前文檔當中的得分,然
后找出了值最大的前3個詞作為關鍵詞。同時,還將本發明實施例的方法與LDA
當中的基于隱變量分布距離的方法進行了對比,根據文檔的主題分布P(z|d)以
及詞的主題分布 P ( z | w ) = P ( z | w ) P ( z ) P ( w ) P ( z | w ) P ( z ) , ]]>然后計算兩個分布的余弦距
離并按距離排序,選擇主題分布距離最接近于文檔主題分布的3個詞作為該文
檔的關鍵詞。在上述所有的方法當中,均去除了所有語料當中只有一個字的詞。
實驗結果如下述表三所示:

表三


實驗結果分析:在上述實驗結果當中,可以看到,本發明實施例的方法仍
然取得了最好的實驗結果,在小規模語料上得到的實驗結論在大規模語料上仍
然適用。同時,可以看到,基于LDA和SentenceLDA的方法在加入了大規模
訓練語料之后,對于實驗結果并沒有顯著的提升。然而本發明實施例的方法在
增加了訓練語料之后實驗結果得到了顯著性的提升,基于最優主題的計算方法
提升了12.1%,基于主題分布的計算方法提升了6.5%。并且隨著模型的訓練語
料的增加,本發明實施例的實驗結果仍然有進一步增長的潛力。

實施例三

圖3為本發明實施例三提供的提取文檔中關鍵詞的裝置的結構示意圖,如
圖3所示,具體包括:向量訓練模塊31、距離計算模塊32和關鍵詞提取模塊
33;

所述向量訓練模塊31用于根據隱含主題向量模型訓練得到與文檔信息相
關的至少一個主題向量和至少一個詞向量,所述隱含主題向量模型為主題模型
和詞向量的融合模型;

所述距離計算模塊32用于計算所述詞向量和主題向量之間的距離;

所述關鍵詞提取模塊33用于根據詞向量與所述主題向量之間的距離,選取
預設個數詞向量對應的詞作為所述文檔的關鍵詞。

本實施例所述的提取文檔中關鍵詞的裝置用于執行上述各實施例所述的提
取文檔中關鍵詞的方法,其技術原理和產生的技術效果類似,這里不再累述。

示例性的,在上述實施例的基礎上,所述距離計算模塊32具體用于:

根據所述文檔的主題分布從至少一個主題中選取主題分布概率最大的主題
作為最優主題;計算所述詞向量和所述最優主題對應的主題向量之間的距離。

示例性的,在上述實施例的基礎上,所述距離計算模塊32具體用于:

根據所述文檔的每個主題的主題分布概率對所述詞向量和每個主題向量之
間的距離進行加權求和;將加權和作為所述詞向量和主題向量之間的距離。

示例性的,在上述實施例的基礎上,所述距離為余弦距離。

示例性的,在上述實施例的基礎上,所述向量訓練模塊31包括:向量構建
單元311、聯合似然函數建立單元312和參數估計單元313;

所述向量構建單元311用于將所述文檔加入訓練資料庫中,為所述訓練資
料庫中的每個文檔的每個主題和每個詞分別構建初始主題向量和初始詞向量;

所述聯合似然函數建立單元312用于根據所述初始主題向量和初始詞向量
建立所述訓練資料庫中所有文檔的聯合似然函數;

所述參數估計單元313用于對所述聯合似然函數進行參數估計得到所述主
題向量和詞向量。

示例性的,所述聯合似然函數建立單元312具體用于:

根據公式一得到所述初始詞向量的生成概率:

公式一: P ( v ^ w | x w ) = e x w · v ^ w Σ w e x w · v ^ w ]]>

其中,是當前詞w的詞向量v的輔助向量,xw表示當前詞w的上下文
向量,其中,是當前詞w的周圍詞的詞向量,
vz當前主題z的主題向量,表示加和操作,w′為詞w′;

根據所述公式一得到所述訓練資料庫中所有文檔的聯合似然函數如公式
二:

公式二:


其中,αz為主題z對應的狄利克雷先驗參數,βv為詞v對應的狄利克雷先
驗參數,mdz為文檔d中被采樣成為主題z的句子的個數,nzv表示所述訓練資
料庫中詞v和主題z一起出現的次數總和,M表示所有詞向量和主題向量的集
合,D表示文檔d的總數,T表示文檔d中主題的總數,表示詞v的附屬詞。

示例性的,所述向量訓練模塊31還包括:聯合似然函數處理單元314;

所述聯合似然函數處理單元314用于在所述聯合似然函數建立單元312根
據所述公式一得到聯合似然函數如公式二之后,采用吉布斯算法對所述公式二
進行處理,可得文檔d中每個句子s對應的主題的條件分布如公式三:

公式三:

P ( z d s = k | w , z - d s , α , β , M ) ( m d k + α k ) Γ ( Σ w = 1 W ( n k w + β w ) ) Γ ( Σ w = 1 W ( n k w + β w + N i w ) ) Π w s Γ ( n k w + β w + N i w ) Γ ( n k w + β w ) Π w ~ s e x w · v ^ w ]]>

其中,k為待定主題,W為所述訓練資料庫中詞的總數,Niw為詞w在文檔
d中第i個句子中出現的次數;

根據所述條件分布中每個主題的條件分布概率為文檔d的每個句子s確定
特定主題;

根據所述特定主題的條件分布概率對所述公式一進行處理,得到如公式四
所述的對數似然函數:

公式四:


T log ( Γ ( Σ v = 1 V β v ) Π v = 1 V Γ ( β v ) ) + Σ z Σ v log ( Γ ( n z v + β v ) ) - Σ z log ( Γ ( Σ v ( n z v + β v ) ) ) + Σ d Σ s d Σ w ~ s log P ( v ^ w | x w ) . ]]>

所述參數估計單元313具體用于:

對所述對數似然函數進行參數估計得到所述主題向量和詞向量。

示例性的,所述向量訓練模塊31還包括:對數似然函數優化處理單元315;

所述對數似然函數優化處理單元315用于在所述聯合似然函數處理單元
314得到如公式四所述的對數似然函數之后,采用牛頓迭代法對所述對數似然
函數中的參數α和參數β進行優化處理;

和/或,

采用負采樣算法對所述對數似然函數中的詞向量、主題向量和輔助向量進
行優化;

所述參數估計單元313具體用于:

對優化后的對數似然函數進行參數估計得到所述主題向量和詞向量。

示例的,所述對數似然函數優化處理單元315具體用于:

采用負采樣算法對所述訓練資料庫中所有文檔中的詞和主題進行處理,得
到如公式五所述的似然函數:

公式五:


其中,l為當前詞對應的取值,|NEG|為詞對應的負采樣詞的個數,|V|為所
述訓練資料庫中詞的總數;

采用隨機梯度下降法對所述公式五進行處理,可得如下詞向量的優化公式
如公式六、主題向量的優化公式如公式七和輔助向量的優化公式如公式八:

公式六:

v u : = v u + η Σ u c w N E G ( c w ) [ l u c w - σ ( x w · v ^ u - log ( | N E G | | V | ) ) ] · v ^ u , ]]>

公式七:

v z : = v z + η Σ u c w N E G ( c w ) [ l u c w - σ ( x w · v ^ u - log ( | N E G | | V | ) ) ] · v ^ u . ]]>

公式八:

v ^ u : = v ^ u + η [ l u c w - σ ( x w · v ^ u - l o g ( | N E G | | V | ) ) ] · x w . ]]>

示例性的,所述參數估計單元313還用于:

對所述聯合似然函數進行參數估計的過程中采用公式九得到每個文檔的主
題分布:

公式九:

P ( z | d ) = m d z + α z Σ z = 1 K ( m dz + α z ) ]]>

其中,K為主題z在文檔d的總數。

上述各實施例所述的提取文檔中關鍵詞的裝置同樣用于執行上述各實施
例所述的提取文檔中關鍵詞的方法,其技術原理和產生的技術效果類似,這里
不再累述。

注意,上述僅為本發明的較佳實施例及所運用技術原理。本領域技術人員
會理解,本發明不限于這里所述的特定實施例,對本領域技術人員來說能夠進
行各種明顯的變化、重新調整和替代而不會脫離本發明的保護范圍。因此,雖
然通過以上實施例對本發明進行了較為詳細的說明,但是本發明不僅僅限于以
上實施例,在不脫離本發明構思的情況下,還可以包括更多其他等效實施例,
而本發明的范圍由所附的權利要求范圍決定。

關 鍵 詞:
提取 文檔 關鍵詞 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:提取文檔中關鍵詞的方法及裝置.pdf
鏈接地址:http://www.wwszu.club/p-6385971.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大