鬼佬大哥大
  • / 11
  • 下載費用:30 金幣  

命名實體識別方法及裝置.pdf

關 鍵 詞:
命名 實體 識別 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
摘要
申請專利號:

CN201510321448.8

申請日:

2015.06.12

公開號:

CN104899304A

公開日:

2015.09.09

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150612|||公開
IPC分類號: G06F17/30; G06F17/27; G06N3/08 主分類號: G06F17/30
申請人: 北京京東尚科信息技術有限公司; 北京京東世紀貿易有限公司
發明人: 姜文
地址: 100080北京市海淀區杏石口路65號西杉創意園四區11C樓東段1-4層西段1-4層
優先權:
專利代理機構: 中原信達知識產權代理有限責任公司11219 代理人: 姜勁; 陸錦華
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510321448.8

授權公告號:

||||||

法律狀態公告日:

2018.02.16|||2015.10.07|||2015.09.09

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明提供一種命名實體的識別方法以及裝置,能夠準確地識別出命名實體,特別是電商領域的命名實體。其中,該方法包括:獲取向量庫;將訓練語料文本串分詞得到多個樣本詞;按順序地對于每個樣本詞查詢向量庫以構建第一特征向量,第一特征向量包含樣本詞對應的詞向量和詞性向量以及樣本詞前一詞對應的實體標記向量;將所有第一特征向量整體作為輸入量,訓練神經網絡命名實體識別模型;將待預測文本串分詞得到多個待測詞;按順序地對于每個待測詞查詢向量庫以構建第二特征向量,第二特征向量包含待測詞對應的詞向量和詞性向量以及待測詞前一詞對應的實體標記向量;將各個待測詞對應的第二特征向量分別輸入模型,輸出待測詞的實體標記。

權利要求書

權利要求書
1.  一種命名實體識別方法,其特征在于,包括:
獲取向量庫,所述向量庫包括多個詞分別對應的詞向量,多類詞性分別對應的詞性向量,以及多類實體標記分別對應的實體標記向量;
將訓練語料文本串分詞得到順序化的多個樣本詞;
按順序地對于每個樣本詞查詢所述向量庫以構建第一特征向量,所述第一特征向量包含樣本詞對應的詞向量、樣本詞對應的詞性向量以及樣本詞前一詞對應的實體標記向量;
將所有樣本詞對應的所述第一特征向量整體作為神經網絡的訓練輸入量,利用神經網絡BP算法進行網絡參數求解,得到神經網絡命名實體識別模型;
將待預測文本串分詞得到順序化的多個待測詞;
按順序地對于每個待測詞查詢所述向量庫以構建第二特征向量,所述第二特征向量包含待測詞對應的詞向量、待測詞對應的詞性向量以及待測詞前一詞對應的實體標記向量;
將所述各個待測詞對應的所述第二特征向量分別輸入所述神經網絡命名實體識別模型,輸出所述待測詞的實體標記。

2.  根據權利要求1所述的方法,其特征在于,
所述第一特征向量中還包含:所述樣本詞鄰近詞對應的詞向量以及所述樣本詞鄰近詞對應的詞性向量,以及,
所述第二特征向量中還包含:所述待測詞鄰近詞對應的詞向量以及所述待測詞鄰近詞對應的詞性向量。

3.  根據權利要求1所述的方法,其特征在于,
對于順序化的多個樣本詞中的首個樣本詞構建所述第一特征向量時,所述首個樣本詞的前一詞為預定字符串,以及,
對于順序化的多個待測詞中的首個待測詞構建所述第二特征向量時,所述首個待測詞的前一詞為預定字符串。

4.  根據權利要求1所述的方法,其特征在于,所述神經網絡的訓練輸入量中還包括負例樣本。

5.  一種命名實體識別裝置,其特征在于,包括:
向量庫獲取模塊,用于獲取向量庫,所述向量庫包括多個詞分別對應的詞向量,多類詞性分別對應的詞性向量,以及多類實體標記分別對應的實體標記向量;
第一分詞模塊,用于將訓練語料文本串分詞得到順序化的多個樣本詞;
第一構建模塊,用于按順序地對于每個樣本詞查詢所述向量庫以構建第一特征向量,所述第一特征向量包含樣本詞對應的詞向量、樣本詞對應的詞性向量以及樣本詞前一詞對應的實體標記向量;
訓練模塊,用于將所有樣本詞對應的所述第一特征向量整體作為神經網絡的訓練輸入量,利用神經網絡BP算法進行網絡參數求解,得到神經網絡命名實體識別模型;
第二分詞模塊,用于將待預測文本串分詞得到順序化的多個待測詞;
第二構建模塊,用于按順序地對于每個待測詞查詢所述向量庫以構建第二特征向量,所述第二特征向量包含待測詞對應的詞向量、待測詞對應的詞性向量以及待測詞前一詞對應的實體標記向量;
預測模塊,用于將所述各個待測詞對應的所述第二特征向量分別輸入所述神經網絡命名實體識別模型,輸出所述待測詞的實體標記。

6.  根據權利要求5所述的裝置,其特征在于,
所述第一特征向量中還包含:所述樣本詞鄰近詞對應的詞向量以及所述樣本詞鄰近詞對應的詞性向量,以及,
所述第二特征向量中還包含:所述待測詞鄰近詞對應的詞向量以及所述待測詞鄰近詞對應的詞性向量。

7.  根據權利要求5所述的裝置,其特征在于,
所述第一構建模塊還用于:對于順序化的多個樣本詞中的首個樣本詞構建所述第一特征向量時,使用預定字符串作為所述首個樣本詞的前一詞,以及,
所述第二構建模塊還用于:對于順序化的多個待測詞中的首個待測詞構建所述第二特征向量時,使用預定字符串作為所述首個待測詞的前一詞。

8.  根據權利要求5所述的裝置,其特征在于,所述訓練模塊中,所述神經網絡的訓練輸入量中還包括負例樣本。

說明書

說明書命名實體識別方法及裝置
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種命名實體識別方法及裝置。
背景技術
隨著互聯網技術的快速發展,信息服務變得越來越普及。其中,命名實體的識別是信息提取、問答系統、句法分析、機器翻譯、面向互聯網的元數據標注等信息服務應用領域的重要基礎工作。命名實體(簡稱實體),指的是人名、機構名、地名以及其他所有以名稱為標識的實體,更廣泛的命名實體還包括數字、日期、貨幣、地址等。
現有技術中已經有了采用神經網絡技術訓練命名實體識別的技術。現有的方法至少具有如下幾個缺點:(1)主要依靠詞本身作為輸入特征,模型特征單一,并未直接引入實體標記之間的前后依賴關系,導致識別的準確率不高,特別是在識別電商領域的命名實體時經常識別不準;(2)由于網絡的初始值是隨機生成的,最終的參數優化結果很可能不夠好,訓練時間較長導致開發效率低下;(3)未充分考慮訓練數據的分布情況導致模型對實體的擬合程度不均勻。
電商領域的命名實體,比如商品名(諾基亞1020、ThinkPad E431 14英寸筆記本電腦)、價格、商品屬性等,這些命名實體通常由句子中一個或多個連續的詞組成,詞性通常為“名詞+數詞”等形式。總之,電商領域的命名實體具有鮮明的特點,目前亟需針對電商領域的命名實體開發出識別方法或識別裝置。
發明內容
有鑒于此,本發明提供一種命名實體識別方法及裝置,能夠準確地識別出命名實體,特別是電商領域的命名實體。
為實現上述目的,根據本發明的一個方面,提供了一種命名實體識別方法,包括:獲取向量庫,所述向量庫包括多個詞分別對應的詞向量,多類詞性分別對應的詞性向量,以及多類實體標記分別對應的實體標記向量;將訓練語料文本串分詞得到順序化的多個樣本詞;按順序地對于每個樣本詞查詢所述向量庫以構建第一特征向量,所述第一特征向量包含樣本詞對應的詞向量、樣本詞對應的詞性向量以及樣本詞前一詞對應的實體標記向量;將所有樣本詞對應的所述第一特征向量整體作為神經網絡的訓練輸入量,利用神經網絡BP算法進行網絡參數求解,得到神經網絡命名實體識別模型;將待預測文本串分詞得到順序化的多個待測詞;按順序地對于每個待測詞查詢所述向量庫以構建第二特征向量,所述第二特征向量包含待測詞對應的詞向量、待測詞對應的詞性向量以及待測詞前一詞對應的實體標記向量;將所述各個待測詞對應的所述第二特征向量分別輸入所述神經網絡命名實體識別模型,輸出所述待測詞的實體標記。
可選地,所述第一特征向量中還包含:所述樣本詞鄰近詞對應的詞向量以及所述樣本詞鄰近詞對應的詞性向量,以及,所述第二特征向量中還包含:所述待測詞鄰近詞對應的詞向量以及所述待測詞鄰近詞對應的詞性向量。
可選地,對于順序化的多個樣本詞中的首個樣本詞構建所述第一特征向量時,所述首個樣本詞的前一詞為預定字符串,以及,對于順序化的多個待測詞中的首個待測詞構建所述第二特征向量時,所述首個待測詞的前一詞為預定字符串。
可選地,所述神經網絡的訓練輸入量中還包括負例樣本。
為實現上述目的,根據本發明的另一方面,提供了一種命名實體識別裝置,包括:向量庫獲取模塊,用于獲取向量庫,所述向量庫包括多個詞分別對應的詞向量,多類詞性分別對應的詞性向量,以及多類實體標記分別對應的實體標記向量;第一分詞模塊,用于將訓練語料文本串分詞得到順序化的多個樣本詞;第一構建模塊,用于按順序地對于每個樣本詞查詢所述向量庫以構建第一特征向量,所述第一特征向量包含樣本詞對應的詞向量、樣本詞對應的詞性向量以及樣本詞前一詞對應的實體標記向量;訓練模塊,用于將所有樣本詞對應的所述第一特征向量整體作為神經網絡的訓練輸入量,利用神經網絡BP算法進行網絡參數求解,得到神經網絡命名實體識別模型;第二分詞模塊,用于將待預測文本串分詞得到順序化的多個待測詞;第二構建模塊,用于按順序地對于每個待測詞查詢所述向量庫以構建第二特征向量,所述第二特征向量包含待測詞對應的詞向量、待測詞對應的詞性向量以及待測詞前一詞對應的實體標記向量;預測模塊,用于將所述各個待測詞對應的所述第二特征向量分別輸入所述神經網絡命名實體識別模型,輸出所述待測詞的實體標記。
可選地,所述第一特征向量中還包含:所述樣本詞鄰近詞對應的詞向量以及所述樣本詞鄰近詞對應的詞性向量,以及,所述第二特征向量中還包含:所述待測詞鄰近詞對應的詞向量以及所述待測詞鄰近詞對應的詞性向量。
可選地,所述第一構建模塊還用于:對于順序化的多個樣本詞中的首個樣本詞構建所述第一特征向量時,使用預定字符串作為所述首個樣本詞的前一詞,以及,所述第二構建模塊還用于:對于順序化的多個待測詞中的首個待測詞構建所述第二特征向量時,使用預定字符串作為所述首個待測詞的前一詞。
可選地,所述訓練模塊中,所述神經網絡的訓練輸入量中還包括負例樣本。
根據本發明的技術方案,采用了更加合理的特征向量來訓練模型以及利用模型進行預測,該特征向量不僅包含當前詞詞本身的特征,還包含當前詞詞性特征、當前詞前一詞的實體標記特征,與現有的僅僅考慮詞本身的識別技術相比,考慮的信息更加全面,導致最終得到的識別結果更為準確,特別是對電商領域實體識別時準確率較高。
附圖說明
附圖用于更好地理解本發明,不構成對本發明的不當限定。其中:
圖1是根據本發明實施例的命名實體識別方法的主要步驟的流程圖;
圖2是根據本發明實施例的命名實體識別裝置的主要部件的示意圖。
具體實施方式
以下結合附圖對本發明的示范性實施例做出說明,其中包括本發明實施例的各種細節以助于理解,應當將它們認為僅僅是示范性的。因此,本領域普通技術人員應當認識到,可以對這里描述的實施例做出各種改變和修改,而不會背離本發明的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結構的描述。
為使本領域技術人員更好地理解,先對相關術語做簡要介紹。
詞:詞的文字本身。
詞向量:詞的向量化表示,每個詞用一個多維的向量來表示。
詞性:詞的性質。通常將詞分為兩類12種詞性。一類是實詞:名詞、動詞、形容詞、數詞、副詞、擬聲詞、量詞和代詞。一類是虛詞:介詞、連詞、助詞和嘆詞。
詞性向量:詞性的向量化表示,每種詞性用一個多維向量來表示,優選采用離散形式的多維向量來表示。
實體標記:每個實體標記代表一種實體類型,比如WID表示商品 ID、WB表示商品名的第一個詞,WI表示商品名的中間詞,WE表示商品名的結束詞,O表示其他詞等。比如:小米(WB)2s(WI)紅色(WI)手機(WE)怎么樣(O)。
實體標記向量:實體標記的向量化表示,每種實體標記用一個多維向量來表示,優選采用離散形式的多維向量來表示。
需要說明的是,詞向量、詞性向量以及實體標記向量這三個向量的維數并不需要保持一致,可以根據需要靈活設置。
圖1是根據本發明實施例的命名實體識別方法的主要步驟的流程圖。如圖1所示,該命名實體識別方法可以包括步驟A至步驟G。
步驟A:獲取向量庫。該向量庫包括多個詞分別對應的詞向量,多類詞性分別對應的詞性向量,以及多類實體標記分別對應的實體標記向量。
在本發明一個實施例中,對于給定的語料,可以利用word2dec確定語料中的每一個詞對應的詞向量。word2vec是Google在2013年開源的一款將詞表征為實數值向量的工具,能夠把詞映射到K維向量空間,甚至詞與詞之間的向量操作還能和語義相對應。因此利用word2vec預先計算詞向量,可以節省時間、提高效率,并且能夠提高準確率。詞性向量和實體標記向量可以采用隨機初始化的方法,得到隨機向量。將上述過程得到的詞向量、詞性向量和實體標記向量存儲到向量庫中備用。
步驟B:將訓練語料文本串分詞得到順序化的多個樣本詞。
在本發明的實施方式中,可以從電商網站的數據中抽取訓練語料文本串然后進行分詞,得到多個順序化的樣本詞,如表1所示:
表1 訓練語料文本串與樣本詞
訓練語料文本串順序化的樣本詞“iphone價格”“iphone”“價格”“華為榮耀6”“華為”“榮耀”“6”“小米1s紅色手機”“小米”“1s”“紅色”“手機”…………
步驟C:按順序地對于每個樣本詞查詢向量庫以構建第一特征向量。第一特征向量包含樣本詞對應的詞向量、樣本詞對應的詞性向量以及樣本詞前一詞對應的實體標記向量。第一特征向量包含了樣本詞的詞本身的信息和詞性信息之外,還包括樣本詞前一詞的實體標記信息。本發明的方法以第一特征向量為基礎來訓練模型,與僅僅依靠詞本身的信息來訓練模型的現有技術相比,考慮的信息更加全面,導致最終得到的識別結果更為準確。
需要說明的是“第一特征向量包含樣本詞對應的詞向量、樣本詞對應的詞性向量以及樣本詞前一詞對應的實體標記向量”的含義是指第一特征向量由后面三個向量拼接而成,例如:第一特征向量=[樣本詞對應的詞向量,樣本詞對應的詞性向量,樣本詞前一詞對應的實體標記向量]。本發明不對向量拼接時拼接順序進行限定,不同的拼接順序并不影響本發明的原理。但是整個方法中的拼接順序一旦確定,不再更改,以保證所有的第一特征向量格式一致。
步驟C的具體過程舉例如下:假設之前得到了順序化的多個樣本詞“樣本詞1+樣本詞2+樣本詞3+樣本詞4……”,則需要按順序地對樣本詞1,樣本詞2,樣本詞3,樣本詞4等等分別構建第一特征向量。設定取詞窗口寬度為0。其中,對樣本詞1(即首個樣本詞)構建第一特征向量時,由于樣本詞1前面原本不存在詞,所以需要人為地增添預定字符串“$BEGIN”作為樣本詞1的前一詞。該預定字符串“$BEGIN”的實體標記向量已經預先存在了向量庫中,通常為隨機初始化向量。 這時,對于樣本詞1來說,假設從向量庫中查詢到樣本詞1的詞向量記為X1,樣本詞1的詞性向量記為Z1,“$BEGIN”的實體標記向量記為T0,則樣本詞1的第一綜合向量=[X1,Z1,T0]。然后,對于樣本詞2來說,假設從向量庫中查詢到樣本詞2的詞向量記為X2,樣本詞2的詞性向量即為Z2,樣本詞2的前一詞(即樣本詞1)的實體標記向量記為T1,則樣本詞2的第一綜合向量=[X2,Z2,T1]。以此類推,可以得到所有樣本詞對應的第一特征向量。
在本發明的實施方式中,第一特征向量中還可以包含:樣本詞鄰近詞對應的詞向量以及樣本詞鄰近詞對應的詞性向量。此處“還包含”的意思是指“還由后面的向量拼接而成”。“樣本詞鄰近詞”是指位于當前樣本詞之前或者位于當前樣本詞之后的、距離不大于取詞窗口寬度的樣本詞。舉例如下:假設取詞窗口寬度為1,則樣本詞鄰近詞是指當前樣本詞前1個詞和當前樣本詞后1個詞。當前樣本詞的第一特征向量可以記為[當前樣本詞前一詞對應的詞向量,當前樣本詞對應的詞向量,當前樣本詞后一詞對應的詞向量,當前樣本詞前一詞對應的詞性向量,當前樣本詞對應的詞性向量,當前樣本詞后一詞對應的詞性向量,當前樣本詞前一詞對應的實體標記向量]。其他數值取詞窗口寬度的情形可以類推,本文不再贅述。需要說明的是,本發明不對取詞窗口寬度的數值進行限定,可以根據需要靈活設置,但是一旦確定,不再更改,以保證所有的第一特征向量格式一致。還需要說明的是,當取詞窗口寬度增加時,可以對首個樣本詞之前增添的預設字符串來充當位于首個樣本詞之前的鄰近詞,還可以對末尾樣本詞之后增添預設字符串來充當位于末尾樣本詞之后的鄰近詞,本領域技術人員可以通過上文內容推導出具體做法,本文不再贅述。該實施方式中,第一特征向量進一步考慮到了樣本詞鄰近詞的詞信息和詞性信息,考慮的信息更加全面,導致最終得到的識別結果更為準確。
步驟D:將所有樣本詞對應的第一特征向量整體作為神經網絡的訓練輸入量,利用神經網絡BP算法進行網絡參數求解,得到神經網絡 命名實體識別模型。具體地,可以采用平方誤差構建模型整體的目標函數,利用隨機梯度方法求解神經網絡的參數,得到最終的神經網絡命名實體識別模型。
在本發明的實施方式中,神經網絡的訓練輸入量中還可以包括負例樣本。由于實際的訓練語料文本串中的實體標記通常是分布不均的,這會導致模型對一部分命名實體擬合較差。針對于此,可以在訓練模型的過程中,根據這些實體標記的分布情況,按比例隨機進行數據負例采樣,保證其分布盡可能地均勻,從而保證模型對所有命名實體標記的擬合比較準確。
步驟E:將待預測文本串分詞得到順序化的多個待測詞。
在本發明的實施方式中,可以從用戶輸入語句中獲取待預測文本串然后進行分詞,得到多個順序化的待測詞。
步驟F:按順序地對于每個待測詞查詢向量庫以構建第二特征向量,第二特征向量包含待測詞對應的詞向量、待測詞對應的詞性向量以及待測詞前一詞對應的實體標記向量。
需要說明的是,對于順序化的多個待測詞中的首個待測詞構建第二特征向量時,可以在首個待測詞之前增添預定字符串“$BEGIN”作為首個待測詞的前一詞。此處的操作與上文中在首個樣本詞前增添預定字符串的操作類似。
還需要說明的是,待測詞對應的第二特征向量應當與樣本詞對應的第一特征向量的格式一致。這意味著第二特征向量中包含分向量種類以及分向量拼接順序需要與第一特征向量一致。例如:當第一特征向量中還包含樣本詞鄰近詞對應的詞向量以及樣本詞鄰近詞對應的詞性向量時,相應地,第二特征向量中還包含待測詞鄰近詞對應的詞向量以及待測詞鄰近詞對應的詞性向量。
步驟G:分別將待測詞對應的第二特征向量輸入神經網絡命名實體識別模型,輸出待測詞的實體標記。
為使本領域技術人員更好地理解,列舉一個命名實體識別方法的具體實施例如下。
(1)利用word2vec工具得到向量庫。
(2)假設某一個訓練語料文本串為“iphone價格”,可以經過分詞得到兩個樣本詞“iphone”和“價格”。“iphone”的詞性為名詞n,實體標記為商品實體標記W。“價格”的詞性為名詞n,實體標記為其他實體標記O。
(3)首先構建“iphone”對應的第一特征向量。由于“iphone”是首個樣本詞,故需要在前面添加“$BEGIN”(其詞向量、詞性向量、實體標記向量都是隨機初始化的)。假設本實施例中的取詞窗口寬度為1。查詢詞向量庫,取出當前樣本詞前一詞“$BEGIN”、當前樣本詞“iphone”、當前樣本詞后一詞“價格”這三個詞對應的詞向量表示為Xi-1,Xi,Xi+1,以及這三個詞對應的詞性向量表示為Zi-1,Zi,Zi+1,再加上“$BEGIN”的實體標簽表示為Ti-1。將這七個向量按順序拼接起來,形成“iphone”對應的第一特征向量=[Xi-1,Xi,Xi+1,Zi-1,Zi,Zi+1,Ti-1]。
(4)將第一特征向量作為輸入量輸入神經網絡的輸入層,得到輸出h(X)。本實施例中將實體標記W/O轉換成1/0的離散表示。由于已知“iphone”的實體標記為“W”這里的期望輸出為1。利用梯度下降算法進行參數優化,使得誤差最小。將所有的訓練語料文本串經過以上訓練過程,即可得到最終的神經網絡命名實體識別模型。(5)假設某一個待預測文本串“Nokia白色”,分詞結果為兩個待測詞“Nokia”和“白色”,并且已知“Nokia”和“白色”的詞性均為名詞n。
(6)構建“Nokia”對應的第二特征向量的過程如下:在“Nokia”之前添加“$BEGIN”。查詢詞向量庫,獲取“$BEGIN”“Nokia”“白色”對應的詞向量,然后獲取“$BEGIN”“Nokia”“白色”對應的詞性向量,以及獲取“$BEGIN”的實體標記向量。將這七個向量按順序拼接起來,即得到“Nokia”對應的第二特征向量。
(7)將“Nokia”對應的第二特征向量輸入步驟(4)得到的神經網絡命名實體識別模型,以預測“Nokia”的實體標記。如果模型輸出h(X)=0.8,數值大于中值0.5,則將“Nokia”標記為W(商品實體)。如過模型輸出h(X)=0.2,數值小于中值0.5,則將“Nokia”標記為O(其他實體)。
圖2是根據本發明實施例的命名實體識別方法的主要部件的示意圖。如圖2所示,該命名實體識別裝置20可以包括:向量庫獲取模塊21、第一分詞模塊22、第一構建模塊23、訓練模塊24、第二分詞模塊25、第二構建模塊26以及預測模塊27。
向量庫獲取模塊21用于獲取向量庫,向量庫包括多個詞分別對應的詞向量,多類詞性分別對應的詞性向量,以及多類實體標記分別對應的實體標記向量。可選地,利用word2dec確定多個詞對應的詞向量。利用word2dec進行預先計算,節省了訓練時間。
第一分詞模塊22用于將訓練語料文本串分詞得到順序化的多個樣本詞。
第一構建模塊23用于按順序地對于每個樣本詞查詢向量庫以構建第一特征向量,第一特征向量包含樣本詞對應的詞向量、樣本詞對應的詞性向量以及樣本詞前一詞對應的實體標記向量。
訓練模塊24用于將所有樣本詞對應的第一特征向量整體作為神經網絡的訓練輸入量,利用神經網絡BP算法進行網絡參數求解,得到神經網絡命名實體識別模型。
第二分詞模塊25用于將待預測文本串分詞得到順序化的多個待測詞。
第二構建模塊26用于按順序地對于每個待測詞查詢向量庫以構建第二特征向量,第二特征向量包含待測詞對應的詞向量、待測詞對應的詞性向量以及待測詞前一詞對應的實體標記向量。
預測模塊27用于將各個待測詞對應的第二特征向量分別輸入神經網絡命名實體識別模型,輸出待測詞的實體標記。
在本發明的實施方式中,第一特征向量中還可以包含:樣本詞鄰近詞對應的詞向量以及樣本詞鄰近詞對應的詞性向量,以及,第二特征向量中還可以包含:待測詞鄰近詞對應的詞向量以及待測詞鄰近詞對應的詞性向量。該實施方式中,第一特征向量和第二特征向量進一步考慮到了鄰近詞的詞信息和詞性信息,考慮的信息更加全面,導致最終得到的識別結果更為準確。
在本發明的實施方式中,第一構建模塊23還可以用于:對于順序化的多個樣本詞中的首個樣本詞構建第一特征向量時,首個樣本詞的前一詞為預定字符串,以及,第二構建模塊26還可以用于:對于順序化的多個待測詞中的首個待測詞構建第二特征向量時,首個待測詞的前一詞為預定字符串。這樣就解決了首個樣本詞或首個待測詞前面原本缺乏詞的問題。
在本發明的實施方式中,訓練模塊27中,神經網絡的訓練輸入量中還包括負例樣本。引入負例樣本可以保證樣本分布盡可能地均勻,從而保證模型對所有命名實體標記的擬合比較準確。
綜上所述,本發明的命名實體識別方法及裝置采用了更加合理的特征向量來訓練模型以及利用模型進行預測,該特征向量不僅包含當前詞詞本身的特征,還包含當前詞詞性特征、當前詞前一詞的實體標記特征,與現有的僅僅考慮詞本身的識別技術相比,考慮的信息更加全面,導致最終得到的識別結果更為準確,特別是對電商領域實體識 別時準確率較高。
上述具體實施方式,并不構成對本發明保護范圍的限制。本領域技術人員應該明白的是,取決于設計要求和其他因素,可以發生各種各樣的修改、組合、子組合和替代。任何在本發明的精神和原則之內所作的修改、等同替換和改進等,均應包含在本發明保護范圍之內。

關于本文
本文標題:命名實體識別方法及裝置.pdf
鏈接地址:http://www.wwszu.club/p-6369509.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大