鬼佬大哥大
  • / 7
  • 下載費用:30 金幣  

一種基于深度神經網絡與多標記分類的病句檢測方法.pdf

摘要
申請專利號:

CN201510408379.4

申請日:

2015.07.13

公開號:

CN105045779A

公開日:

2015.11.11

當前法律狀態:

撤回

有效性:

無權

法律詳情: 發明專利申請公布后的視為撤回IPC(主分類):G06F 17/27申請公布日:20151111|||實質審查的生效IPC(主分類):G06F 17/27申請日:20150713|||公開
IPC分類號: G06F17/27 主分類號: G06F17/27
申請人: 北京大學
發明人: 王厚峰; 張龍凱
地址: 100871北京市海淀區頤和園路5號
優先權:
專利代理機構: 北京萬象新悅知識產權代理事務所(普通合伙)11360 代理人: 賈曉玲
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510408379.4

授權公告號:

||||||

法律狀態公告日:

2018.04.03|||2015.12.09|||2015.11.11

法律狀態類型:

發明專利申請公布后的視為撤回|||實質審查的生效|||公開

摘要

本發明提供一種基于深度神經網絡與多標記分類的病句檢測方法,該方法的核心是先對句子進行詞法分析、句法分析,在此基礎上抽取基層特征,包括詞特征,詞關系特征等;然后,利用深度神經網絡學習抽象的特征表示,以獲得不同錯誤與特征之間的關系;最后,通過多標記分類方法推斷句子中可能存在的語病。本發明針對句子識別其中語病,并且可以做到識別句子中的多種語病,避免了人工選擇特征,同時也能提升多種語病的預測的準確度。

權利要求書

1.一種病句檢測方法,其特征在于,包括如下步驟:
步驟一:對于一個輸入的句子,表示為一個實例;然后根據詞法、句法分析提取特征,
將實例轉換為特征向量;
步驟二:將步驟一得到的特征向量作為深度神經網絡的輸入,通過深度神經網絡的計算,
逐層獲得壓縮表示;
步驟三:將最后一層神經網絡的壓縮表示作為多標記分類層的輸入,計算得到最終確定
的語病類型。
2.如權利要求1所述的病句檢測方法,其特征在于,步驟一包括:對實例進行預處理,
包括漢語詞切分和詞性標注以及依存分析。
3.如權利要求1所述的病句檢測方法,其特征在于,步驟一包括:以出現的詞、詞性、
詞與詞之間的依存關系作為特征。
4.如權利要求1所述的病句檢測方法,其特征在于,步驟三包括:計算獲得各種語病對
應的概率值,設定閾值,若針對某一種語病的概率輸出超過該閾值,則認為該句子包含這種
錯誤。

說明書

一種基于深度神經網絡與多標記分類的病句檢測方法

技術領域

本發明提出了一種基于深度神經網絡與多標記分類的病句檢測方法,屬于文本挖掘和信
息檢索領域。

背景技術

所謂語病識別,就是判斷一個句子是否有語病,如果有,則找出語病。漢語有很多種語
病,包括詞序不當、搭配不當、成分缺失、成分冗余、結構顛倒、語義不明、不合邏輯等。
其中,詞序不當是指詞語的順序錯誤,例如中心詞和修飾語之間以及多個修飾與之間順序的
顛倒等。搭配不當包括主謂搭配不當、謂詞和賓語搭配不當以及中心詞和修飾語搭配不當等。
成分的缺失及冗余主要指主語、謂詞等的空缺或多余。結構顛倒主要是句子結構的混雜。不
合邏輯錯誤是指自我矛盾、主賓顛倒等錯誤。

語病會導致句子的詞性標注以及依存分析結果異常,使句子的正常分析變得更為困難。
現有語病識別工作大多僅針對某一類特定的錯誤進行識別。若識別句子中的所有類型語病,
則需要針對每一種錯誤訓練一種對應的錯誤識別模型,這樣做既繁瑣又無法考慮錯誤之間的
關系。在遣詞造句時,有時會出現含多類語病的句子,尤其是第二語言學習者。例如一個句
子可能既包含把字句錯誤,同時又缺失了主語。在第二外語學習者的作文中,有相當比例的
句子含有多種語病。語病識別是一個復雜的問題,受到很多因素的影響。為了便于分類處理,
需要預先定義很多特征。但是,究竟哪些特征真正有用,特別是,哪些特征組合后能產生好
的效果,一直是一個大的問題。當然,可以通過手工進行大量的嘗試,但不僅耗時而且費力。

發明內容

為了便于說明,先約定下列概念:

句子:這里指待判定是否為病句的句子,通常以句號結束。

語病:句子中包含不符合語法或者語義規范的描述。

本發明的目的是提供一種方法,在沒有人工干預的情況下,容易檢測出一個給定的句子
是否是病句(即包含至少一種語病)。

本發明的技術方案如下:

一種基于深度神經網絡與多標記分類的病句檢測方法(參圖1),其特征是,包括如下步
驟:

步驟一:對于一個輸入的句子,表示為一個實例;然后根據詞法、句法分析提取特征,
將實例轉換為特征向量;

步驟二:將步驟一得到的特征向量作為深度神經網絡的輸入,通過深度神經網絡的計算,
逐層獲得壓縮表示;

步驟三:將最后一層神經網絡的壓縮表示作為多標記分類層的輸入,計算得到最終確定
的語病類型。

步驟一進一步包括:對實例進行預處理,包括漢語詞切分和詞性標注以及依存分析。

步驟三進一步包括:計算獲得各種語病對應的概率值,設定閾值,若針對某一種語病的
概率輸出超過該閾值,則認為該句子包含這種錯誤。

本發明利用從句子中提取特征,將句子變為特征向量;再將特征向量輸入到深度神經網
絡模型中,獲得深層次特征表示;最后針對于多標記分類的神經網絡輸出,獲得最終多標記
分類結果,從而準確定位到句子中究竟包含哪些錯誤。實現了將句子的特征表示升級到基于
神經網絡的隱藏層表示中,通過多標記的方法輸出可能的語病,從而完成病句的檢測。

本發明針對句子識別其中語病,并且可以做到識別句子中的多種語病,避免了人工選擇
特征,同時也能提升多種語病的預測的準確度。

附圖說明

圖1是本發明所述方法流程示意圖;

圖2是基本的單隱藏層神經網絡示意圖;

圖3是病句分析示例。

具體實施方式

下面通過實例對本發明做進一步的說明,但是需要注意的是,給出實例的目的在于幫助
進一步理解本發明,但是本領域的技術人員可以理解:在不脫離本發明及所附的權利要求的
精神和范圍內,各種替換和修改都是可能的。因此,本發明不應局限于實例所公開的內容,
本發明要求保護的范圍以權利要求書界定的范圍為準。

輸入句子“通過這次學習,使我的水平有了很大的提高”為一個實例,本發明首先需要
獲得詞的信息及句法分析信息,這里采用帶詞性信息的詞作為句子中詞的信息,采用依存分
析結果作為句子中句法分析的信息。如對應的詞、詞性序列是“通過/P,這/DT,次/M,學習/NN,,
/PU,使/VV,我/PN,的/DEG,水平/NN,有/VE,了/AS,極大/JJ,的/DEG,提高/NN。/PU”。,
其對應的依存關系包括:“prep(使-6,通過-1),det(學習-4,這-2),clf(這-2,次-3),pobj(通過-1,
學習-4),root(ROOT-0,使-6),assmod(水平-9,我-7),assm(我-7,的-8),dobj(使-6,水平-9),
dep(使-6,有-10),asp(有-10,了-11),assmod(提高。-14,極大-12),assm(極大-12,的-13),
dobj(有-10,提高。-14)”。

特征就是句子的一種抽象表示。可以直接使用已有的特征提取方法,也可以自己定義特
征。例如,以出現的詞、詞性、詞與詞之間的依存關系作為特征,形成特征集合。當然,特
征集合可以不限于此。

接下來需要將特征向量輸入到深度神經網絡模型中,通過深度神經網絡的計算,得到深
層次壓縮表示。深度神經網絡模型算法可以是現有的任何一種深度神經網絡算法。基本的單
隱藏層神經網絡示意圖見圖2。

深度神經網絡的最后一層輸出,作為多標記分類層的輸入,計算得到最終確定的語病類
型。分類標注層輸出包含每一種語病的概率,按照一定的準則得到最終確定的語病結果。這
里按閾值篩選方法,取概率超過給定閾值的語病類型作為句子包含的語病;如果沒有一種語
病的概率超過閾值,則認為句子不包含語病。

用于多標記分類的神經網絡的激活函數可以選擇Softmax,此時,歸一化的公式為:

y j = exp ( w j * h ) 1 + exp ( w j * h ) ]]>

其中,yi為第i種語病,h是隱藏層的值,wi對應第i個輸出的權重向量。

下面以幾個例子說明病句的識別。

圖3分別列出了三個包含多種語病的病句例子。例如第一句,原句為“后來一個人搞小
小的攤位,把這個企業慢慢大,現在開了一個很大的商場了。”,其中包含了“缺失定語”與
“把字句錯誤”,修改后正確的句子應當是:“后來一個人搞小小的攤位,這個企業慢慢大,
現在開了一個很大的商場了”。本發明給出的方法可以根據原句提取對應的特征序列,通過深
度神經網絡與多標記分類,得出該句話包含“缺失定語”錯誤以及“把字句錯誤”。

其它兩個句子也可以通過類似的方法分析。其對應的正確的句子分別是:“朝鮮戰爭以后
所有的一切被破壞了,大部分人很窮”與“可以說我對旅游的內外部結構的了解已達到一定
的水平”。

關 鍵 詞:
一種 基于 深度 神經網絡 標記 分類 病句 檢測 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種基于深度神經網絡與多標記分類的病句檢測方法.pdf
鏈接地址:http://www.wwszu.club/p-6401544.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大