鬼佬大哥大
  • / 9
  • 下載費用:30 金幣  

一種中文分詞增量學習方法.pdf

摘要
申請專利號:

CN201510604035.0

申請日:

2015.09.21

公開號:

CN105068996A

公開日:

2015.11.18

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/27申請日:20150921|||公開
IPC分類號: G06F17/27 主分類號: G06F17/27
申請人: 哈爾濱工業大學
發明人: 車萬翔; 劉一佳; 劉挺; 趙妍妍
地址: 150001黑龍江省哈爾濱市南崗區西大直街92號
優先權:
專利代理機構: 哈爾濱市松花江專利商標事務所23109 代理人: 楊立超
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510604035.0

授權公告號:

||||||

法律狀態公告日:

2017.11.17|||2015.12.16|||2015.11.18

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

一種中文分詞增量學習方法,涉及中文分詞領域。本發明為了解決現有的在源領域切分數據的基礎上加入目標領域數據混合訓練數據的方法存在的每次數據混合都需要重新訓練模型和數據處理量非常大時導致的運算時間長、對硬件要求高的問題。本發明首先對中文語句集合中的語句xn進行人工標注標記,將已進行人工標記的語句(xn,yn)記為訓練集;對中文語句集合中特征的權重向量W進行初始化,針對中文語句集合中的N個語句,計算每個語句權重向量Wn;然后進行T次迭代操作,然后計算權重向量平均值當中文語句集合中引入增量中文語句集合時,計算出增量中文語句集合的權重向量平均值求得中文分詞增量權重參數完成中文分詞增量的學習。本發明適用中文分詞領域。

權利要求書

1.一種中文分詞增量學習方法,其特征在于它包括下述步驟:
步驟1;設中文語句集合中有N個語句;對中文語句集合中的語句xn進行人工標注標
記,語句xn人工標注標記結果為yn;將已進行人工標記的語句(xn,yn)記為訓練集,n為語
句的序號,n=(1,2,…,N);
步驟2:對中文語句集合中特征的權重向量W進行初始化,將初始化的權重向量標記
為W1=(w1,w2,…,wM);其中w1,w2,…,wM分別為中文語句集合中各個特征對應的權重;M
表示中文語句集合中所有特征的個數;
步驟3:針對中文語句集合中的N個語句,計算每個語句權重向量Wn;
步驟4:重復步驟3,進行T次迭代操作,然后計算權重向量平均值
W = 1 N T Σ n = 1 , t = 1 , n = N , t = T W n , t ]]>
其中,Wn,t表示第t次迭代操作中第n個的語句對應的權重向量;
步驟5:當中文語句集合中引入增量中文語句集合時,單獨提取出增量中文語句集合,
按照步驟1至步驟4的操作,求出增量中文語句集合的權重向量平均值
W a d d = 1 N a d d T a d d Σ n = 1 , t = 1 , n = N a d d , t = T a d d W a d d n , t ]]>
其中,帶有角標add的參數均表示增量中文語句集合中語句的相應參數;
步驟6:根據步驟4和步驟5,按照如下公式求得中文分詞增量權重參數
W Δ = 1 N T + N a d d T a d d ( Σ n = 1 , t = 1 , n = N , t = T W n , t + Σ n = 1 , t = 1 , n = N a d d , t = T a d d W a d d n , t ) ]]>
得到中文分詞增量權重參數即完成了中文分詞增量的學習。
2.根據權利要求1所述的一種中文分詞增量學習方法,其特征在于步驟3所述的針對
中文語句集合中的N個語句計算每個語句權重向量Wn的具體步驟如下:
步驟3.1:按照中文分詞的方式對語句xn進行切分,切分過程有多種切分方式,每種切
分方式記作一種標記結果y′n;
針對標記結果y′n,根據特征抽取函數Φ(xn,y′n),抽取特征向量(f1,f2,…,fM);
步驟3.2:根據如下公式,計算語句xn被切分為標記結果y′n時的分數score;
score=w1·f1+w2·f2+…+wM·fM=Wn·Φ(xn,y′n)
步驟3.3:對語句xn所有的切分方式進行切分,并計算相應的score,選取score最大的
切分方式,將對應的標記結果記為標記結果z;
步驟3.4:將標記結果z與該語句xn的人工標注標記結果yn進行對比;
若不相同,令權重向量Wn+1=Wn+Φ(xn,yn)-Φ(xn,z);若相同,Wn+1=Wn;其中,
Φ(xn,yn)表示語句xn出現標記結果yn對應的特征抽取函數,Φ(xn,z)表示語句xn出現標記
結果z對應的特征抽取函數;
步驟3.5:針對下一個語句xn+1,重復步驟3.1-步驟3.4;
針對中文語句集合中的N個語句,重復N次步驟3.1-步驟3.4的操作;記錄每個語句
權重向量Wn,n=(1,2,…,N)。

說明書

一種中文分詞增量學習方法

技術領域

本發明涉及中文分詞領域。

背景技術

詞是最小的具有獨立意義的語言成分,漢語是以字為基本的書寫單位,詞與詞之間
沒有明顯的區分標記。因此,中文分詞是中文信息處理的基礎與關鍵,信息檢索、文本挖
掘等任務中廣泛使用。

近年來,基于統計的中文分詞方法在新聞領域已經取得了很好的性能。但隨著互聯
網、社交媒體與移動平臺的迅猛發展,當前中文分詞模型處理的數據不單局限于新聞領域,
越來越多的開放領域數據的加入,對中文分詞模型提出了新的要求。現有的研究表明在新
聞領域訓練的中文分詞模型切換到諸如論壇、微博、小說等領域時,性能往往嚴重下降。

這種訓練與測試領域不一致致使模型性能下降的問題可歸納為領域適應問題。在使
用新聞領域訓練的分詞模型處理開放領域時,新聞領域為源領域,開放領域為目標領域。
出現這種問題主要有兩點原因,一是不同領域數據文體不一致,例如小說與新聞;二是不
同領域間領域詞典不一致,如金融領域與新聞領域。《UnsupervisedDomainAdaptationfor
JointSegmentationandPOS-Tagging》在分詞詞性標注聯合模型上通過聚類的方式捕捉原
始領域與目標領域的相似性,得以解決文體差異過大問題。《Type-superviseddomain
adaptationforjointsegmentationandpos-tagging》將目標領域詞典融入模型,避免了源領域
與目標領域詞典差異過大。《DomainAdaptationforCRF-basedChineseWordSegmentation
usingFreeAnnotations》提出了一種利用自然存在分詞邊界的網絡文本方法,在基于CRF
模型的分詞系統上提高了領域適應性。

上述研究表明,使用目標領域切分數據處理領域適應問題是一種高精度的方法。同
時,在源領域切分數據的基礎上加入目標領域數據這類混合訓練數據的方法可以進一步提
高切分中文分詞準確率。然而,多方面因素限制了這一類方法的適用性。其一,大規模切
分數據往往很難公開共享,使得混合訓練數據的方法難以應用于實際場景;其二,為了從
混合的數據中學習模型,每次數據混合需要重新訓練模型,使得這種方法很難快速獲得模
型并部署。

發明內容

本發明為了解決現有的在源領域切分數據的基礎上加入目標領域數據混合訓練數據
的方法存在的每次數據混合都需要重新訓練模型和數據處理量非常大時導致的運算時間
長、對硬件要求高的問題。進而提出了一種中文分詞增量學習方法。

一種中文分詞增量學習方法,包括下述步驟:

步驟1;設中文語句集合中有N個語句;對中文語句集合中的語句xn進行人工標注
標記,語句xn人工標注標記結果為yn;將已進行人工標記的語句(xn,yn)記為訓練集,n
為語句的序號,n=(1,2,…,N);

步驟2:對中文語句集合中特征的權重向量W進行初始化,將初始化的權重向量標記為
W1=(w1,w2,…,wM);其中w1,w2,…,wM分別為中文語句集合中各個特征對應的權重;M表示中文
語句集合中所有特征的個數;

步驟3:針對中文語句集合中的N個語句,計算每個語句權重向量Wn;

步驟4:重復步驟3,進行T次迭代操作,然后計算權重向量平均值(按權重向量
W中元素求平均),

W = 1 N T Σ n = 1 , t = 1 , n = N , t = T W n , t ]]>

其中,Wn,t表示第t次迭代操作中第n個的語句對應的權重向量;

步驟5:當原來的中文語句集合中引入增量中文語句集合時,單獨提取出增量中文
語句集合,按照步驟1至步驟4的操作,求出增量中文語句集合的權重向量平均值

W a d d = 1 N a d d T a d d Σ n = 1 , t = 1 , n = N a d d , t = T a d d W a d d n , t ]]>

其中,帶有角標add的參數均表示增量中文語句集合中語句的相應參數;

步驟6:根據步驟4和步驟5,按照如下公式求得中文分詞增量權重參數

W Δ = 1 N T + N a d d T a d d ( Σ n = 1 , t = 1 , n = N , t = T W n , t + Σ n = 1 , t = 1 , n = N a d d , t = T a d d W a d d n , t ) ]]>

得到中文分詞增量權重參數即完成了中文分詞增量的學習。

本發明具有以下有益效果:

本發明針通過在已有模型的基礎上繼續訓練,可以在不需要源領域切分數據的情況
下,利用少量目標領域標注數據獲得與混合模型相近的性能,不用每次都對混合數據模型
重新訓練,在保證性能的基礎上大大節省了運算處理數據的總量,減輕了對內存和處理器
等硬件的壓力,所以本發明對內存和處理器等硬件的要求不高,而且也大幅度縮短運算處
理數據的時間,相比每次數據混合都需要重新訓練模型的方法,本發明可以節約50%以
上的處理時間,而且新增的目標領域標注數據越大效果越明顯。

同時本發明針對增量訓練提出了一種優化的實現方法,使得訓練代價顯著降低。并且
本發明的分詞器能夠在https://xxx開源。

附圖說明

圖1為本發明的流程圖。

具體實施方式

具體實施方式一:結合圖1說明本實施方式,

一種中文分詞增量學習方法,包括下述步驟:

步驟1;設中文語句集合中有N個語句;對中文語句集合中的語句xn進行人工標注
標記,語句xn人工標注標記結果為yn;將已進行人工標記的語句(xn,yn)記為訓練集,n
為語句的序號,n=(1,2,…,N);

步驟2:對中文語句集合中特征的權重向量W進行初始化,將初始化的權重向量標記為
W1=(w1,w2,…,wM);其中w1,w2,…,wM分別為中文語句集合中各個特征對應的權重;M表示中文
語句集合中所有特征的個數;

步驟3:針對中文語句集合中的N個語句,計算每個語句權重向量Wn;

步驟4:重復步驟3,進行T次迭代操作,然后計算權重向量平均值(按權重向量
W中元素求平均),

W = 1 N T Σ n = 1 , t = 1 , n = N , t = T W n , t ]]>

其中,Wn,t表示第t次迭代操作中第n個的語句對應的權重向量;

步驟5:當原來的中文語句集合中引入增量中文語句集合時,單獨提取出增量中文
語句集合,按照步驟1至步驟4的操作,求出增量中文語句集合的權重向量平均值

W a d d = 1 N a d d T a d d Σ n = 1 , t = 1 , n = N a d d , t = T a d d W a d d n , t ]]>

其中,帶有角標add的參數均表示增量中文語句集合中語句的相應參數;

步驟6:根據步驟4和步驟5,按照如下公式求得中文分詞增量權重參數

W Δ = 1 N T + N a d d T a d d ( Σ n = 1 , t = 1 , n = N , t = T W n , t + Σ n = 1 , t = 1 , n = N a d d , t = T a d d W a d d n , t ) ]]>

得到中文分詞增量權重參數即完成了中文分詞增量的學習。

將此學習結果應用于開放的領域數據的分詞過程,取得了良好的性能。

本發明針通過在已有模型的基礎上繼續訓練,可以在不需要源領域切分數據的情況
下,利用少量目標領域標注數據獲得與混合模型相近的性能,不用每次都對混合數據模型
重新訓練,在保證性能的基礎上大大節省了運算處理數據的總量,減輕了對內存和處理器
等硬件的壓力,所以本發明對內存和處理器等硬件的要求不高,而且也大幅度縮短運算處
理數據的時間,相比每次數據混合都需要重新訓練模型的方法,本發明可以節約50%以
上的處理時間,而且新增的目標領域標注數據越大效果越明顯。

同時本發明針對增量訓練提出了一種優化的實現方法,使得訓練代價顯著降低。并且
本發明的分詞器能夠在https://xxx開源。

具體實施方式二:

本實施方式步驟3所述的針對中文語句集合中的N個語句計算每個語句權重向量Wn
的具體步驟如下:

步驟3.1:按照中文分詞的方式對語句xn進行切分,切分過程有多種切分方式,每種
切分方式記作一種可能出現的標記結果y′n;

針對標記結果y′n,根據特征抽取函數Φ(xn,y′n),抽取特征向量(f1,f2,…,fM);

步驟3.2:根據如下公式,計算語句xn被切分為標記結果y′n時的分數score;

score=w1·f1+w2·f2+…+wM·fM=Wn·Φ(xn,y′n)

步驟3.3:對語句xn所有的可能出現的切分方式進行切分,并計算相應的score,選
取score最大的切分方式,將對應的標記結果記為標記結果z;

步驟3.4:將標記結果z與該語句xn的人工標注標記結果yn進行對比;

若不相同,令權重向量Wn+1=Wn+Φ(xn,yn)-Φ(xn,z);若相同,Wn+1=Wn;其中,
Φ(xn,yn)表示語句xn出現標記結果yn對應的特征抽取函數,Φ(xn,z)表示語句xn出現標
記結果z對應的特征抽取函數;

步驟3.5:針對下一個語句xn+1,重復步驟3.1-步驟3.4;

針對中文語句集合中的N個語句,重復N次步驟3.1-步驟3.4的操作;記錄每個語句
權重向量Wn,n=(1,2,…,N)。

其他步驟和參數與具體實施方式一相同。

實施例

在CTB5.0和誅仙網絡小說數據上進行實驗。源領域選取CTB5.0數據,CTB5.0數據
劃分參照《EnhancingChineseWordSegmentationUsingUnlabeledData》中的劃分方法,
劃分為CTB5.0訓練集和CTB5.0測試集。增量數據選取誅仙小說,記為ZX;誅仙小說數
據劃分參照《Type-superviseddomainadaptationforjointsegmentationandpos-tagging》劃
分方法,劃分為ZX訓練集和ZX測試集。在ZX訓練集中隨機選取500句ZX訓練數據
作為小規模訓練集,在ZX訓練集中隨機選取2400句ZX訓練數據作為大規模訓練集。

將CTB5.0訓練集中的訓練數據進行訓練,然后分別用CTB5.0測試集和ZX測試集
進行測試,測試結果如表1所示,實驗結果為F值。其中F值的定義為:

F值=2*Precision*Recall/(Precision+Recall)

Precision=正確分詞數目/系統給出的詞數目

Recall=正確分詞數目/標準答案中的詞數目

表1分詞模型實驗結果


將CTB5.0訓練集中的訓練數據進行訓練,在CTB5.0測試集進行測試,F值為96.65%;
而在ZX測試集進行測試時,F值降到86.55%。這說明單獨由CTB5.0數據訓練的模型在
誅仙數據集上存在領域適應問題。

在CTB5.0訓練集上分別加上500句ZX訓練數據(小規模訓練集)和2400句ZX訓
練數據(大規模訓練集)。然后分別進行實驗:

實驗1:將500句ZX訓練數據進行訓練;將2400句ZX訓練數據進行訓練。

實驗2:將500句ZX訓練數據結合本發明進行訓練;將2400句ZX訓練數據結合本
發明進行訓練。即:用CTB5.0訓練集訓練第一階段模型,分別用小、大規模誅仙訓練集
訓練第二階段(本發明的過程),然后得到總的訓練模型。

實驗3:將500句ZX訓練數據融合在CTB5.0訓練集上進行整體訓練;將2400句
ZX訓練數據融合在CTB5.0訓練集上進行整體訓練。

訓練結果如表2所示,

表2訓練結果


從實驗1中看出,在單獨使用小規模數據的情況下,并不能獲得性能令人滿意的模型。

通過對實驗2和比實驗1(單獨用誅仙語料訓練)的結果,實驗2的增量訓練結果分
別提升了10.56%、0.63%,提升效果在小規模數據集上更為明顯。

同時,實驗也將增量訓練(實驗2)與傳統混合訓練方式(實驗3)進行了對比。實
驗2的增量訓練相對于傳統混合訓練,在小規模訓練集上F值下降0.39%,在大規模數據
集上提升了0.24%,結果表明二者性能相近。

增量訓練(實驗2)與傳統混合訓練(實驗3)的模型大小如表3所示,模型大小就
是最終訓練獲得的模型所占空間。

表3模型大小


從表3可以看出,實驗2的增量訓練提出的優化實現方法可以顯著減少模型大小。

關 鍵 詞:
一種 中文 分詞 增量 學習方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種中文分詞增量學習方法.pdf
鏈接地址:http://www.wwszu.club/p-6386010.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大