鬼佬大哥大
  • / 40
  • 下載費用:30 金幣  

一種藥品信息的自然語言處理方法及系統.pdf

摘要
申請專利號:

CN201510496389.8

申請日:

2015.08.13

公開號:

CN105068994A

公開日:

2015.11.18

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/27申請日:20150813|||公開
IPC分類號: G06F17/27; G06F19/00(2011.01)I 主分類號: G06F17/27
申請人: 易保互聯醫療信息科技(北京)有限公司
發明人: 陳志永; 朱華玲
地址: 100027北京市朝陽區新源里16號琨莎中心2座12B層
優先權:
專利代理機構: 北京三友知識產權代理有限公司11127 代理人: 湯在彥
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510496389.8

授權公告號:

||||||

法律狀態公告日:

2018.04.17|||2015.12.16|||2015.11.18

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明的實施方式提供了一種藥品信息的自然語言處理方法及系統。該藥品信息的自然語言處理方法包括:輸入藥品信息字符串并進行預處理;切分規格字符串和包裝規格字符串;基于預先建立的詞典集,切分第一類型子字符串和/或第二類型子字符串;對第二類型子字符串以及詞條進行解析;將第二類型子字符串的解析結果與詞典集中每個詞條的解析結果進行匹配,查找第二類型子字符串相匹配的一個或多個詞條;輸出規格字符串、包裝規格字符串及其對應的詞條屬性,以及輸出第一類型子字符串、第二類型子字符串相匹配的詞條及其對應的詞條屬性。本發明實現了對藥品信息字符串的識別,提升了藥品信息的識別成功率,為有效利用和管理藥品信息提供了便利。

權利要求書

1.一種藥品信息的自然語言處理方法,包括:
步驟1,輸入藥品信息字符串;
步驟2,對所述藥品信息字符串進行預處理,得到預處理藥品信息字符串;
步驟3,基于預設的規格詞典和包裝規格詞典,從所述預處理藥品信息字符串中切分
出規格字符串和包裝規格字符串;其中,所述規格詞典包括若干表示藥品的規格單位的詞
條;所述包裝規格詞典包括若干表示藥品的包裝規格單位的詞條;所述規格字符串表示藥
品的規格信息;所述包裝規格字符串表示藥品的包裝規格信息;
步驟4,基于預設的詞典集,從所述預處理藥品信息字符串的剩余字符中切分出若干
第一類型子字符串和/或第二類型子字符串;其中,所述詞典集由多個詞典組成,所述多個
詞典包括若干表示藥品的通用名稱、商品名稱、產品名稱、給藥途徑、劑型、生產廠家、
包材的詞條;所述第一類型子字符串能夠與所述詞典集中的詞條直接匹配,所述第二類型
子字符串不能夠與所述詞典集中的詞條直接匹配;
步驟5,對所述第二類型子字符串和所述詞典集中的詞條進行解析,得到第二類型子
字符串的解析結果,以及對詞典集中每個詞條的解析結果;并通過將第二類型子字符串的
解析結果與詞典集中每個詞條的解析結果進行匹配,查找第二類型子字符串相匹配的一個
或多個詞條;
步驟6,輸出所述規格字符串、所述包裝規格字符串及其對應的詞條屬性,以及輸出
所述第一類型子字符串、所述第二類型子字符串相匹配的詞條及其對應的詞條屬性;所述
詞條屬性與所述詞條所屬的詞典一一對應,所述詞典具有預先設定的詞條屬性。
2.根據權利要求1所述的藥品信息的自然語言處理方法,其中,
所述規格詞典包括如下類型的詞條:標準裝量規格單位、標準成分規格單位、裝量規
格單位同義詞、成分規格單位同義詞;
所述標準裝量規格單位為藥品最小制劑單位的重量或裝量;
所述標準成分規格單位為藥品最小制劑單位中含有效成分的劑量或效價;
所述裝量規格單位同義詞是所述標準裝量規格單位的別名、俗稱、英文縮寫或錯
別字;
所述成分規格單位同義詞是所述標準成分規格單位的別名、俗稱、英文縮寫或錯
別字;
所述包裝規格詞典包括如下類型的詞條:標準制劑最小單位、標準包裝規格單位、制
劑最小單位同義詞、包裝規格單位同義詞;
所述標準制劑最小單位為藥品的最小制劑單位;
所述標準包裝規格單位為藥品的最小包裝單位;
所述制劑最小單位同義詞是所述標準制劑最小單位的別名、俗稱、英文縮寫或錯
別字;
所述包裝規格單位同義詞是所述標準包裝規格單位的別名、俗稱、英文縮寫或錯
別字;
所述詞典集包括通用名稱詞典、商品名稱詞典、產品名稱詞典、給藥途徑詞典、劑型
詞典、生產廠家詞典、包材詞典;
所述通用名稱詞典包括如下類型的詞條:標準通用名稱、通用名稱同義詞;
所述標準通用名稱是中國藥品通用名稱;
所述通用名稱同義詞是標準通用名稱的別名、俗稱、英文縮寫或錯別字;
所述商品名稱詞典包括如下類型的詞條:標準商品名稱、商品名稱同義詞;
所述標準商品名稱是國家食品藥品監督管理總局CFDA對藥品公布的商品名信息
以及生產廠家官方文件、藥品說明書中的商品名信息;
所述商品名稱同義詞是所述標準商品名稱的別名、俗稱、英文縮寫或錯別字;
所述產品名稱詞典包括如下類型的詞條:標準產品名稱、產品名稱同義詞;
所述標準產品名稱是CFDA公布的藥品產品名稱信息;
所述產品名稱同義詞是標準產品名稱的別名、俗稱、英文縮寫或錯別字;
所述給藥途徑詞典包括如下類型的詞條:標準給藥途徑術語、給藥途徑同義詞;
所述標準給藥途徑術語是藥品的解剖學、治療學及化學分類系統ATC中規定的給
藥途徑;
所述給藥途徑同義詞是所述標準給藥途徑術語的別名、俗稱、英文縮寫或錯別字;
所述劑型詞典包括如下類型的詞條:標準劑型術語、劑型同義詞;
所述標準劑型術語包括:根據《中國藥典》的制劑通則對CFDA公布的藥品注冊劑
型進行化處理后的藥品劑型,以及,在國家醫保目錄中但無法在CFDA查詢到相關注冊
信息的、按照國家醫保目錄劑型確定的醫保劑型;
所述劑型同義詞是與所述標準劑型術語的別名、俗稱、英文縮寫、錯別字或子類
型;
所述生產廠家詞典包括如下類型的詞條:標準生產廠家名稱、生產廠家名稱同義詞;
所述標準生產廠家名稱是CFDA公布的藥品生產企業信息、生產廠商的中文信息或
英文信息;
所述生產廠家名稱同義詞是所述標準生產廠家名稱的縮略語或英文名稱、曾用名;
所述包材詞典包括如下類型的詞條:標準包材名稱、包材名稱同義詞;
所述標準包材名稱是CFDA公布的藥品包材;
所述包材名稱同義詞是所述標準包材名稱的別名、俗稱或英文縮寫;
所述規格字符串、所述包裝規格字符串對應的詞條屬性分別為規格、包裝規格;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于通用名稱詞典時,對應
的詞條屬性為通用名稱;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于商品名稱詞典時,對應
的詞條屬性為商品名稱;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于產品名稱詞典時,對應
的詞條屬性為產品名稱;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于給藥途徑詞典時,對應
的詞條屬性為給藥途徑;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于劑型詞典時,對應的詞
條屬性為劑型;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于生產廠家詞典時,對應
的詞條屬性為生產廠家;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于包材詞典時,對應的詞
條屬性為包材。
3.根據權利要求1所述的藥品信息的自然語言處理方法,其中,所述步驟2包括:
對所述藥品信息字符串中的非漢字進行格式歸一化處理,并刪除所述藥品信息字符串
中的無關字符,得到所述預處理藥品信息字符串;
其中,所述無關字符由一預先建立的無關字符詞典提供。
4.根據權利要求1所述的藥品信息的自然語言處理方法,其中,所述步驟3包括:
判斷所述預處理藥品信息字符串中是否存在數字;
如果所述預處理藥品信息字符串中存在數字,將該數字之后緊鄰的字符串與所述規格
詞典和所述包裝規格詞典中的詞條進行匹配;
若匹配成功的詞條是來自于所述規格詞典,則將該數字及其之后緊鄰的能夠與所
述規格詞典中的詞條相匹配的字符串切分出來作為所述規格字符串;
若匹配成功的詞條是來自于所述包裝規格詞典,則將該數字及其之后緊鄰的能夠
與所述包裝規格詞典中的詞條相匹配的字符串切分出來作為所述包裝規格字符串;
如果所述預處理藥品信息字符串中不存在數字,則直接執行所述步驟4。
5.根據權利要求1所述的藥品信息的自然語言處理方法,其中,所述步驟4包括:
判斷所述預處理藥品信息字符串的剩余字符中是否包含符號;
如果所述預處理藥品信息字符串的剩余字符中包含符號,則將所述預處理藥品信息字
符串的剩余字符中每相鄰兩個符號之間的字符作為整體與所述詞典集中的詞條進行匹配;
若所述預處理藥品信息字符串的剩余字符中相鄰兩個符號之間的字符作為整體與
所述詞典集中的詞條匹配成功,則將該相鄰兩個符號之間的字符切分出來作為第一類
型子字符串;
若所述預處理藥品信息字符串的剩余字符中相鄰兩個符號之間的字符作為整體與
所述詞典集中的詞條匹配失敗,將該相鄰兩個符號及其之間的字符確定為暫不切分字
符串;
如果所述預處理藥品信息字符串的剩余字符中未包含符號,則采用機械分詞法將所述
預處理藥品信息字符串的剩余字符與所述詞典集中的詞條進行匹配;
若所述預處理藥品信息字符串中剩余的所有字符均能夠與詞條匹配,則依據所匹
配的詞條將所述預處理藥品信息字符串的剩余字符切分出來作為第一類型子字符串;
若所述預處理藥品信息字符串的剩余字符中存在未能與詞條匹配的單個字符或多
個連續的字符,則將所述預處理藥品信息字符串的剩余字符整體切分出來作為第二類
型子字符串;
判斷所述暫不切分字符串中是否包含預設的特殊符號;
如果所述暫不切分字符串中包含預設的特殊符號,則查找所述暫不切分字符串所屬的
字符模型,并根據該所屬的字符模型對應的切分規則對所述暫不切分字符串進行切分,并
將切分出來的字符與所述詞典集中的詞條進行匹配;
若對所述暫不切分字符串切分出來的字符與所述詞典集中的詞條匹配成功,則將
該切分出來的字符確定為第一類型子字符串;
若對所述暫不切分字符串切分出來的字符與所述詞典集中的詞條匹配失敗,則將
該切分出來的字符確定為第二類型子字符串;
如果所述暫不切分字符串中未包含預設的特殊符號,則將所述暫不切分字符串直接確
定為第二類型子字符串。
6.根據權利要求5所述的藥品信息的自然語言處理方法,其中,所述機械分詞法為正
向最大匹配型,或逆向最大匹配型,或最少切分型。
7.根據權利要求1所述的藥品信息的自然語言處理方法,其中,所述步驟5包括:
對所述第二類型子字符串和所述詞典集中的每個詞條進行預設維度的解析,得到所述
第二類型子字符串的各個維度的解析結果,以及所述詞典集中每個詞條的各個維度的解析
結果;
按照如下公式計算所述第二類型子字符串與每個詞條的相似度:
M = Σ t i n q ( t f t i n q · i d f ( t ) 2 · t . g e t B o o s t ( ) · n o r m ( t , d ) ) ]]>
其中,M表示相似度;
t表示第二類型子字符串的各個維度的解析結果;
q表示第二類型子字符串;
tinq表示第二類型子字符串的各個維度;
d表示詞條;
tf(tind)表示在相同的維度上,第二類型子字符串的解析結果與詞條的解析結果相
匹配的頻次;
其中,T表示詞典集中詞條的總數,T(t)表示各個維度的解析結果
均與第二類型子字符串的各個維度的解析結果相匹配的詞條的總數;
t.getBoost()表示各個維度的預設權值;
norm(t,d)表示詞條的長度歸一化因子;
根據所述第二類型子字符串與各個詞條的相似度,確定一個或多個詞條作為所述第二
類型子字符串相匹配的詞條。
8.根據權利要求7所述的藥品信息的自然語言處理方法,其中,所述第二類型子字符
串\所述詞條的各個維度的解析結果包括:
所述第二類型子字符串\所述詞條的每個漢字;
所述第二類型子字符串\所述詞條的每個漢字的聲母;
所述第二類型子字符串\所述詞條的每個漢字的韻母;
所述第二類型子字符串\所述詞條的首字符;
所述第二類型子字符串\所述詞條的首字符的拼音;以及,
所述第二類型子字符串\所述詞條中的非漢字字符。
9.根據權利要求7所述的藥品信息的自然語言處理方法,其中,所述根據所述第二類
型子字符串與各個詞條的相似度,確定一個或多個詞條作為所述第二類型子字符串相匹配
的詞條的步驟,包括:
按照與所述第二類型子字符串的相似度的大小對全部詞條排序,并將其中排序靠前的
預設數量的詞條確定為第二類型子字符串相匹配的詞條;
或者,
將與所述第二類型子字符串的相似度達到預設閾值的一個或多個詞條,確定為所述第
二類型子字符串相匹配的詞條。
10.根據權利要求7所述的藥品信息的自然語言處理方法,其中,所述步驟5還包括:
輸出所述第二類型子字符串與其相匹配的各個詞條的相似度。
11.根據權利要求7所述的藥品信息的自然語言處理方法,其中,所述步驟5還包括:
輸出所述第二類型子字符串與其相匹配的各個詞條的總置信度;其中,所述總置信度
的計算過程如下:
確定所述第二類型子字符串中的每個漢字;
按照如下公式計算所述第二類型子字符串與其相匹配的各個詞條的余弦置信度:
N = Σ j = 1 V w Q , j × w d , j Σ j = 1 V w Q , j 2 × Σ j = 1 V w d , j 2 ]]>
其中,N表示余弦置信度;
V表示第二類型子字符串及其相匹配的詞條所包含的漢字總數;
Q表示第二類型子字符串;
d'表示與第二類型子字符串相匹配的詞條;
wQ,j表示每個漢字在第二類型子字符串中出現的頻次;
wd',j表示每個漢字在第二類型子字符串相匹配的詞條中出現的頻次;
j表示第二類型子字符串及其相匹配的詞條所包含的漢字的序號;
按照如下公式計算所述第二類型子字符串與其相匹配的各個詞條的總置信度:
S=M×a+N×b
其中,S表示總置信度;
a表示相似度M對應的預設權值;
b表示余弦置信度N對應的預設權值,且b=1-a。
12.根據權利要求2所述的藥品信息的自然語言處理方法,其中,所述步驟6包括:
判斷所述第一類型子字符串、所述第二類型子字符串相匹配的詞條是標準型詞條還是
同義詞型詞條;
如果所述第一類型子字符串、所述第二類型子字符串相匹配的詞條是標準型詞條,則
直接輸出該標準型詞條;
如果所述第一類型子字符串、所述第二類型子字符串相匹配的詞條是同義詞型詞條,
則輸出與該同義詞型詞條具有同義關系的標準型詞條;
其中,所述標準型詞條是如下類型的詞條:標準通用名稱、標準商品名稱、標準產品
名稱、標準給藥途徑術語、標準劑型術語、標準生產廠家名稱、標準包材名稱;
所述同義詞型詞條是如下類型的詞條:通用名稱同義詞、商品名稱同義詞、產品名稱
同義詞、給藥途徑同義詞、劑型同義詞、生產廠家名稱同義詞、包材名稱同義詞。
13.根據權利要求1所述的藥品信息的自然語言處理方法,其中,所述步驟6還包括:
輸出所述第一類型子字符串和/或所述第二類型子字符串。
14.一種藥品信息的自然語言處理系統,包括:
詞典數據庫,提供預設的規格詞典、包裝規格詞典和詞典集;
輸入模塊,用于輸入藥品信息字符串;
預處理模塊,用于對所述藥品信息字符串進行預處理,得到預處理藥品信息字符串;
第一切分模塊,用于基于所述規格詞典和包裝規格詞典,從所述預處理藥品信息字符
串中切分出規格字符串和包裝規格字符串;其中,所述規格詞典包括若干表示藥品的規格
單位的詞條;所述包裝規格詞典包括若干表示藥品的包裝規格單位的詞條;所述規格字符
串表示藥品的規格信息;所述包裝規格字符串表示藥品的包裝規格信息;
第二切分模塊,用于基于所述詞典集,從所述預處理藥品信息字符串的剩余字符中切
分出若干第一類型子字符串和/或第二類型子字符串;其中,所述詞典集由多個詞典組成,
所述多個詞典包括若干表示藥品的通用名稱、商品名稱、產品名稱、給藥途徑、劑型、生
產廠家、包材的詞條;所述第一類型子字符串能夠與所述詞典集中的詞條直接匹配,所述
第二類型子字符串不能夠與所述詞典集中的詞條直接匹配;
匹配模塊,用于對所述第二類型子字符串和所述詞典集中的詞條進行解析,得到第二
類型子字符串的解析結果,以及對詞典集中每個詞條的解析結果;并通過將第二類型子字
符串的解析結果與詞典集中每個詞條的解析結果進行匹配,查找第二類型子字符串相匹配
的一個或多個詞條;
輸出模塊,用于輸出所述規格字符串、所述包裝規格字符串及其對應的詞條屬性,以
及輸出所述第一類型子字符串、所述第二類型子字符串相匹配的詞條及其對應的詞條屬
性;其中,所述詞條屬性與所述詞條所屬的詞典一一對應,所述詞典具有預先設定的詞條
屬性。
15.根據權利要求14所述的藥品信息的自然語言處理系統,其中,
所述規格詞典包括如下類型的詞條:標準裝量規格單位、標準成分規格單位、裝量規
格單位同義詞、成分規格單位同義詞;
所述標準裝量規格單位為藥品最小制劑單位的重量或裝量;
所述標準成分規格單位為藥品最小制劑單位中含有效成分的劑量或效價;
所述裝量規格單位同義詞是所述標準裝量規格單位的別名、俗稱、英文縮寫或錯
別字;
所述成分規格單位同義詞是所述標準成分規格單位的別名、俗稱、英文縮寫或錯
別字;
所述包裝規格詞典包括如下類型的詞條:標準制劑最小單位、標準包裝規格單位、制
劑最小單位同義詞、包裝規格單位同義詞;
所述標準制劑最小單位為藥品的最小制劑單位;
所述標準包裝規格單位為藥品的最小包裝單位;
所述制劑最小單位同義詞是所述標準制劑最小單位的別名、俗稱、英文縮寫或錯
別字;
所述包裝規格單位同義詞是所述標準包裝規格單位的別名、俗稱、英文縮寫或錯
別字;
所述詞典集包括通用名稱詞典、商品名稱詞典、產品名稱詞典、給藥途徑詞典、劑型
詞典、生產廠家詞典、包材詞典;
所述通用名稱詞典包括如下類型的詞條:標準通用名稱、通用名稱同義詞;
所述標準通用名稱是中國藥品通用名稱;
所述通用名稱同義詞是標準通用名稱的別名、俗稱、英文縮寫或錯別字;
所述商品名稱詞典包括如下類型的詞條:標準商品名稱、商品名稱同義詞;
所述標準商品名稱是國家食品藥品監督管理總局CFDA對藥品公布的商品名信息
以及生產廠家官方文件、藥品說明書中的商品名信息;
所述商品名稱同義詞是所述標準商品名稱的別名、俗稱、英文縮寫或錯別字;
所述產品名稱詞典包括如下類型的詞條:標準產品名稱、產品名稱同義詞;
所述標準產品名稱是CFDA公布的藥品產品名稱信息;
所述產品名稱同義詞是標準產品名稱的別名、俗稱、英文縮寫或錯別字;
所述給藥途徑詞典包括如下類型的詞條:標準給藥途徑術語、給藥途徑同義詞;
所述標準給藥途徑術語是藥品的解剖學、治療學及化學分類系統ATC中規定的給
藥途徑;
所述給藥途徑同義詞是所述標準給藥途徑術語的別名、俗稱、英文縮寫或錯別字;
所述劑型詞典包括如下類型的詞條:標準劑型術語、劑型同義詞;
所述標準劑型術語包括:根據《中國藥典》的制劑通則對CFDA公布的藥品注冊劑
型進行化處理后的藥品劑型,以及,在國家醫保目錄中但無法在CFDA查詢到相關注冊
信息的、按照國家醫保目錄劑型確定的醫保劑型;
所述劑型同義詞是與所述標準劑型術語的別名、俗稱、英文縮寫、錯別字或子類
型;
所述生產廠家詞典包括如下類型的詞條:標準生產廠家名稱、生產廠家名稱同義詞;
所述標準生產廠家名稱是CFDA公布的藥品生產企業信息、生產廠商的中文信息或
英文信息;
所述生產廠家名稱同義詞是所述標準生產廠家名稱的縮略語或英文名稱、曾用名;
所述包材詞典包括如下類型的詞條:標準包材名稱、包材名稱同義詞;
所述標準包材名稱是CFDA公布的藥品包材;
所述包材名稱同義詞是所述標準包材名稱的別名、俗稱或英文縮寫;
所述規格字符串、所述包裝規格字符串對應的詞條屬性分別為規格、包裝規格;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于通用名稱詞典時,對應
的詞條屬性為通用名稱;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于商品名稱詞典時,對應
的詞條屬性為商品名稱;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于產品名稱詞典時,對應
的詞條屬性為產品名稱;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于給藥途徑詞典時,對應
的詞條屬性為給藥途徑;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于劑型詞典時,對應的詞
條屬性為劑型;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于生產廠家詞典時,對應
的詞條屬性為生產廠家;
所述第一類型子字符串、第二類型子字符串相匹配的詞條屬于包材詞典時,對應的詞
條屬性為包材。

說明書

一種藥品信息的自然語言處理方法及系統

技術領域

本發明的實施方式涉及醫療信息化領域,更具體地,本發明的實施方式涉及一種藥品
信息的自然語言處理方法及系統。

背景技術

本部分旨在為權利要求書中陳述的本發明的實施方式提供背景或上下文。此處的描述
不因為包括在本部分中就承認是現有技術。

隨著信息技術的快速發展,我國醫藥行業正加速醫療信息化建設。醫療信息化建設有
助于提升醫療處理效率,給患者提供很好的體驗,為提高醫療服務質量提供很大幫助。

藥品信息管理是醫療信息化建設的重要組成部分,規范、準確的藥品信息是管理藥品
信息的基礎保障。

發明內容

實際臨床作業中每天會產生大量的病案信息,這些病案信息中有很多醫療從業人員為
治療患者的疾病而輸入的藥品信息,研究和利用藥品信息對于醫療信息化發展具有非常重
要的意義。由于每天都會有海量的藥品信息輸入,僅靠人工力量識別這些藥品信息然后再
進行研究和利用幾乎是不可能的,必須借助計算機對其識別和利用。

但是由于醫療從業人員輸入的藥品信息屬于自然語言,格式復雜多樣,沒有統一的標
準,例如,采用多種語言混合表達、使用不規范語法、錄入有誤信息、采用縮略語或俗稱
代替標準術語、文字中夾雜無關符號等雜亂信息等等,就使得計算機識別藥品信息具有相
當大的難度。

為了提高計算機對藥品信息的識別成功率,非常需要一種藥品信息的自然語言處理方
法,以便識別和利用輸入至醫療信息化平臺中的藥品信息。

在本發明實施方式的第一方面中,提供了一種藥品信息的自然語言處理方法,包括:

步驟1,輸入藥品信息字符串;

步驟2,對所述藥品信息字符串進行預處理,得到預處理藥品信息字符串;

步驟3,基于預設的規格詞典和包裝規格詞典,從所述預處理藥品信息字符串中切分
出規格字符串和包裝規格字符串;其中,所述規格詞典包括若干表示藥品的規格單位的詞
條;所述包裝規格詞典包括若干表示藥品的包裝規格單位的詞條;所述規格字符串表示藥
品的規格信息;所述包裝規格字符串表示藥品的包裝規格信息;

步驟4,基于預設的詞典集,從所述預處理藥品信息字符串的剩余字符中切分出若干
第一類型子字符串和/或第二類型子字符串;其中,所述詞典集包括若干表示藥品的通用
名稱、商品名稱、產品名稱、給藥途徑、劑型、生產廠家、包材的詞條;所述第一類型子
字符串能夠與所述詞典集中的詞條直接匹配,所述第二類型子字符串不能夠與所述詞典集
中的詞條直接匹配;

步驟5,對所述第二類型子字符串和所述詞典集中的詞條進行解析,得到第二類型子
字符串的解析結果,以及對詞典集中每個詞條的解析結果;并通過將第二類型子字符串的
解析結果與詞典集中每個詞條的解析結果進行匹配,查找第二類型子字符串相匹配的一個
或多個詞條;

步驟6,輸出所述規格字符串、所述包裝規格字符串及其對應的詞條屬性,以及輸出
所述第一類型子字符串、所述第二類型子字符串相匹配的詞條及其對應的詞條屬性;所述
詞條屬性與所述詞條所屬的詞典一一對應,所述詞典具有預先設定的詞條屬性。

相應的,本發明提供一種藥品信息的自然語言處理系統,包括:

詞典數據庫,提供預設的規格詞典、包裝規格詞典和詞典集;

輸入模塊,用于輸入藥品信息字符串;

預處理模塊,用于對所述藥品信息字符串進行預處理,得到預處理藥品信息字符串;

第一切分模塊,用于基于所述規格詞典和包裝規格詞典,從所述預處理藥品信息字符
串中切分出規格字符串和包裝規格字符串;其中,所述規格詞典包括若干表示藥品的規格
單位的詞條;所述包裝規格詞典包括若干表示藥品的包裝規格單位的詞條;所述規格字符
串表示藥品的規格信息;所述包裝規格字符串表示藥品的包裝規格信息;

第二切分模塊,用于基于所述詞典集,從所述預處理藥品信息字符串的剩余字符中切
分出若干第一類型子字符串和/或第二類型子字符串;其中,所述詞典集包括若干表示藥品
的通用名稱、商品名稱、產品名稱、給藥途徑、劑型、生產廠家、包材的詞條;所述第一
類型子字符串能夠與所述詞典集中的詞條直接匹配,所述第二類型子字符串不能夠與所述
詞典集中的詞條直接匹配;

匹配模塊,用于對所述第二類型子字符串和所述詞典集中的詞條進行解析,得到第二
類型子字符串的解析結果,以及對詞典集中每個詞條的解析結果;并通過將第二類型子字
符串的解析結果與詞典集中每個詞條的解析結果進行匹配,查找第二類型子字符串相匹配
的一個或多個詞條;

輸出模塊,用于輸出所述規格字符串、所述包裝規格字符串及其對應的詞條屬性,以
及輸出所述第一類型子字符串、所述第二類型子字符串相匹配的詞條及其對應的詞條屬
性;所述詞條屬性與所述詞條所屬的詞典一一對應,所述詞典具有預先設定的詞條屬性。

借助于上述技術方案,本發明充分考慮了醫療從業人員輸入的藥品信息屬于自然語
言、格式復雜多樣、沒有統一標準等特點,利用預先建立的多種詞典對藥品信息字符串進
行切分和匹配,將藥品信息分類識別出來,并以醫療領域的標準形式分類輸出精確匹配的
詞條,對于沒有精確匹配的詞條的字符,采用模糊匹配的方式對其進行識別,并以模糊匹
配出的詞條作為識別結果,最后將識別結果以醫療領域的標準形式分類輸出模糊匹配的詞
條。通過上述技術手段,本發明可實現對帶符號、數字和漢字的藥品信息字符串的識別,
并克服了現有技術無法順利實現對藥品信息進行自然與演化處理的問題,提升了藥品信息
的識別成功率,為有效利用藥品信息提供了便利。

附圖說明

通過參考附圖閱讀下文的詳細描述,本發明示例性實施方式的上述以及其他目的、特
征和優點將變得易于理解。在附圖中,以示例性而非限制性的方式示出了本發明的若干實
施方式,其中:

圖1示意性地示出了本發明實施方式的適用場景;

圖2示意性地示出了本發明示例性方法的流程;

圖3示意性地示出了本發明示例性方法中切分第一類型子字符串、第二類型子字符串
的過程;

圖4示意性地示出了本發明示例性方法中對第二類型子字符串進行模糊匹配的過程;

圖5示意性地示出了本發明示例性系統的結構框圖。

在附圖中,相同或對應的標號表示相同或對應的部分。

具體實施方式

下面將參考若干示例性實施方式來描述本發明的原理和精神。應當理解,給出這些實
施方式僅僅是為了使本領域技術人員能夠更好地理解進而實現本發明,而并非以任何方式
限制本發明的范圍。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠
將本公開的范圍完整地傳達給本領域的技術人員。

本領域技術技術人員知道,本發明的實施方式可以實現為一種系統、裝置、設備、方
法或計算機程序產品。因此,本公開可以具體實現為以下形式,即:完全的硬件、完全的
軟件(包括固件、駐留軟件、微代碼等),或者硬件和軟件結合的形式。

根據本發明的實施方式,提出了一種藥品信息的自然語言處理方法及系統。

此外,附圖中的任何元素數量均用于示例而非限制,以及任何命名都僅用于區分,而
不具有任何限制含義。

下面參考本發明的若干代表性實施方式,詳細闡釋本發明的原理和精神。

發明概述

本發明人發現,醫療從業人員在醫療信息化平臺中輸入的藥品信息格式復雜多樣,沒
有統一的標準,經常會出現采用多種語言混合表達、使用不規范語法、錄入有誤信息、采
用縮略語或俗稱代替標準術語、文字中夾雜符號等雜亂信息等等情況,導致計算機不能順
暢地實現對藥品信息進行自然語言化處理。

本發明充分考慮了藥品信息的以上特點,利用預先建立的多種詞典對藥品信息字符串
進行切分和匹配,將藥品信息分類識別出來,并以醫療領域的標準形式分類輸出精確匹配
的詞條,對于沒有精確匹配的詞條的字符,采用模糊匹配的方式對其進行識別,并以模糊
匹配出的詞條作為識別結果,最后將識別結果以醫療領域的標準形式分類輸出模糊匹配的
詞條。通過上述技術手段,本發明可實現對帶符號、數字和漢字的藥品信息字符串的識別,
并克服了現有技術無法順利實現對藥品信息進行自然與演化處理的問題,提升了藥品信息
的識別成功率,為有效利用藥品信息提供了便利。

應用場景總覽

首先參考圖1,其示出了本發明的實施方式可以在其中實施的應用場景。

圖1中所示的場景包括醫療信息化平臺100和藥品信息的自然語言處理系統200。醫療
信息化平臺100可以是裝載于醫生所用的臺式電腦、筆記本電腦、平板電腦、個人數字助
理等設備中的軟件。藥品信息的自然語言處理系統200可以是運行于醫院信息服務器中的
軟件等。醫療信息化平臺100和藥品信息的自然語言處理系統200之間例如可以通過醫院局
域網等進行通信連接。

醫療從業人員(例如醫生)在醫療信息化平臺100中輸入藥品信息之后,藥品信息被
傳輸至藥品信息的自然語言處理系統200,由藥品信息的自然語言處理系統200對其進行識
別,最后輸出識別結果。

示例性方法

本示例性方法介紹本發明的一種示例性的藥品信息的自然語言處理方法。該示例性方
法用于對醫療從業人員輸入的藥品信息進行自然語言處理,識別并輸出多個不同信息類型
的詞條。

在介紹該示例性方法之前,通過表1至表18介紹該示例性實施方式需要調用的各種詞
典。

(1)規格詞典

規格詞典包括若干表示藥品的規格單位的詞條,本發明中,規格詞典是用于從藥品信
息字符串中切分出規格字符串,規格字符串表示藥品的規格信息。

以下為一種示例性的規格詞典:

規格詞典包括標準規格表和規格同義詞表。

標準規格表包括若干標準裝量規格單位和標準成分規格單位。

標準裝量規格單位,表示藥品最小制劑單位的重量或裝量,如一片藥有多重,一瓶注
射液裝了多少毫升藥。

標準成分規格單位,表示藥品最小制劑單位中含有效成分的劑量或效價。

標準裝量規格單位和標準成分規格單位均來自于國家食品藥品監督管理總局(China
FoodandDrugAdministration,CFDA)對各種藥品公布的【規格】信息。

表1表示了標準規格表包括的部分標準裝量規格單位和標準成分規格單位。

表1

標準裝量規格單位
標準成分規格單位


毫克
毫克
毫升
微克

規格同義詞表包括若干裝量規格單位同義詞和成分規格單位同義詞。

裝量規格單位同義詞是標準裝量規格單位的別名、俗稱、英文縮寫、錯別字等。

成分規格單位同義詞是標準成分規格單位的別名、俗稱、英文縮寫、錯別字等。

規格同義詞表記錄了裝量規格單位同義詞與標準裝量規格單位之間的對應關系,以及
成分規格單位同義詞與標準成分規格單位之間的對應關系。

表2表示了規格同義詞表包括的部分裝量規格單位同義詞、成分規格單位同義詞,以
及對應的標準裝量規格單位和標準成分規格單位。

表2


需要說明的是,在實施本發明時,可以根據實際情況采用包含其他類型詞條的規格詞
典,以達到切分出規格字符串的目的,本發明對規格詞典所包含的詞條的類型或來源不作
具體限定,即以上說明僅為本發明的具體實施例而已,并不用于限定本發明的保護范圍,
凡在本發明的精神和原則之內,采用包含其它類型或來源的詞條的規格詞典均應包含在本
發明的保護范圍之內。

(2)包裝規格詞典

包裝規格詞典包括若干表示藥品的包裝規格單位的詞條,本發明中,包裝規格詞典是
用于從藥品信息字符串中切分出包裝規格字符串,包裝規格字符串表示藥品的包裝規格信
息。

以下為一種示例性的包裝規格詞典:

包裝規格詞典包括標準包裝規格表和包裝規格同義詞表。

標準包裝規格表包括若干標準制劑最小單位和標準包裝規格單位。

標準制劑最小單位表示藥品的最小制劑單位,如片、粒。

標準包裝規格單位表示藥品的最小包裝單位,如盒、瓶。

標準包裝規格單位均來自于國家食品藥品監督管理總局(ChinaFoodandDrug
Administration,CFDA)對各種藥品公布的【包裝規格】信息以及藥品生產廠家官網、藥
品說明中包裝規格的信息。

表3表示了標準包裝規格表包括的部分標準制劑最小單位和標準包裝規格單位。

表3

標準制劑最小單位
標準包裝規格單位






包裝規格同義詞表包括若干制劑最小單位同義詞和包裝規格單位同義詞。

制劑最小單位同義詞是標準制劑最小單位的別名、俗稱、英文縮寫或錯別字等。

包裝規格單位同義詞是標準包裝規格單位的別名、俗稱、英文縮寫或錯別字等。

包裝規格同義詞表準確記錄了制劑最小單位同義詞與標準制劑最小單位之間的對應
關系,以及包裝規格單位同義詞與標準包裝規格單位之間的對應關系。

表4表示了包裝規格同義詞表包括的部分制劑最小單位同義詞和包裝規格單位同義
詞,以及對應的標準制劑最小單位和標準包裝規格單位。

表4


本發明中,規格詞典是用于切分包裝規格字符串。需要說明的是,在實施本發明時,
可以根據實際情況采用包含其他類型詞條的包裝規格詞典,以達到切分出包裝規格字符串
的目的,本發明對包裝規格詞典所包含的詞條的類型或來源不作具體限定,即以上說明僅
為本發明的具體實施例而已,并不用于限定本發明的保護范圍,凡在本發明的精神和原則
之內,采用包含其它類型或來源的詞條的包裝規格詞典均應包含在本發明的保護范圍之
內。

(3)通用名稱詞典

通用名稱詞典包括若干表示藥品的通用名稱的詞條,本發明中,本發明中,通用名稱
詞典是用于切分詞條屬性為“通用名稱”的詞條。

以下為一種示例性的通用名稱詞典:

通用名稱詞典包括標準通用名稱表、通用名稱同義詞表。

標準通用名稱表包括若干標準通用名稱,這些標準通用名稱是以國際非專利藥品名稱
為依據、結合具體情況制定的中國藥品通用名稱(CADN,ChinaApprovedDrugNames)。

表5所示為標準通用名稱表包括的部分標準通用名稱。

表5

標準通用名稱
山莨菪堿
三磷酸腺苷
玻璃酸鈉
甲溴貝那替秦

通用名稱同義詞表包括若干通用名稱同義詞,這些通用名稱同義詞是標準通用名稱的
別名、俗稱、英文縮寫或錯別字等。

通用名稱同義詞表準確記錄了每個通用名稱同義詞與標準通用名稱之間的對應關系。

表6所示為通用名稱同義詞表包括的部分通用名稱同義詞、標準通用名稱、以及二者
之間的同義關系。

表6


需要說明的是,在實施本發明時,可以根據實際情況采用包含其他類型詞條的通用名
稱詞典,以達到切分出詞條屬性為“通用名稱”的詞條的目的,本發明對通用名稱詞典所
包含的詞條的類型或來源不作具體限定,即以上說明僅為本發明的具體實施例而已,并不
用于限定本發明的保護范圍,凡在本發明的精神和原則之內,采用包含其它類型或來源的
詞條的通用名稱詞典均應包含在本發明的保護范圍之內。

(4)商品名稱詞典

商品名稱詞典包括若干表示藥品的商品名稱的詞條,本發明中,本發明中,商品名稱
詞典是用于切分詞條屬性為“商品名稱”的詞條。

以下為一種示例性的商品名稱詞典:

商品名稱詞典包括標準商品名稱表、商品名稱同義詞表。

標準商品名稱表包括若干標準商品名稱,這些標準商品名稱來自于CFDA對藥品公布
的【商品名】信息以及生產廠家官方文件、藥品說明書中商品名信息。

標準商品名稱詞典中準確記錄了每個標準商品名稱與標準通用名稱之間的對應關系。

表7所示為標準商品名稱表包括的部分標準商品名稱、標準通用名稱、以及二者之間
的對應關系。

表7

標準商品名稱
標準通用名稱
左克
鹽酸左氧氟沙星
運德素
重組人干擾素α1b
憶辛
辛伐他汀

商品名稱同義詞表包括若干商品名稱同義詞,這些商品名稱同義詞是標準商品名稱的
別名、俗稱、英文縮寫或錯別字等。

商品名稱同義詞準確記錄了每個商品名稱同義詞與標準商品名稱以及標準通用名稱
之間的對應關系。

表8所示為商品名稱同義詞表包括的部分商品名稱同義詞、標準商品名稱、標準通用
名稱、以及三者之間的對應關系。

表8


需要說明的是,在實施本發明時,可以根據實際情況采用包含其他類型詞條的商品名
稱詞典,以達到切分出詞條屬性為“商品名稱”的詞條的目的,本發明對商品名稱詞典所
包含的詞條的類型或來源不作具體限定,即以上說明僅為本發明的具體實施例而已,并不
用于限定本發明的保護范圍,凡在本發明的精神和原則之內,采用包含其它類型或來源的
詞條的商品名稱詞典均應包含在本發明的保護范圍之內。

(5)產品名稱詞典

產品名稱詞典包括若干表示藥品的產品名稱的詞條,本發明中,本發明中,產品名稱
詞典是用于切分詞條屬性為“產品名稱”的詞條。

以下為一種示例性的產品名稱詞典:

產品名稱詞典包括標準產品名稱表、產品名稱同義詞表。

標準產品名稱表包括若干標準產品名稱,這些標準產品名稱來自于CFDA對各種藥品
公布的【產品名稱】信息。

標準產品名稱詞典中準確記錄了每個標準產品名稱與標準通用名稱之間的對應關系。

表9所示為標準產品名稱表包括的部分標準產品名稱、標準通用名稱、以及二者之間
的對應關系。

表9

標準產品名稱
標準通用名稱
阿苯達唑片
阿苯達唑
阿苯達唑咀嚼片
阿苯達唑
阿莫西林膠囊
阿莫西林
阿莫西林顆粒
阿莫西林
布洛芬混懸液
布洛芬
布洛芬緩釋混懸液
布洛芬
布洛芬片
布洛芬

產品名稱同義詞表包括若干產品名稱同義詞,這些產品名稱同義詞是標準產品名稱的
別名、俗稱、英文縮寫或錯別字等。

產品名稱同義詞準確記錄了每個產品名稱同義詞與標準產品名稱以及標準通用名稱
之間的對應關系。

表10所示為產品名稱同義詞表包括的部分產品名稱同義詞、標準產品名稱、標準通用
名稱、以及三者之間的對應關系。

表10



需要說明的是,在實施本發明時,可以根據實際情況采用包含其他類型詞條的產品名
稱詞典,以達到切分出詞條屬性為“產品名稱”的詞條的目的,本發明對產品名稱詞典所
包含的詞條的類型或來源不作具體限定,即以上說明僅為本發明的具體實施例而已,并不
用于限定本發明的保護范圍,凡在本發明的精神和原則之內,采用包含其它類型或來源的
詞條的產品名稱詞典均應包含在本發明的保護范圍之內。

(6)給藥途徑詞典

給藥途徑詞典包括若干表示藥品的給藥途徑的詞條,本發明中,本發明中,給藥途徑
詞典是用于切分詞條屬性為“給藥途徑”的詞條。

以下為一種示例性的給藥途徑詞典:

給藥途徑詞典包括標準給藥途徑術語表、給藥途徑同義詞表。

標準給藥途徑術語表包括了若干標準給藥途徑術語,這些標準給藥途徑術語是基于解
剖學治療學及化學分類系統(AnatomicalTherapeuticChemical,ATC),結合實際藥品應用
而建立。

表11所示為標準給藥途徑術語表包括的部分標準給藥途徑術語。

表11

標準給藥途徑術語
口服
含服
粘膜給藥
舌下
注射給藥
肌肉注射
皮下注射
局部浸潤
局部給藥
尿道給藥

吸入給藥
牙用
眼用

給藥途徑同義詞表包括若干給藥途徑同義詞,這些給藥途徑同義詞是標準給藥途徑術
語的別名、俗稱、英文縮寫或錯別字等。

給藥途徑同義詞表準確記錄了給藥途徑同義詞與標準給藥途徑術語之間的對應關系。

表12所示為給藥途徑同義詞表包括的部分給藥途徑同義詞、標準藥途徑、以及二者之
間的同義關系。

表12


需要說明的是,在實施本發明時,可以根據實際情況采用包含其他類型詞條的給藥途
徑詞典,以達到切分出詞條屬性為“給藥途徑”的詞條的目的,本發明對給藥途徑詞典所
包含的詞條的類型或來源不作具體限定,即以上說明僅為本發明的具體實施例而已,并不
用于限定本發明的保護范圍,凡在本發明的精神和原則之內,采用包含其它類型或來源的
詞條的給藥途徑詞典均應包含在本發明的保護范圍之內。

(7)劑型詞典

劑型詞典包括若干表示藥品的劑型的詞條,本發明中,本發明中,劑型詞典是用于切
分詞條屬性為“劑型”的詞條。

以下為一種示例性的劑型詞典:

劑型詞典包括標準劑型術語表、劑型同義詞表。

標準劑型術語表包括了若干標準劑型術語。

標準劑型術語包括:①以CFDA的藥品注冊劑型為基礎,根據《中國藥典》2010版“制
劑通則”的規則及定義,對藥品注冊劑型進行標準化處理后的藥品劑型;②在國家醫保目
錄中,無法在CFDA查詢到相關注冊信息的醫保劑型,按照國家醫保目錄劑型確定其醫保
劑型。

表13表示了標準劑型術語表包括的部分標準劑型術語。

表13

標準劑型術語
片劑
散劑
顆粒劑
噴霧劑
軟膏劑
栓劑
口服常釋劑型
含漱劑

劑型同義詞表包括了若干劑型同義詞。

劑型同義詞是標準劑型術語的別名、俗稱、英文縮寫、錯別字或子類型。

劑型同義詞表準確記錄了劑型同義詞與標準劑型術語之間的對應關系。

表14表示了劑型同義詞表包括的部分劑型同義詞、標準劑型術語以及二者的對應關
系。

表14



需要說明的是,在實施本發明時,可以根據實際情況采用包含其他類型詞條的劑型詞
典,以達到切分出詞條屬性為“劑型”的詞條的目的,本發明對劑型詞典所包含的詞條的
類型或來源不作具體限定,即以上說明僅為本發明的具體實施例而已,并不用于限定本發
明的保護范圍,凡在本發明的精神和原則之內,采用包含其它類型或來源的詞條的劑型詞
典均應包含在本發明的保護范圍之內。

(8)生產廠家詞典

生產廠家詞典包括若干表示藥品的生產廠家的詞條,本發明中,本發明中,生產廠家
詞典是用于切分詞條屬性為“生產廠家”的詞條。

以下為一種示例性的生產廠家詞典:

生產廠家詞典包括標準生產廠家表、生產廠家同義詞表。

標準生產廠家表包括了若干標準生產廠家名稱,標準生產廠家名稱來自于CFDA公布
的藥品生產企業信息或【生產廠商(中文)】、【生產廠商(英文)】信息。

表15表示了標準生產廠家表包括的部分標準生產廠家名稱。

表15

標準生產廠家名稱
上海長征富民藥業銅陵有限公司
南京恒生制藥有限公司
黑龍江哈星藥業集團有限公司
廣東九連山藥業有限公司
四川康特能藥業
Dr.Reddy`s Laboratories Ltd.

生產廠家同義詞表包括了若干生產廠家名稱同義詞。

生產廠家名稱同義詞是標準生產廠家名稱的縮略語、英文名稱等。

生產廠家同義詞表準確記錄了生產廠家名稱同義詞與標準生產廠家名稱之間的對應
關系。

表16表示了生產廠家同義詞表包括的部分生產廠家名稱同義詞、標準生產廠家名稱以
及二者的對應關系。

表16


需要說明的是,在實施本發明時,可以根據實際情況采用包含其他類型詞條的生產廠
家詞典,以達到切分出詞條屬性為“生產廠家”的詞條的目的,本發明對生產廠家詞典所
包含的詞條的類型或來源不作具體限定,即以上說明僅為本發明的具體實施例而已,并不
用于限定本發明的保護范圍,凡在本發明的精神和原則之內,采用包含其它類型或來源的
詞條的生產廠家詞典均應包含在本發明的保護范圍之內。

(9)包材詞典

包材詞典包括若干表示藥品的包材的詞條,本發明中,本發明中,包材詞典是用于切
分詞條屬性為“包材”的詞條。

以下為一種示例性的包材詞典:

包材詞典包括標準包材表、包材同義詞表。

標準包材表包括若干標準包材名稱,這些標準包材名稱來自于CFDA公布的藥品包材
或者藥品說明書中有關包材的信息。

表17所示為標準包材表包括的部分標準包材名稱。

表17

標準包材名稱
非PVC軟袋
玻璃瓶
塑料瓶

包材同義詞表包括若干包材名稱同義詞。

包材名稱同義詞是標準包材名稱的別名、俗稱或英文縮寫等。

包材同義詞表準確記錄了包材名稱同義詞與標準包材名稱之間的對應關系。

表18所示為包材同義詞表包括的部分包材名稱同義詞、標準包材名稱、以及二者之間
的同義關系。

表18

包材名稱同義詞
標準包材名稱
玻瓶
玻璃瓶
塑瓶
塑料瓶

需要說明的是,在實施本發明時,可以根據實際情況采用包含其他類型詞條的包材詞
典,以達到切分出詞條屬性為“包材”的詞條的目的,本發明對包材詞典所包含的詞條的
類型或來源不作具體限定,即以上說明僅為本發明的具體實施例而已,并不用于限定本發
明的保護范圍,凡在本發明的精神和原則之內,采用包含其它類型或來源的詞條的包材詞
典均應包含在本發明的保護范圍之內。

下面結合圖1的應用場景,參考表1至表18以及圖2來描述根據本發明一種示例性實施
方式的藥品信息的自然語言處理方法。需要注意的是,圖1的應用場景僅是為了便于理解
本發明的精神和原理而示出,本發明的實施方式在此方面不受任何限制。相反,本發明的
實施方式可以應用于適用的任何場景。

參見圖2所示,為本發明示例性方法的藥品信息的自然語言處理方法,包括:

步驟S11,輸入藥品信息字符串。

步驟S12,對藥品信息字符串進行預處理,得到預處理藥品信息字符串。

該步驟的目的是將藥品信息字符串中的字符轉換成統一的編碼格式,以便后續處理。

可選地,該步驟可以按照如下具體方式實施:對藥品信息字符串中的非漢字進行格式
歸一化處理(例如,將藥品信息字符串中的符號全部轉換為半角格式或全部轉換為全角格
式,將其中的英文字母全部轉換為大寫格式或小寫格式);并根據一預先建立的無關字符
詞典刪除藥品信息字符串中的無關字符,例如刪除□△○☆◢■▲●★等無關字符。

步驟S13,基于規格詞典和包裝規格詞典,從預處理藥品信息字符串中切分出規格字
符串和包裝規格字符串。

具體地,該步驟可以包括如下步驟:

步驟S131,判斷所述預處理藥品信息字符串中是否存在數字;如果存在數字,則執行
步驟S132;如果不存在數字,則直接跳轉到步驟S14。

步驟S132,將數字之后緊鄰的字符串與規格詞典和包裝規格詞典中的詞條進行匹配,
如果匹配成功的詞條是來自于規格詞典,則將該數字及其之后緊鄰的能夠與規格詞典中的
詞條相匹配的字符串切分出來作為規格字符串;如果匹配成功的詞條是來自于包裝規格詞
典,則將該數字及其之后緊鄰的能夠與包裝規格詞典中的詞條相匹配的字符串切分出來作
為包裝規格字符串。

例如,預處理藥品信息字符串為“膦甲酸鈉乳膏|扶適靈0.15g”,首先判斷出存在數字
字符“0.15”,然后將字符“g”與規格詞典和包裝規格詞典進行匹配,確定其與規格同義
詞表中的裝量規格單位同義詞“g”相匹配,因此將“0.15g”從該預處理藥品信息字符串
中切分出來作為規格字符串。

步驟S14,基于詞典集,從所述預處理藥品信息字符串的剩余字符中切分出第一類型
子字符串和/或第二類型子字符串。

其中,詞典集包括若干詞條。對所述預處理藥品信息字符串的剩余字符切分出的第一
類型子字符串、第二類型子字符串具有獨立語義,即所表示的信息不受其之前或之后的字
符影響,且第一類型子字符串能夠與詞典集中的詞條直接匹配,第二類型子字符串不能夠
與詞典集中的詞條直接匹配。

詞典集中的詞條來自于通用名稱詞典、商品名稱詞典、產品名稱詞典、給藥途徑詞典、
劑型詞典、生產廠家詞典、包材詞典,或者說,詞典集由通用名稱詞典、商品名稱詞典、
產品名稱詞典、給藥途徑詞典、劑型詞典、生產廠家詞典、包材詞典組成。

由于第一類型子字符串能夠與詞典集中的詞條直接匹配,因此第一類型子字符串可能
是以下各項中的任意一項:標準通用名稱、通用名稱同義詞、標準商品名稱、商品名稱同
義詞、標準產品名稱、產品名稱同義詞、標準藥途徑、給藥途徑同義詞、標準劑型術語、
劑型同義詞、標準生產廠家名稱、生產廠家名稱同義詞、標準包材名稱、包材名稱同義詞。

該步驟的目的是將藥品信息切分成具有獨立語義的子字符串,以有效避免將具有關聯
關系的多個字符分別進行識別從而導致識別錯誤的問題。

下文將以實施例一詳細介紹步驟S14的具體實施方式。

步驟S15,對第二類型子字符串和詞典集中的詞條進行解析,得到第二類型子字符串
的解析結果,以及對詞典集中每個詞條的解析結果;并通過將第二類型子字符串的解析結
果與詞典集中每個詞條的解析結果進行匹配,查找第二類型子字符串相匹配的一個或多個
詞條。

本步驟的目的是對第二類型子字符串進行模糊匹配。具體來說,對于第二類型子字符
串,基于預設的若干維度對其進行解析,然后將第二類型子字符串的解析結果與詞典集中
每個詞條的解析結果進行匹配,若匹配成功,則將這類詞條確定為第二類型子字符串相匹
配的詞條,最終實現對藥品信息中所有字符的識別。

下文將以實施例二詳細介紹步驟S15(對第二類型子字符串進行模糊匹配)的具體實
施方式。

步驟S16,輸出規格字符串、包裝規格字符串及其詞條屬性,以及輸出第一類型子字
符串、第二類型子字符串相匹配的詞條及其詞條屬性。其中,詞條屬性與詞條所屬的詞典
一一對應,各個詞典具有預先設定的詞條屬性。

如表19表示詞條屬性及詞典類型之間的對應關系。

表19

詞條屬性
詞典類型
通用名稱
通用名稱詞典
商品名稱
商品名稱詞典
產品名稱
產品名稱詞典
給藥途徑
給藥途徑詞典
劑型
劑型詞典
生產廠家
生產廠家詞典
包材
包材詞典
規格
規格詞典
包裝規格
包裝規格詞典

根據表1至表18可知,各個詞典中的詞條分為兩種類型,分別是標準型和同義詞型,
表20表示了各個詞典中的標準型詞條和同義詞型詞條。

表20



考慮到同義詞型詞條并非是醫療領域通用的藥品術語,而標準型詞條才是醫療領域通
用的藥品術語,為了便于后續能方便、有效地利用上述自然語言處理結果,可選地,該步
驟可以按照如下規則執行:判斷第一類型子字符串、第二類型子字符串相匹配的詞條是標
準型詞條還是同義詞型詞條;如果第一類型子字符串、第二類型子字符串相匹配的詞條為
標準型詞條,則直接輸出該標準型詞條;如果第一類型子字符串、第二類型子字符串相匹
配的本體為同義詞型詞條,則輸出與該同義詞型詞條具有同義關系(別名、俗稱、英文縮
寫、錯別字、曾用名等)的標準型詞條。

可選地,本發明示例性方法還可以輸出第一類型子字符串、第二類型子字符串。例如,
后續可以通過分析第一類型子字符串、第二類型子字符串以及原始的藥品信息字符串的語
義,判斷對藥品信息字符串進行自然語言處理時字符串的切分準確程度。

需要說明的是,“第一類型子字符串”是能夠與詞典集中的詞條直接匹配的字符組合,
可以直接輸出,屬于本發明示例性方法的精確匹配結果,而“第二類型子字符串”是不能
夠與詞典集中的詞條直接匹配的字符組合,需要進行模糊匹配,輸出模糊匹配的結果。

本發明示例性方法的藥品信息的自然語言處理方法,充分考慮了醫療從業人員輸入的
藥品信息的各種特點(如采用多種語言混合表達、使用不規范語法、錄入有誤信息、采用
縮略語或俗稱代替標準術語、文字中夾雜無關符號等雜亂信息等),利用預先建立的多種
詞典對藥品信息字符串進行切分和匹配,將藥品信息分類識別出來,并以醫療領域的標準
形式分類輸出精確匹配的詞條,對于沒有直接匹配的詞條的字符,采用模糊匹配的方式對
其進行識別,并以模糊匹配出的詞條作為識別結果,最后將識別結果以醫療領域的標準形
式分類輸出模糊匹配的詞條。通過上述技術手段,本發明可實現對帶符號、數字和漢字的
藥品信息字符串的識別,并克服了現有技術無法順利實現對藥品信息進行自然與演化處理
的問題,提升了藥品信息的識別成功率,為有效利用藥品信息提供了便利。

實施例一

參見圖3所示,為本發明示例性方法中步驟S14的一實施方式示例。

如圖3所示,基于詞典集,將所述預處理藥品信息字符串的剩余字符切分成第一類型
子字符串和/或第二類型子字符串的過程可以包括:

步驟S20,判斷所述預處理藥品信息字符串的剩余字符中是否包含符號;如果包含符
號,則執行步驟S21;如果未包含符號,則執行步驟S22。

步驟S21,將所述預處理藥品信息字符串的剩余字符中每相鄰兩個符號之間的字符作
為整體與詞典集中的詞條進行匹配;若匹配成功,則執行步驟S211;若匹配失敗,則執行
步驟S212。

步驟S211,將該相鄰兩個符號之間的字符切分出來作為第一類型子字符串。

步驟S212,將該相鄰兩個符號及其之間的字符確定為暫不切分字符串,然后執行步驟
S23。

步驟S21、步驟S211、步驟S212依據的處理規則是:將相鄰符號之間的全部字符作為
整體與詞典集中的詞條進行匹配,只有匹配時才切分,否則暫時不予切分。

例如表21所示對“(立普妥)阿托伐他汀鈣片(片劑)”的切分,其中,“立普妥”、
“阿托伐他汀鈣片”、“片劑”均為符號之間的全部字符,并且可以查找到相匹配的詞條,
因此,分別被切分出來。

表21


步驟S22,采用機械分詞法將所述預處理藥品信息字符串的剩余字符與詞典集中的詞
條進行匹配;若預處理藥品信息字符串中剩余的所有字符均能夠與詞條匹配,則執行步驟
S221;若所述預處理藥品信息字符串的剩余字符中存在未能與詞條匹配的單個字符或多個
連續的字符,則執行步驟S222。

步驟S221,依據所匹配的詞條將所述預處理藥品信息字符串的剩余字符切分出來作為
第一類型子字符串。

步驟S222,將所述預處理藥品信息字符串的剩余字符整體切分出來作為第二類型子字
符串。

步驟S22、步驟S221、步驟S222依據的處理規則是:采用機械分詞法將所述預處理藥
品信息字符串的剩余字符與詞條進行匹配,只有全部字符都能查找到相匹配的詞條時才切
分,否則暫時不予切分。

例如對“諾和龍瑞格列奈片”進行切分,其中“諾和龍”、“瑞格列奈片”均能查找
到相匹配的詞條,即全部字符都能查找到相匹配的詞條,因此對其予以切分,切分結果為
“諾和龍”和“瑞格列奈片”。

步驟S22采用的機械分詞法可以是正向最大匹配型,逆向最大匹配型,或最少切分型。
具體的切分過程,本實施例不再贅述。

步驟S23,判斷暫不切分字符串中是否包含預設的特殊符號;如果暫不切分字符串中
包含特殊符號,則執行步驟S231;如果暫不切分字符串中不包含特殊符號,則執行步驟
S233。

步驟S231,查找暫不切分字符串所屬的字符模型,并根據該所屬的字符模型對應的切
分規則對暫不切分字符串進行切分;其中,字符模型由一預先建立的字符模型庫提供,且
字符模型具有一一對應的切分規則。

步驟232,將切分出來的字符與詞典集中的詞條進行匹配,若匹配成功,則將該切分
出來的字符確定為第一類型子字符串,若匹配失敗,則將該切分出來的字符確定為第二類
型子字符串;

步驟S233,將暫不切分字符串直接確定為第二類型子字符串。

步驟S23、步驟S231、步驟232、步驟S233依據的處理規則是:當暫不切分字符串中包
含預設的特殊符號時,根據暫不切分字符串所屬的字符模型進行切分,否則直接切分出來;
而且將基于字符模型切分出的字符再次與詞典集中的詞條進行匹配,將其中能夠與詞條直
接匹配的作為第一類型子字符串,不能夠直接匹配的作為第二類型子字符串。

例如預設的特殊符號可以包括但不限于豎線、括號、逗號、頓號、句號、冒號、加號、
分號、斜杠線等等。

例如以下為字符模型庫中的部分字符模型及其切分規則:

(1)字符模型:BCDE型,且C、E為括號,B、D為文字;

切分規則:將B、D切分出來;

(2)字符模型:FGH型,且F、H均為漢字,G為豎線;

切分規則:將F、H作為切分出來;

(3)字符模型:IJK型,且I、K均為漢字,J為分號、句號、問號、嘆號、頓號,切

分規則:將I和K分別切分出來;

(4)字符模型:STU型,T為斜杠線,且S、U均無法與詞典匹配成功;

切分規則:將STU作為整體切分出來。

以下為幾個根據字符模型進行切分的示例:

原始字符串“巨和粒(山東齊魯)”,符合字符模型BCDE型,因此切分為“巨和粒”、
“山東齊魯”。

原始字符串“奧美拉唑鎂腸溶片∣洛賽克MUPS”,符合字符模型FGH型,因此切分
為“奧美拉唑鎂腸溶片”,“洛賽克MUPS”。

原始字符串“美沙拉桑緩釋顆粒劑、艾迪莎”,符合字符模型IJK型,因此切分為“美
沙拉桑緩釋顆粒劑”,“艾迪莎”。

原始字符串“B型嗜血菌/乙型肝炎疫苗”,符合字符模型STU型,因此切分為“B型
嗜血菌/乙型肝炎疫苗”。

實施例二

參見圖4所示,為本發明示例性方法中步驟S15(對第二類型子字符串進行模糊匹配)
的一實施方式示例。

如圖4所示,查找第二類型子字符串相匹配的詞條的過程可以包括:

步驟S31,對第二類型子字符串和詞典集中的每個詞條進行預設維度的解析,得到第
二類型子字符串的各個維度的解析結果,以及詞典集中每個詞條的各個維度的解析結果。

該步驟將第二類型子字符串和本體分別作為解析對象,可選地,對解析對象進行預設
維度的解析可以包括但不限于:

(1)確定解析對象中的每個漢字;

(2)確定解析對象中每個漢字的聲母;

(3)確定解析對象中每個漢字的韻母;

(4)確定解析對象的首字符;

(5)確定解析對象的首字符的拼音;以及,

(6)確定解析對象中的非漢字字符,如果其中不包含非漢字字符,則該項解析結果
為空。

當解析對象為第二類型子字符串時,其各個維度的解析結果可以包括但不限于:第二
類型子字符串中的每個漢字、第二類型子字符串中每個漢字的聲母、第二類型子字符串中
每個漢字的韻母、第二類型子字符串的首字符、第二類型子字符串的首字符的拼音、第二
類型子字符串中的非漢字字符。

當解析對象為詞條時,解析結果可以包括但不限于:詞條中的每個漢字、詞條中每個
漢字的聲母、詞條中每個漢字的韻母、詞條的首字符、詞條的首字符的拼音、詞條的非漢
字字符。

例如,表22為第二類型子字符串“尼莫地平”的解析結果。

表22


步驟S32,按照如下公式計算第二類型子字符串與每個詞條的相似度:

M = Σ t i n q ( t f t i n q · i d f ( t ) 2 · t . g e t B o o s t ( ) · n o r m ( t , d ) ) ]]>

其中,M表示相似度;

t表示第二類型子字符串的各個維度的解析結果;

q表示第二類型子字符串;

tinq表示第二類型子字符串的各個維度;

d表示詞條;

tf(tind)表示在相同的維度上,第二類型子字符串的解析結果與詞條的解析結果相
匹配的頻次;

其中,T表示詞典集中詞條的總數,T(t)表示各個維度的解析結果
均與第二類型子字符串的各個維度的解析結果相匹配的詞條的總數;

t.getBoost()表示各個維度的預設權值;

norm(t,d)表示詞條的長度歸一化因子;

其中,解析對象的各個維度分別是:每個漢字、每個漢字的聲母、每個漢字的韻母、
首字符、首字符的拼音、非漢字字符。

步驟S33,根據第二類型子字符串與各個詞條的相似度,確定一個或多個詞條作為第
二類型子字符串相匹配的詞條。

可選地,該步驟可以有如下的具體實施方式:按照與第二類型子字符串的相似度的大
小對全部詞條排序,并將其中排序靠前的預設數量的(例如為排序靠前的10個)詞條確定
為第二類型子字符串相匹配的詞條;或者,將與第二類型子字符串的相似度達到預設閾值
(例如為相似度大于0.9)的一個或多個詞條,確定為第二類型子字符串相匹配的詞條。

具體實施本發明時,為了明確第二類型子字符串與每一個相匹配的詞條的相似度并對
其加以利用,還可以在最終輸出的結果中一并輸出第二類型子字符串與其相匹配的各個詞
條的相似度。例如,輸出第二類型子字符串與各個相匹配的詞條的相似度,然后可以根據
相似度的大小,通過人工方式從中再選出一個作為第二類型子字符串相匹配的詞條。

具體實施本發明時,如果對第二類型子字符串與詞條相似程度的計算有更高、更準確
的要求,則還可以計算第二類型子字符串與其相匹配的各個詞條的總置信度。其中,總置
信度按照如下過程計算:

步驟(1),確定第二類型子字符串中的每個漢字。

步驟(2),按照如下公式計算第二類型子字符串與其相匹配的各個詞條的余弦置信度:

N = Σ j = 1 V w Q , j × w d , j Σ j = 1 V w Q , j 2 × Σ j = 1 V w d , j 2 ]]>

其中,N表示余弦置信度;

V表示第二類型子字符串及其相匹配的詞條所包含的漢字總數;

Q表示第二類型子字符串;

d'表示與第二類型子字符串相匹配的詞條;

wQ,j表示每個漢字在第二類型子字符串中出現的頻次;

wd',j表示每個漢字在第二類型子字符串相匹配的詞條中出現的頻次;

j表示第二類型子字符串及其相匹配的詞條所包含的漢字的序號。

步驟(3),按照如下公式計算第二類型子字符串與其相匹配的各個詞條的總置信度:

S=M×a+N×b

其中,S表示總置信度;

a表示相似度M對應的預設權值;

b表示余弦置信度N對應的預設權值,其中b=1-a。

例如,假設第二類型子字符串“尼莫地平注射液”的一個相匹配的本體為“尼莫地平”,
其中每個漢字的出現頻次如表23所示。

表23


則根據余弦置信度計算公式計算出第二類型子字符串“尼莫地平注射液”與本體“尼
莫地平”的余弦置信度為:

N = Σ j = 1 V w Q , j × w d , j Σ j = 1 V w Q , j 2 × Σ j = 1 V w d , j 2 = ( 1 × 1 ) + ( 1 × 1 ) + ( 1 × 1 ) + ( 1 × 1 ) + ( 1 × 0 ) + ( 1 × 0 ) + ( 1 × 0 ) ( 1 2 + 1 2 + 1 2 + 1 2 + 1 2 + 1 2 + 1 2 ) × ( 1 2 + 1 2 + 1 2 + 1 2 + 0 + 0 + 0 ) = 0.75 ]]>

根據公式 M = Σ t i n q ( t f t i n q · i d f ( t ) 2 · t . g e t B o o s t ( ) · n o r m ( t , d ) ) ]]>計算出相似度M=0.92。

根據總置信度計算公式S=M×a+N×b計算出“尼莫地平注射液”與“注射用尼莫地
平”的總置信度為S=M×a+N×b=0.92×40%+0.75×60%=0.82。

實施例三

本實施例對一具體的藥品信息進行自然語言處理。

藥品信息字符串為:

H▲注射用鹽酸伊立替康|◆艾力40mg1只(成都)江蘇恒瑞水針

按照如下步驟對該藥品信息進行自然語言處理:

步驟(1),輸入以上該藥品信息字符串。

步驟(2),對該藥品信息字符串中的非漢字進行格式歸一化處理;并根據無關字符詞典
刪除藥品信息字符串中的無關字符▲◆,得到預處理藥品信息字符串“H注射用鹽酸伊立
替康|艾力40mg1只(成都)江蘇恒瑞水針”。

步驟(3),判斷以上預處理藥品信息字符串中存在數字“40”和“1”,基于規格詞典
和包裝規格詞典,從以上預處理藥品信息字符串中切分出規格字符串“40mg”和包裝規格
字符串“1只”,所述預處理藥品信息字符串的剩余字符為:“H注射用鹽酸伊立替康|艾力
(成都)江蘇恒瑞水針”。

步驟(4),基于詞典集,將以上所述預處理藥品信息字符串的剩余字符切分成第一類型
子字符串“艾力”、“(成都)江蘇恒瑞”、“水針”,和第二類型子字符串“注射用鹽酸
伊立替康”。

步驟(5),輸出第一類型子字符串“艾力”、“(成都)江蘇恒瑞”、“水針”,以及輸
出第二類型子字符串“注射用鹽酸伊立替康”。

步驟(6),對第二類型子字符串“注射用鹽酸伊立替康”進行解析,查找出第二類型子
字符串相匹配的多個詞條分別為“鹽酸伊立替康”、“伊立替康”、“康艾注射液”、“痹
痛立康酊”。

步驟(7),輸出規格字符串“40mg”,包裝規格字符串“1只”,第一類型子字符串相
匹配的詞條“艾力”、“(成都)江蘇恒瑞”、“水針”,第二類型子字符串匹配的詞條“鹽
酸伊立替康”、“伊立替康”、“康艾注射液”、“痹痛立康酊”以及各個詞條的詞條屬
性,如下表24所示。其中,“1只”是“1支”的錯別字;“(成都)江蘇恒瑞”是生產廠家
名稱同義詞,屬于同義詞型詞條,其對應的標準型詞條為“(成都)江蘇恒瑞制藥”;“水
針”是劑型同義詞,屬于同義詞型詞條,其對應的標準型詞條為“注射液”,表24中輸出
的是標準型詞條。

表24



實施例四

本實施例對另一具體的藥品信息進行自然語言處理。

藥品信息字符串為:

(立普妥)阿托伐他汀鈣片20mg*7片

按照如下步驟對該藥品信息進行自然語言處理:

步驟(1),輸入以上藥品信息字符串。

步驟(2),對該藥品信息字符串中的非漢字進行格式歸一化處理;并根據無關字符詞典
刪除藥品信息字符串中的無關字符*,得到預處理藥品信息字符串“(立普妥)阿托伐他汀鈣
片20mg7片”。

步驟(3),判斷以上預處理藥品信息字符串中存在數字“20”和“7”,基于規格詞典
和包裝規格詞典,從以上預處理藥品信息字符串中切分出規格字符串“20mg”和包裝規格
字符串“7片”,所述預處理藥品信息字符串的剩余字符為:“(立普妥)阿托伐他汀鈣片”。

步驟(4),基于詞典集,對以上所述預處理藥品信息字符串的剩余字符進行切分,切分
出第一類型子字符串“立普妥”、“阿托伐他汀鈣片”,無第二類型子字符串。

步驟(5),輸出規格字符串“20mg”,包裝規格字符串“7片”,第一類型子字符串相
匹配的詞條“立普妥”、“阿托伐他汀鈣片”以及各個詞條的詞條屬性,如下表25所示。

表25


示例性系統一

以下結合圖1的應用場景,參考圖5,介紹本發明的一種示例性系統,該示例性系統與
示例性方法相對應。

圖5所示為本發明一種示例性的藥品信息的自然語言處理系統的框圖,如圖5所示,該
藥品信息的自然語言處理系統包括:

詞典數據庫401,提供規格詞典、包裝規格詞典和詞典集。其中,規格詞典、包裝規
格詞典和詞典集的具體信息請參考示例性方法,此處不再贅述。

輸入模塊402,用于輸入藥品信息字符串。

預處理模塊403,用于對藥品信息字符串進行預處理,得到預處理藥品信息字符串;

第一切分模塊404,用于基于規格詞典和包裝規格詞典,從預處理藥品信息字符串中
切分出規格字符串和包裝規格字符串。其中,規格字符串表示藥品的規格信息;包裝規格
字符串表示藥品的包裝規格信息。

第二切分模塊405,用于基于詞典集,從預處理藥品信息字符串的剩余字符中切分出
若干第一類型子字符串和/或第二類型子字符串。其中,第一類型子字符串能夠與詞典集中
的詞條直接匹配,第二類型子字符串不能夠與詞典集中的詞條直接匹配;

模糊匹配模塊406,用于基于若干預設的維度,對第二類型子字符串,以及詞典集中
的詞條進行解析,得到第二類型子字符串的解析結果,以及對詞典集中每個詞條的解析結
果;并通過將第二類型子字符串的解析結果與詞典集中每個詞條的解析結果進行匹配,查
找第二類型子字符串相匹配的一個或多個詞條。

輸出模塊407,用于輸出規格字符串、包裝規格字符串及其對應的詞條屬性,以及輸
出第一類型子字符串、第二類型子字符串相匹配的詞條及其對應的詞條屬性。

其中,詞條的詞條屬性劃分可參考示例性方法,此處不再贅述。

以上所述的具體實施例,對本發明的目的、技術方案和有益效果進行了進一步詳細說
明,所應理解的是,以上所述僅為本發明的具體實施例而已,并不用于限定本發明的保護
范圍,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在
本發明的保護范圍之內。

本領域技術人員還可以了解到本發明實施例列出的各種說明性邏輯塊(illustrative
logicalblock),單元,和步驟可以通過電子硬件、電腦軟件,或兩者的結合進行實現。為
清楚展示硬件和軟件的可替換性(interchangeability),上述的各種說明性部件(illustrative
components),單元和步驟已經通用地描述了它們的功能。這樣的功能是通過硬件還是軟
件來實現取決于特定的應用和整個系統的設計要求。本領域技術人員可以對于每種特定的
應用,可以使用各種方法實現所述的功能,但這種實現不應被理解為超出本發明實施例保
護的范圍。

本發明實施例中所描述的各種說明性的邏輯塊,或單元,或裝置都可以通過通用處理
器,數字信號處理器,專用集成電路(ASIC),現場可編程門陣列或其它可編程邏輯裝置,
離散門或晶體管邏輯,離散硬件部件,或上述任何組合的設計來實現或操作所描述的功能。
通用處理器可以為微處理器,可選地,該通用處理器也可以為任何傳統的處理器、控制器、
微控制器或狀態機。處理器也可以通過計算裝置的組合來實現,例如數字信號處理器和微
處理器,多個微處理器,一個或多個微處理器聯合一個數字信號處理器核,或任何其它類
似的配置來實現。

本發明實施例中所描述的方法或算法的步驟可以直接嵌入硬件、處理器執行的軟件模
塊、或者這兩者的結合。軟件模塊可以存儲于RAM存儲器、閃存、ROM存儲器、EPROM
存儲器、EEPROM存儲器、寄存器、硬盤、可移動磁盤、CD-ROM或本領域中其它任意形
式的存儲媒介中。示例性地,存儲媒介可以與處理器連接,以使得處理器可以從存儲媒介
中讀取信息,并可以向存儲媒介存寫信息。可選地,存儲媒介還可以集成到處理器中。處
理器和存儲媒介可以設置于ASIC中,ASIC可以設置于用戶終端中。可選地,處理器和存
儲媒介也可以設置于用戶終端中的不同的部件中。

在一個或多個示例性的設計中,本發明實施例所描述的上述功能可以在硬件、軟件、
固件或這三者的任意組合來實現。如果在軟件中實現,這些功能可以存儲與電腦可讀的媒
介上,或以一個或多個指令或代碼形式傳輸于電腦可讀的媒介上。電腦可讀媒介包括電腦
存儲媒介和便于使得讓電腦程序從一個地方轉移到其它地方的通信媒介。存儲媒介可以是
任何通用或特殊電腦可以接入訪問的可用媒體。例如,這樣的電腦可讀媒體可以包括但不
限于RAM、ROM、EEPROM、CD-ROM或其它光盤存儲、磁盤存儲或其它磁性存儲裝置,
或其它任何可以用于承載或存儲以指令或數據結構和其它可被通用或特殊電腦、或通用或
特殊處理器讀取形式的程序代碼的媒介。此外,任何連接都可以被適當地定義為電腦可讀
媒介,例如,如果軟件是從一個網站站點、服務器或其它遠程資源通過一個同軸電纜、光
纖電纜、雙絞線、數字用戶線(DSL)或以例如紅外、無線和微波等無線方式傳輸的也被
包含在所定義的電腦可讀媒介中。所述的碟片(disk)和磁盤(disc)包括壓縮磁盤、鐳射
盤、光盤、DVD、軟盤和藍光光盤,磁盤通常以磁性復制數據,而碟片通常以激光進行光
學復制數據。上述的組合也可以包含在電腦可讀媒介中。

關 鍵 詞:
一種 藥品信息 自然語言 處理 方法 系統
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種藥品信息的自然語言處理方法及系統.pdf
鏈接地址:http://www.wwszu.club/p-6386006.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大