鬼佬大哥大
  • / 12
  • 下載費用:30 金幣  

一種基于結構識別的WEB表格信息抽取方法.pdf

摘要
申請專利號:

CN201510287215.0

申請日:

2015.06.01

公開號:

CN105045769A

公開日:

2015.11.11

當前法律狀態:

撤回

有效性:

無權

法律詳情: 發明專利申請公布后的視為撤回IPC(主分類):G06F 17/22申請公布日:20151111|||實質審查的生效IPC(主分類):G06F 17/22申請日:20150601|||公開
IPC分類號: G06F17/22 主分類號: G06F17/22
申請人: 中國人民解放軍裝備學院
發明人: 劉東; 朱鴻喬; 李新明; 邢維艷; 李藝; 李亢; 王壽彪; 饒磊; 閆雪飛; 于少波; 李強
地址: 101416北京市懷柔區3380信箱
優先權:
專利代理機構: 中國人民解放軍防化研究院專利服務中心11046 代理人: 劉永盛
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510287215.0

授權公告號:

||||||

法律狀態公告日:

2018.04.10|||2015.12.09|||2015.11.11

法律狀態類型:

發明專利申請公布后的視為撤回|||實質審查的生效|||公開

摘要

本發明涉及一種基于結構識別的Web表格信息抽取方法。在該方法過程中,表格結構的識別采用了兩種漸進式的方法進行。首先采用了一組啟發式的規則對常見的幾種類型的表格進行結構的判斷,從而確定了Web中較大一部分表格的結構類型;對通過啟發式規則未能識別的表格,采用字符串匹配的方式進行,被匹配的單元格被限定在ULC(upper-left-cell)所在的行或列中,這樣就可以大大減少需要進行字符串匹配的內容,提高了匹配和識別的效率。最后,從總的兩個維度的表格出發,分別提出了在信息抽取過程中合成單元格的處理策略問題,可以在保證抽取結果中數據間的關系不被破壞的基礎上,盡可能的降低冗余數據的產生。

權利要求書

1.一種基于結構識別的Web表格信息抽取方法,其特征是該方法步驟如下:
首先通過啟發式規則對表格的結構進行識別,啟發式規則為:①表格左上角的單元格的
英文名稱為upper-left-cell,縮寫為ULC,當該單元格中的內容為空時,表格為二維表格,當
該單元格中的內容不為空且表格中的內容存在屬性-值關系時,ULC為屬性單元格;②當表格
中由<th>標簽構造的單元格的個數大于2且這些單元格位于表格中的同一行或同一列時,這
些單元格是表格的屬性單元格;對于符合啟發式規則的表格,當識別出的屬性區域僅按行展
開,則表格為一維表格,當屬性區域同時按行和按列展開,則表格為二維表格;
一維表格

二維表格

對于通過步驟1不能進行結構識別的表格,再根據表格中同一屬性下的值在內容上具有
相似性這一特點,采用字符串編輯距離的方法對單元格中內容字符串間的相似度進行計算,
進而區分出表格中的屬性單元格區域和值單元格區域;通過對50組不同屬性下的屬性值組進
行內容相似度的計算,得出同一屬性下屬性值間相似度的閾值為0.3;為了減少進行表格結構
識別時相似度計算的次數,根據步驟1中的啟發式規則①和表格右下角單元格為值單元格這
一特點,僅對ULC和右下角單元格所在的行和列中的單元格進行內容相似度計算,當相似度
的值大于0.3,兩個單元格中的值同屬一個屬性,反之則不屬于;在進行相似度計算后,當識
別出的屬性區域僅按行展開,則表格為一維表格,當屬性區域同時按行和按列展開,則表格
為二維表格;
通過上述兩步驟之后即可判定表格的結構類型,對于一維表格中橫向展開的類型,當值
單元格C2的屬性colspan的值大于其所在行中屬性單元格C1的屬性colspan的值,則將該值
單元格進行分割,得到的兩個新的單元格的rowspan的值不變,colspan的值分別為C1.
colspan.value、C2.colspan.value-C1.colspan.value,否則不對該值單元格進行處理;對于一維
表格中縱向展開的類型,當值單元格C2的屬性rowspan的值大于其所在列中屬性單元格C1
的屬性rowspan的值,則將該值單元格進行分割,得到的兩個新的單元格colspan的值不變,
rowspan的值分別為C1.rowspan.value、C2.rowspan.value-C1.rowspan.value,否則不對該值單
元格進行處理;對于二維表格,包括ULC為空或不為空的兩種情況,分別根據值單元格所在
行中的屬性單元格的colspan的值和所在列中的單元格的rowspan的值對該值單元格進行分
割,分割的方法同一維表格的處理過程。

關 鍵 詞:
一種 基于 結構 識別 WEB 表格 信息 抽取 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種基于結構識別的WEB表格信息抽取方法.pdf
鏈接地址:http://www.wwszu.club/p-6401514.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大