鬼佬大哥大
  • / 17
  • 下載費用:30 金幣  

數據提取的方法及裝置.pdf

摘要
申請專利號:

CN201510474190.5

申請日:

2015.08.05

公開號:

CN105045900A

公開日:

2015.11.11

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/30申請日:20150805|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 石河子大學
發明人: 鄭亮; 陳根方
地址: 832003新疆維吾爾自治區石河子市北四路221號
優先權:
專利代理機構: 北京鼎佳達知識產權代理事務所(普通合伙)11348 代理人: 王偉鋒; 劉鐵生
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510474190.5

授權公告號:

|||

法律狀態公告日:

2015.12.09|||2015.11.11

法律狀態類型:

實質審查的生效|||公開

摘要

本發明公開了一種數據提取的方法及裝置,涉及數據處理領域,為解決人工提取數據效率低下的問題而發明。本發明的方法包括:對數據進行預處理,獲得位置在前的第一數據和位置在后的第二數據;計算第一數據和第二數據的相似度;若第一數據和第二數據的相似度滿足預設的相似度閾值,則刪除位置在后的第二數據;保留位置在前的第一數據,獲得摘要信息。本發明適合應用在對大量的、不同格式的節日數據進行提取的過程中。

權利要求書

1.一種數據提取的方法,其特征在于,所述方法包括:
對數據進行預處理,獲得位置在前的第一數據和位置在后的第二數據;
計算所述第一數據和所述第二數據的相似度;
若所述第一數據和所述第二數據的相似度滿足預設的相似度閾值,則
刪除位置在后的所述第二數據;
保留位置在前的所述第一數據,獲得摘要信息。
2.根據權利要求1所述的方法,其特征在于,所述數據包括文本數據、
圖片數據及視頻數據。
3.根據權利要求2所述的方法,其特征在于,所述數據為文本數據,
所述對數據進行預處理,獲得位置在前的第一數據和位置在后的第二數據,
包括:
對所述文本數據進行分詞處理,獲得先后相鄰的兩個語句;
所述計算所述第一數據和所述第二數據的相似度,包括:
通過最大公共子序列LCS算法計算所述先后相鄰的兩個語句的相似
度;
所述若所述第一數據和所述第二數據的相似度滿足預設的相似度閾
值,則刪除位置在后的所述第二數據,包括:
若所述先后相鄰的兩個語句的相似度大于λT,則刪除位置在后的語句。
4.根據權利要求3所述的方法,其特征在于,所述通過最大公共子序
列LCS算法計算所述先后相鄰的兩個語句的相似度,包括:
基于同義詞庫對所述先后相鄰的兩個語句的相似度進行模糊匹配。
5.根據權利要求2所述的方法,其特征在于,所述數據為圖片數據,
所述對數據進行預處理,獲得位置在前的第一數據和位置在后的第二數據,
包括:
按照預設的特征值對圖片數據進行分類,獲得多個圖片集合;
針對每個圖片集合,從中反復抽取任意兩張圖片;
所述計算所述第一數據和所述第二數據的相似度,包括:
通過顏色直方圖計算抽取的兩張圖片的相似度;
所述若所述第一數據和所述第二數據的相似度滿足預設的相似度閾
值,則刪除位置在后的所述第二數據,包括:
若兩張圖片的相似度大于λU,則刪除位置在后的圖片。
6.根據權利要求2所述的方法,其特征在于,所述數據為視頻數據,
所述對數據進行預處理,獲得位置在前的第一數據和位置在后的第二數據,
包括:
對所述視頻數據進行幀分割,獲得視頻幀序列;
從所述視頻幀序列中抽取任意相鄰的兩個視頻幀;
所述計算所述第一數據和所述第二數據的相似度,包括:
通過幀差法計算所述兩個視頻幀的相似度;
所述若所述第一數據和所述第二數據的相似度滿足預設的相似度閾
值,則刪除位置在后的所述第二數據,包括:
若兩相鄰視頻幀的相似度大于λV,則刪除位置在后的視頻幀。
7.根據權利要求1所述的方法,其特征在于,在所述保留位置在前的
所述第一數據,獲得摘要信息之后,所述方法進一步包括:
將所述摘要信息與標準摘要信息進行比對,獲得所述摘要信息是否準
確的評估結果;
若所述摘要信息的準確度未達到預設要求,則對所述相似度閾值進行
調整;
基于調整后的相似度閾值對再次進行相似度計算。
8.根據權利要求7所述的方法,其特征在于,所述將所述摘要信息與
標準摘要信息進行比對,獲得所述摘要信息是否準確的評估結果,包括:
將所述摘要信息和所述標準摘要信息分別轉化為第一語義序列和第二
語義序列;
計算所述第一語義序列和所述第二語義序列的最大公共子序列;
計算所述最大公共子序列與所述第二語義序列的比值;
若所述比值達到預設比例閾值,則確定所述摘要信息的準確度達到預
設要求。
9.根據權利要求1至8中任一項所述的方法,其特征在于,所述數據
為節日主題數據。
10.一種數據提取的裝置,其特征在于,所述裝置包括:
處理單元,用于對數據進行預處理,獲得位置在前的第一數據和位置
在后的第二數據;
計算單元,用于計算所述處理單元獲得的所述第一數據和所述第二數
據的相似度;
刪除單元,用于當所述計算單元計算的所述第一數據和所述第二數據
的相似度滿足預設的相似度閾值時,刪除位置在后的所述第二數據,保留
位置在前的所述第一數據,獲得摘要信息。
11.根據權利要求10所述的裝置,其特征在于,所述處理單元處理的
所述數據包括文本數據、圖片數據及視頻數據。
12.根據權利要求11所述的裝置,其特征在于,所述處理單元處理的
所述數據為文本數據,所述處理單元用于:
對所述文本數據進行分詞處理,獲得先后相鄰的兩個語句;
所述計算單元用于:
通過最大公共子序列LCS算法計算所述先后相鄰的兩個語句的相似
度;
所述刪除單元用于:
當所述先后相鄰的兩個語句的相似度大于λT時,刪除位置在后的語句。
13.根據權利要求12所述的裝置,其特征在于,所述計算單元用于基
于同義詞庫對所述先后相鄰的兩個語句的相似度進行模糊匹配。
14.根據權利要求11所述的裝置,其特征在于,所述處理單元處理的
數據為圖片數據,所述處理單元用于:
按照預設的特征值對圖片數據進行分類,獲得多個圖片集合;
針對每個圖片集合,從中反復抽取任意兩張圖片;
所述計算單元用于:
通過顏色直方圖計算抽取的兩張圖片的相似度;
所述刪除單元,用于當所述相似度閾值大于λu時,刪除位置在后的所
述第二數據。
15.根據權利要求11所述的裝置,其特征在于,所述處理單元處理的
數據為視頻數據,所述處理單元用于:
對所述視頻數據進行幀分割,獲得視頻幀序列;
從所述視頻幀序列中抽取任意相鄰的兩個視頻幀;
所述計算單元用于:
通過幀差法計算所述第一數據和所述第二數據的相似度;
所述刪除單元,用于當所述第一數據和所述第二數據的相似度大于λV
時,刪除位置在后的視頻幀。
16.根據權利要求10所述的裝置,其特征在于,所述裝置進一步包括:
比對單元,用于在所述刪除單元保留位置在前的所述第一數據,獲得
摘要信息之后,將所述刪除單元獲得的摘要信息與標準摘要信息進行比對,
獲得所述摘要信息是否準確的評估結果;
調整單元,用于當所述比對單元獲得的摘要信息的準確度未達到預設
要求時,對所述計算單元使用的相似度閾值進行調整;
所述計算單元,用于基于調整后的相似度閾值對再次進行相似度計算。
17.根據權利要求16所述的裝置,其特征在于,所述比對單元包括:
轉化模塊,用于將所述刪除單元獲得的摘要信息和所述標準摘要信息
分別轉化為第一語義序列和第二語義序列;
計算模塊,用于計算所述轉化模塊轉化的所述第一語義序列和所述第
二語義序列的最大公共子序列,計算所述最大公共子序列與所述第二語義
序列的比值;
確定模塊,用于當所述計算模塊計算的所述比值達到預設比例閾值時,
則確定所述摘要信息的準確度達到預設要求。
18.根據權利要求10至17中任一項所述的裝置,其特征在于,所述
處理單元處理的數據為節日主題數據。

說明書

數據提取的方法及裝置

技術領域

本發明涉及數據處理領域,尤其涉及一種數據提取的方法及裝置。

背景技術

現今數據種類繁多,在對數據的數字化處理過程中,可采集到各種類
型的數據,對某一類事件或現象的記錄和采集有多種方式,比如文字描述、
相機拍照、拍攝、電話記錄、短信、微信、博客、郵件、電視臺、廣播臺
等。在這些數據中,體現出數據類型多樣、數據源多樣、數據結構復雜、
數據容量龐大等特征。

面對這些多種多樣且數量十分龐大的數據,如果需要進行某種數據提
取或數據統計的話,目前主流的處理思路在于通過數據相似度的比較,將
過于相似甚至完全相同的多份數據擇一保留,剔除重復數據,達到數據去
重的目的。例如,對拍攝內容基本相同的多張照片進行去重處理,或者對
語義內容實質相同的文本信息進行去重處理等。由于數據類型多種多樣,
并且數據本身大多又是半結構化或非結構化的異構數據,因此現有的數據
提取方式主要是由人工操作實現,網絡運營人員通過肉眼比對及手動篩選
的方式完成有用數據的提取。

在上述數據提取的過程中,發明人發現:隨著大數據時代的到來,網
絡中的數據量將會成幾何狀增長。面對如此龐大的數據量,人工提取數據
的方式需要消耗大量的處理時間,提取效率過于低下。

發明內容

本發明提供了一種數據提取的方法及裝置,能夠解決人工提取數據效
率低下的問題。

為解決上述技術問題,一方面,本發明提供了一種數據提取的方法,
該方法包括:

對數據進行預處理,獲得位置在前的第一數據和位置在后的第二數據;

計算所述第一數據和所述第二數據的相似度;

若所述第一數據和所述第二數據的相似度滿足預設的相似度閾值,則
刪除位置在后的所述第二數據;

保留位置在前的所述第一數據,獲得摘要信息。

另一方面,本發明還提供了一種數據提取的裝置,該裝置包括:

處理單元,用于對數據進行預處理,獲得位置在前的第一數據和位置
在后的第二數據;

計算單元,用于計算所述處理單元獲得的所述第一數據和所述第二數
據的相似度;

刪除單元,用于當所述計算單元計算的所述第一數據和所述第二數據
的相似度滿足預設的相似度閾值時,刪除位置在后的所述第二數據,保留
位置在前的所述第一數據,獲得摘要信息。

本發明提供的數據提取的方法及裝置,能夠通過計算機自動對數據進
行預處理,獲得第一數據和第二數據,并對第一數據和第二數據的相似度
進行計算,若兩者滿足相似度閾值,則說明第一數據和第二數據是重復的,
計算機自動刪除第二數據以達到剔除冗余數據,保留數據摘要信息的目的。
與現有技術相比,本發明可以通過計算機處理快速得到數據摘要信息,無
需人工對原始數據進行查看比對、手動篩選,大大的減少了數據的處理時
間,能夠提高數據提取的效率。

上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的
技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和
其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。

附圖說明

通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于
本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目
的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符
號表示相同的部件。在附圖中:

圖1示出了本發明實施例提供的一種數據提取的方法流程圖;

圖2示出了本發明實施例提供的一種文本格式數據摘要信息提取的方
法流程圖;

圖3示出了本發明實施例提供的一種圖片格式數據摘要信息提取的方
法流程圖;

圖4示出了本發明實施例提供的一種視頻格式數據摘要信息提取的方
法流程圖;

圖5示出了本發明實施例提供的一種摘要信息提取評估方法的流程圖;

圖6示出了本發明實施例提供的一種數據提取的裝置的組成框圖;

圖7示出了本發明實施例提供的另一種數據提取裝置的組成框圖。

具體實施方式

下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯
示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開
而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更
透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術
人員。

為解決現有技術中人工提取摘要信息效率低下的問題,本發明實施例
提供了一種數據提取的方法,如圖1所示,該方法包括:

101、對數據進行預處理,獲得位置在前的第一數據和位置在后的第二
數據。

在本實施例中,進行預處理的數據包括不同形式的數據,對不同形式
的數據預處理的方式也不同。

對數據進行預處理是對不同形式的數據進行按不同的特征進行簡單的
分類處理,得到更小范圍的數據,也為接下來的數據相似度的計算提供更
明確的數據集合,節約計算的時間。

對通過不同方法得到的每個數據集合中的相鄰數據進行定義,為便于
表述,這里將位置在前數據的定為第一數據,將位置在后的數據定為第二
數據。

本實施例中對數據的定義方式不是唯一的,也可以將相鄰數據中位置
在前的數據定為第二數據,位置在后的數據定為第一數據。

102、計算第一數據和第二數據的相似度。

將步驟101中獲得的第一數據和第二數據進行相似度的計算,不同的
數據形式所用的計算方法不同。

本實施例中計算相似度的原理是通過比較第一數據和第二數據的相同
或相似的程度來定義相似度的。本步驟中計算相似度的目的在于找出重復
的第一數據和第二數據,相似度的計算結果用于為后續步驟中刪除重復數
據提供參考。

103、若第一數據和第二數據的相似度滿足預設的相似度閾值,則刪除
位置在后的第二數據。

本實施例中第一數據和第二數據的相同或相似的判定,是通過一個預
設的閾值來衡量的,不同形式數據對應的相似度閾值不同。

由步驟102獲得的相似度值與預設相似度閾值進行比較,若相似度滿
足其相應形式的預設閾值,則認為第一數據和第二數據相同或相似,兩者
互為重復數據,刪除位置在后的第二數據;若數據的相似度不滿足相似度
閾值,則認為第一數據和第二數據不相同或不相似,兩者不為重復數據,
保留第一數據和第二數據。

本實施例中刪除第二數據的目的在于刪除兩個相似度高的數據中的一
個數據,以達到數據“去重”的效果,并繼而實現摘要信息的提取。本實
施例僅要求將重復的第一數據和第二數據中的一者刪除即可,刪除第二數
據僅為本實施例提供的一種實現方式,實際應用中,也可以刪除位置在前
的第一數據。為避免混淆,本發明后續實施例將以刪除位置在后的第二數
據為例進行說明。

104、保留位置在前的第一數據,獲得摘要信息。

在步驟103刪除了位置在后的第二數據后,獲得的保留下來的位置在
前的第一數據。

在獲得第一數據后,重復執行步驟101至步驟104,對數據集合中剩余
的數據重新進行排序,區分第一數據和第二數據,并再次進行數據相似度
的計算和比較,刪除其中的重復數據。通過反復執行上述步驟101至步驟
104,將數據集合中所有重復的數據全部刪除,直至數據集合中不再存在任
何相同或相似的數據,即得到兩兩數據相似度閾值均滿足預設相似度的數
據集合,也就是提取得到了數據的摘要信息。不同形式的數據經過處理得
到不同形式的摘要形式。

本發明實施例提供的數據提取的方法,能夠通過計算機自動對數據進
行預處理,獲得第一數據和第二數據,并對第一數據和第二數據的相似度
進行計算,若兩者滿足相似度閾值,則說明第一數據和第二數據是重復的,
計算機自動刪除第二數據以達到剔除冗余數據,保留數據摘要信息的目的。
與現有技術相比,本發明實施例可以通過計算機處理快速得到數據摘要信
息,無需人工對原始數據進行查看比對、手動篩選,大大的減少了數據的
處理時間,能夠提高數據提取的效率。

進一步的,作為對圖1所示實施例的細化及擴展,本發明還提供了以
下不同實施例。

在本發明的一個實施例中,可以對文字、圖片及視頻格式的數據進行
摘要信息的提取,下面針對不同的數據格式,給出三種摘要信息提取的實
現方式。應當明確,以下實現方式中的具體公式、算法、參數僅為示例性
說明,不作為對實際應用的具體限制。

如圖2所示,針對文本格式的摘要信息的提取方式包括:

201、對文本數據進行分詞處理,獲得先后相鄰的兩個語句。

本實施例中對文本數據進行分詞處理包括,在分詞前對源文本數據根
據特征值分成不同集合的文本數據,然后對不同集合中的文本數據進行分
段處理和分句處理。

將得到的文本語句數據進行分詞處理,這里的分詞方法可以是正向最
大匹配法,就是按照從左至右的方式進行分詞。例如將“不知道你在說什
么”按照正向最大匹配法進行分詞就可以分為“不知道”、“你”、“在”、“說
什么”。本實施例中的分詞方法只是具體的實現方式的一種,在實際的應用
中也可以按照反向最大匹配法、最短路徑分詞法、雙向最大匹配法的方法
進行分詞。

將經過分詞處理得到的文本語句進行定義,為了方便敘述,將相鄰的
文本數據中位置在先的文本數據定為第一語句,將位置在后的文本數據定
為第二語句。

202、計算第一語句和第二語句的相似度。

本實施例中計算相似度的算法為最大公共子序列LCS算法,具體的實
現方式包括:

首先,將由步驟201獲得的第一語句與第二語句進行比對找出最大公
共子序列,也就是找出兩個語句最大連續相同的文本信息。

考慮到實際應用中存在兩個詞詞義相同但是文字表達不同的情況,例
如,“天安門廣場”和“廣場”,雖然在字面上判斷不相同,但在特定的環
境都代表了天安門廣場,應當認為是相同的詞;或者“高興”和“興奮”
也是同義詞的不同表述方式。

為了避免上述類似情況下錯判的發生,并保證相似度的計算精確度,
本實施例加入了同義詞庫。該同義詞庫是由不同領域專家總結的在不同實
際應用中同義詞的不同表達方式。

用基于同義詞庫的LCS算法對先后相鄰的兩個語句進行模糊匹配,找
出第一語句和第二語句的最大公共子序列。在基于同義詞庫的LCS算法對
先后相鄰的兩個語句進行模糊匹配的過程中,本實施例還提供了一種使用
名詞作為特征詞進行向前搜索的方法來匹配,該方法是考慮到在體現和表
達語句的含義時,名詞相比與動詞或其它詞性的詞具有更好的特征性。

然后,由得到的第一語句和第二語句的最大公共子序列進行相似度的
計算,輸出得到相似度值λ1

203、若第一語句和第二語句的相似度滿足預設的相似度閾值,則刪除
位置在后的第二語句。

本實施例中,文本數據的預設相似度閾值設為λT,將由步驟202得到
的相似度λ1與λT進行比對,若λ1>λT,則認為滿足預設相似度閾值,說明
第一語句和第二語句是重復的,計算機自動刪除第二語句以達到剔除冗余
文本數據的目的;若λ1≤λT,則認為不滿足預設相似度閾值,說明第一語
句和第二語句不相同或不相似,兩者不為重復語句,保留第一語句和第二
語句。

204、保留第一語句,得到文本摘要信息。

在步驟203刪除了位置在后的第二語句后,獲得的保留下來的位置在
前的第一語句。

在獲得第一語句后,重復執行步驟201至步驟204,對文本數據集合中
剩余的數據重新進行排序,區分第一語句和第二語句,并再次進行語句相
似度的計算和比較,刪除其中的重復語句。通過反復執行上述步驟201至
步驟204,將文本數據集合中所有重復的數據全部刪除,直至數據集合中不
再存在任何相同或相似的語句,即得到兩兩語句相似度閾值均滿足預設相
似度的數據集合,也就是提取得到了文本數據的摘要信息。

如圖3所示,針對圖片格式的摘要信息的提取方式包括:

301、按照預設的特征值對圖片數據進行分類,獲得多個圖片集合。

目前對圖片數據進行摘要信息提取時,是對所有的圖片中的數據進行
兩兩比對,考慮到現有方法一次處理數據對象數量大,計算的時間長,本
實施例中,提供了一種對圖片數據進行預處理的方法。該方法可以將所有
的圖片數據分成不同的數據集合,然后對每個集合中的圖片進行處理就可
以減少一次處理的數據,節省了時間。

具體的本發明實施例是通過一些固定的特征值,由計算機來對圖片數
據進行分類的。比如按地點對圖片數據分類,可以將圖片分成幾種不同地
點的數據集合。這些特征值在特定的情況下是固定的。當然,本實施例對
特征值的識別是基于圖片識別技術實現的。

在得到的不同集合的圖片數據中,反復抽取任意兩張圖片,得到第一
圖片和第二圖片。

302、計算第一圖片和第二圖片的相似度。

將步驟301得到的第一圖片和第二圖片進行相似度計算的方法為顏色
直方圖統計法。該方法的具體實現方式包括:

首先,對第一圖片和第二圖片中的所有像素點的顏色分別進行統計。
例如,一個圖片中由1000個像素點,通過統計得到紅色的像素點有300個,
綠色的像素點有300個,藍色的像素點有400個。

其次,實現第一圖片和第二圖片的直方圖均衡化,直方圖均衡化是通
過灰度變換將一幅圖片轉換為另一幅具有均衡直方圖,即在每個灰度級上
都具有相同的像素點數過程。對于黑白圖片用單通道的灰色圖像函數就行,
對于彩色圖片,可以把每個通道R、G、B分別均衡化,再合成為彩色圖
像。

最后,得到高斯分布圖,黑白圖片為一維高斯分布,彩色圖片為三維
高斯分布。本實施例中為了對比的快速性,刪除由第一圖片和第二圖片得
到的高斯分布中小于10%的部分,對剩下的部分進行匹配對比,計算得到
相似度λ2。

303、若第一圖片和第二圖片的相似度滿足預設的相似度閾值,則刪除
位置在后的所述第二圖片。

本實施例中,圖片數據的預設相似度閾值設為λU,將由步驟302得到
的相似度λ2與λU進行比對,若λ2>λU,則認為滿足預設相似度閾值,說明
第一圖片和第二圖片是重復的,計算機自動刪除第二圖片以達到剔除冗余
圖片數據的目的;若λ2≤λU,則認為不滿足預設相似度閾值,說明第一圖
片和第二圖片不相同或不相似,兩者不為重復圖片,保留第一圖片和第二
圖片。

304、保留第一圖片,得到圖片摘要信息。

在步驟303刪除了位置在后的第二圖片后,獲得的保留下來的位置在
前的第一圖片。

在獲得第一圖片后,重復執行步驟302至步驟304,對圖片數據集合中
剩余的數據再次進行圖片相似度的計算和比較,刪除其中的重復圖片。通
過反復執行上述步驟302至步驟304,將圖片數據集合中所有重復的圖片全
部刪除,直至圖片集合中不再存在任何相同或相似的圖片,即得到兩兩圖
片相似度閾值均滿足預設相似度的數據集合,也就是提取得到了圖片數據
的摘要信息。

如圖4所示,針對視頻格式的摘要信息的提取方式包括:

401、對視頻數據進行幀分割,獲得視頻幀序列,從視頻幀序列中抽取
任意相鄰的兩個視頻幀。

本實施例中,在幀分割之前先對全部的視頻進行人工去重處理,即對
內容基本一致的視頻只保留其中一個視頻,刪除多余的重復數據。然后對
剩余的內容不同的視頻進行幀分割,獲得視頻幀序列,并從中去抽取任意
相鄰的兩個幀,為后面的相似度計算作準備。

將經過幀分割處理得到的視頻幀進行定義,為了方便敘述,將相鄰的
視頻幀中位置在先的視頻幀數據定為第一幀,將位置在后的視頻幀數據定
為第二幀。

402、計算第一幀和第二幀的相似度。

本實施例中是通過幀差法來計算兩個視頻幀的相似度的。幀差法通常
是用來將運動目標從背景圖像中提取出來的一種方法,原理是在圖像序列
相鄰兩幀或三幀間采用基于像素的時間差分通過閉值化來提取出圖像中的
運動區域。考慮幀差法是依據視頻中背景圖像的基本不變來找出變化區域,
因此,本實施例就運用幀差法這一原理就可以找到背景相同或相似的幀,
從而刪除視頻中重復相同的幀。具體的實現方式如下:

首先,步驟401獲得的第一幀和第二幀進行處理,得到他們的像素值。
若為黑白圖片他們的灰度值就是其像素值,若為彩色圖片,則需要對其先
進性灰度化處理,分別得到R、G、B三維空間上的灰度值,來構成其像素
值;

其次,對比第一幀和第二幀的對應點的像素值的變化,得到差分圖像,
將差分圖像再進行二值化處理;

最后,根據處理過的差分圖像來計算第一幀和所述第二幀的相似度
λ3。

403、若第一幀和第二幀的相似度滿足預設的相似度閾值,則刪除位置
在后的第二幀。

本實施例中,視頻數據的預設相似度閾值設為λV,將由步驟402得到
的相似度λ3與λV進行比對,若λ3>λV,則認為滿足預設相似度閾值,說明
第一幀和第二幀是重復的,計算機自動刪除第二幀以達到剔除冗余視頻幀
數據的目的;若λ2≤λU,則認為不滿足預設相似度閾值,說明第一幀和第
二幀不相同或不相似,兩者不為重復幀,保留第一幀和第二幀。

404、保留第一幀,得到視頻摘要信息。

在步驟403刪除了位置在后的第二幀后,獲得的保留下來的位置在前
的第一幀。

在獲得第一幀后,重復執行步驟402至步驟404,對各視頻數據中剩余
的視頻幀再次進行幀相似度的計算和比較,刪除其中的重復幀。通過反復
執行上述步驟402至步驟404,將視頻數據中所有重復的幀全部刪除,直至
視頻數據中不再存在任何相同或相似的幀,即得到相鄰兩兩幀相似度閾值
均滿足預設相似度的數據集合,也就是提取得到了視頻數據的摘要信息。

在上述圖2至圖4所示的實現方式中各相似度值的范圍均為
λ1,λ2,λ3,λT,λU,λV∈[0,1]。

進一步的,作為對上述圖1至圖4所示流程的補充,考慮到本實施例
得到的摘要信息可能不準確,為保證該數據提取方法的準確性,本實施例
提供了一種評估方法。如圖5所示,包括:

501、將得到的摘要信息與標準摘要信息進行比對。

將由步驟204、步驟304和步驟404得到的摘要信息和標準摘要信息分
別轉化為第一語義序列和第二語義序列。為了方便表述,定義第一語義序
列為X,第二語義序列為Y。本實施例中,標準摘要信息是指由幾個專家
提取出的摘要信息。

運用最大公共子序列LCS算法計算X與Y的最大公共子序列得到Z,
然后根據公式來評估摘要信息的準確性。其中len(Z)、len(X)分別
表示序列Z和序列Y的長度。

502、若獲得的比值達到預設比例閾值,則確定摘要信息的準確度達到
預設要求。若摘要信息的準確度未達到預設要求,則對相似度閾值進行調
整。基于調整后的相似度閾值對再次進行相似度計算。

將由步驟501得到的比值γ與預設的比例閾值對比,來判斷摘要信息提
取的準確度,本實施例中預設比例閾值的范圍是[0,1],若γ與預設值的差值
較小,在一個設定的范圍之內則認為滿足預設要求,提取的摘要信息準確;
若γ與預設值的差值較大,在一個設定的范圍之外就認為提取的摘要信息不
準確,需要重新調整步驟203、步驟303和步驟403中預設的相似度閾值
λT,λU,λV。

對重新調整得到的λT,λU,λV再重復執行步驟203步和驟204、步驟303
和步驟304、步驟403和步驟404,步驟501和步驟502,對各種不同形式
數據進行摘要的重提取和評估,直到γ滿足預設要求為止。

進一步的,在本實施例的一個應用場景中,上述各實施例中提到的數
據具體可以是節日主題數據,包括:節日名稱、地點、日期等數據。例如,
對于文本數據而言,節日主體數據可以是:“肉孜節”、“古爾邦節”、“河邊”、
“廣場”等;對于圖片數據而言,節日主題數據可以是:“節日會場的整體
圖”“人們圍坐一起游戲圖”“象征不同節日的吉祥物圖”等;對于視頻數
據而言,節日主題數據可以是:“節日儀式流程”“各類節目表演”等。

進一步的,作為對上述圖1至圖5所示方法的實現,本發明另一實施
例還提供了一種數據提取的裝置,用于對上述圖1至圖5所示的方法進行
實現。如圖6所示,該裝置包括:處理單元61、計算單元62以及刪除單元
63;其中,

處理單元61,用于對數據進行預處理,獲得位置在前的第一數據和位
置在后的第二數據;

計算單元62,用于計算處理單元61獲得的第一數據和第二數據的相似
度;

刪除單元63,用于當計算單元62計算的第一數據和第二數據的相似度
滿足預設的相似度閾值時,刪除位置在后的第二數據,保留位置在前的第
一數據,獲得摘要信息。

進一步的,處理單元61處理的數據包括文本數據、圖片數據及視頻數
據。

進一步的,處理單元61處理的數據為文本數據,處理單元61用于:

對文本數據進行分詞處理,獲得先后相鄰的兩個語句;

計算單元62用于:

通過最大公共子序列LCS算法計算先后相鄰的兩個語句的相似度;

刪除單元63用于:

當先后相鄰的兩個語句的相似度大于λT時,刪除位置在后的語句。

進一步的,計算單元62用于基于同義詞庫對先后相鄰的兩個語句的相
似度進行模糊匹配。

進一步的,處理單元61處理的數據為圖片數據,處理單元61用于:

按照預設的特征值對圖片數據進行分類,獲得多個圖片集合;

針對每個圖片集合,從中反復抽取任意兩張圖片;

計算單元62用于:

通過顏色直方圖計算抽取的兩張圖片的相似度;

刪除單元63,用于當相似度閾值大于λu時,刪除位置在后的第二數據。

進一步的,處理單元61處理的數據為視頻數據,處理單元61用于:

對視頻數據進行幀分割,獲得視頻幀序列;

從視頻幀序列中抽取任意相鄰的兩個視頻幀;

計算單元62用于:

通過幀差法計算第一數據和第二數據的相似度;

刪除單元63,用于當第一數據和第二數據的相似度大于λV時,刪除位
置在后的視頻幀。

進一步的,如圖7所示,該裝置進一步包括:

比對單元64,用于在刪除單元63保留位置在前的第一數據,獲得摘要
信息之后,將刪除單元63獲得的摘要信息與標準摘要信息進行比對,獲得
摘要信息是否準確的評估結果;

調整單元65,用于當比對單元64獲得的摘要信息的準確度未達到預設
要求時,對計算單元62使用的相似度閾值進行調整;

計算單元62,用于基于調整后的相似度閾值對再次進行相似度計算。

進一步的,如圖7所示,比對單元64包括:

轉化模塊641,用于將刪除單元63獲得的摘要信息和標準摘要信息分
別轉化為第一語義序列和第二語義序列;

計算模塊642,用于計算轉化模塊641轉化的第一語義序列和第二語義
序列的最大公共子序列,計算最大公共子序列與第二語義序列的比值;

確定模塊643,用于當計算模塊642計算的比值達到預設比例閾值時,
則確定摘要信息的準確度達到預設要求。

進一步的,處理單元61處理的數據為節日主題數據。

本實施例提供的數據提取的裝置,能夠通過計算機自動對數據進行預
處理,獲得第一數據和第二數據,并對第一數據和第二數據的相似度進行
計算,若兩者滿足相似度閾值,則說明第一數據和第二數據是重復的,計
算機自動刪除第二數據以達到剔除冗余數據,保留數據摘要信息的目的。
與現有技術相比,本實施例可以通過計算機處理快速得到數據摘要信息,
無需人工對原始數據進行查看比對、手動篩選,大大的減少了數據的處理
時間,能夠提高數據提取的效率。

在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒
有詳述的部分,可以參見其他實施例的相關描述。

可以理解的是,上述方法及裝置中的相關特征可以相互參考。另外,
上述實施例中的“第一”、“第二”等是用于區分各實施例,而并不代表各實施
例的優劣。

所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述
描述的系統,裝置和單元的具體工作過程,可以參考前述方法實施例中的
對應過程,在此不再贅述。

在此提供的算法和顯示不與任何特定計算機、虛擬系統或者其它設備
固有相關。各種通用系統也可以與基于在此的示教一起使用。根據上面的
描述,構造這類系統所要求的結構是顯而易見的。此外,本發明也不針對
任何特定編程語言。應當明白,可以利用各種編程語言實現在此描述的本
發明的內容,并且上面對特定語言所做的描述是為了披露本發明的最佳實
施方式。

在此處所提供的說明書中,說明了大量具體細節。然而,能夠理解,
本發明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中,
并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。

類似地,應當理解,為了精簡本公開并幫助理解各個發明方面中的一
個或多個,在上面對本發明的示例性實施例的描述中,本發明的各個特征
有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將
該公開的方法解釋成反映如下意圖:即所要求保護的本發明要求比在每個
權利要求中所明確記載的特征更多的特征。更確切地說,如下面的權利要
求書所反映的那樣,發明方面在于少于前面公開的單個實施例的所有特征。
因此,遵循具體實施方式的權利要求書由此明確地并入該具體實施方式,
其中每個權利要求本身都作為本發明的單獨實施例。

本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行
自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中。
可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及
此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或
過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明
書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開
的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本
說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提
供相同、等同或相似目的的替代特征來代替。

此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括
其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征
的組合意味著處于本發明的范圍之內并且形成不同的實施例。例如,在下
面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合
方式來使用。

本發明的各個部件實施例可以以硬件實現,或者以在一個或者多個處
理器上運行的軟件模塊實現,或者以它們的組合實現。本領域的技術人員
應當理解,可以在實踐中使用微處理器或者數字信號處理器(DSP)來實現
根據本發明實施例的發明名稱(如確定網站內鏈接等級的裝置)中的一些
或者全部部件的一些或者全部功能。本發明還可以實現為用于執行這里所
描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和
計算機程序產品)。這樣的實現本發明的程序可以存儲在計算機可讀介質
上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網網
站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。

應該注意的是上述實施例對本發明進行說明而不是對本發明進行限
制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出
替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成
對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步
驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發明
可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實
現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通
過同一個硬件項來具體體現。單詞第一、第二、以及第三等的使用不表示
任何順序。可將這些單詞解釋為名稱。

關 鍵 詞:
數據 提取 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:數據提取的方法及裝置.pdf
鏈接地址:http://www.wwszu.club/p-6401437.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大