鬼佬大哥大
  • / 22
  • 下載費用:30 金幣  

一種監控視頻人物前景分割與分類的方法.pdf

摘要
申請專利號:

CN201410108137.9

申請日:

2014.03.21

公開號:

CN103985114A

公開日:

2014.08.13

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06T 7/00申請日:20140321|||公開
IPC分類號: G06T7/00 主分類號: G06T7/00
申請人: 南京大學
發明人: 郭延文; 繆麗姬; 夏元軼
地址: 210000 江蘇省南京市棲霞區仙林大道163號南京大學
優先權:
專利代理機構: 江蘇圣典律師事務所 32237 代理人: 胡建華
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201410108137.9

授權公告號:

||||||

法律狀態公告日:

2016.08.24|||2014.09.10|||2014.08.13

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種監控視頻人物前景分割與分類方法,包括了以下步驟:1)提取監控視頻的人物前景,采用了混合高斯模型的方法分割前景和背景,并將前景人物用包圍盒表示,形成前景人物小視頻。2)前景特征提取,對小視頻提取關鍵幀,將前景占有面積比率適中,前景外形和顏色完整的幀,選擇作為關鍵幀,對關鍵幀提取多個特征。3)特征融合并分類,根據特征將汽車等非人物前景分類出來,對于人物特征采用典型相關系數特征融合方法學習出子空間,將特征投影到具有更好的類特征的子空間,對投影后的特征采用不同的聚類方法,進而將外形顏色類似的前景人物分成同一類。

權利要求書

權利要求書
1.  一種監控視頻人物前景分割與分類的方法,其特征在于,包括以下步驟: 
步驟1,分離監控視頻的前景和背景:采用混合高斯模型分離監控視頻的前景和背景,并將每個前景用能完全包圍前景的最小包圍盒包圍起來,形成獨立的前景小視頻; 
步驟2,提取前景小視頻的特征:將前景小視頻提取一組關鍵幀,對每個前景記錄面積和移動速度兩個特征,進行人物分類之前先將汽車前景分類,對人物前景的關鍵幀進行膨脹和腐蝕操作后,對每個關鍵幀提取顏色直方圖、局部二值特征和詞袋特征; 
步驟3,特征融合與分類:對得到的每個前景的面積和速度設置閾值,分類出汽車得到人物前景;對人物前景提取顏色直方圖特征、局部二值特征和詞袋特征,采用典型相關系數的方法對所述三個特征進行無監督的特征融合,得到一個區分不同類的空間T,將三個特征投影到空間T,對投影后的顏色直方圖特征做最低秩子空間聚類,對投影后的LBP和BOW特征做K-means聚類,并根據聚類的結果對前景人物小視頻進行分類。 

2.  如權利要求1所述的一種監控視頻人物前景分割與分類的方法,其特征在于,步驟1包括以下步驟: 
步驟1-1,初始化高斯模型:讀取監控視頻的第一幀圖像,為圖像中每個像素點構建一個含有K個高斯模型的混合高斯模型,K取值范圍3~5,用K個高斯模型表示監控視頻中每幀圖像中每個像素j在時刻t的值xj,像素j在時刻t取值xj的概率P(xj)可以由下式確定: 

其中代表t時刻像素j的混合高斯模型中第i個高斯分量的權重,滿足:和分別代表t時刻像素j的第i個高斯分量的均值和協方差,表示高斯概率密度函數,表示如下: 

其中d為xj的維數,對于RGB顏色空間,每個像素有3個通道,xj為三維向量,其中協方差矩陣其中表示在t時刻像素j的第i個高斯模型方差,初 始化時值為代表單位矩陣,初始化階段,每個高斯分布的權重ωinit=1/K, 
步驟1-2,更新高斯模型:繼續讀取監控視頻,每讀取監控視頻的一幀圖像就對混合高斯模型做更新;將混合高斯模型中的每個高斯成分按照由大到小排序,當前讀取的新幀的像素值xj,t+1若與混合高斯模型中第i個高斯模型滿足下列式子: 

則更新第i個高斯成分,其余高斯成分保持不變,且像素點xj,t+1在當前幀中被認為是背景部分像素,參數δ為匹配閾值,δ取值范圍1~2,更新第i個高斯成分的計算方法如下: 




其中α是混合高斯模型的學習率,取值范圍0~1,ρ為參數α的學習率;如果像素xj,t+1與K個高斯成分都不匹配的,則判定這一像素點是當前幀的前景像素,構造新的高斯成分取代排序靠后的高斯成分,新的高斯成分的均值設為像素xj,t+1的值,標準差和權重分別設置為σinit和ωinit,保留的高斯成分的均值和方差保持不變,權重值則按照下式更新: 

步驟1-3,完成視頻前景和背景分割工作:像素xj,t+1的K個高斯成分更新后,對K個高斯成分的權重進行歸一化,重復前面的步驟1-1和1-2保留每幀圖像中的前景像素,直至監控視頻讀取結束,得到同原始監控視頻同樣分辨率的顯示前景而不顯示背景的視頻; 
步驟1-4,提取包圍前景人物視頻的最小包圍盒:讀取步驟1-3中得到的監控視頻, 對每幀圖像先進行膨脹和腐蝕操作,再逐行掃描圖像,記錄圖像中像素值不為0的像素構成的矩形的長l和寬w,對于同一個人物前景,每一幀的包圍盒都有長l和寬w,選擇所有幀中最長的l和w,作為該人物前景的包圍盒,由此得到包圍人物前景視頻的小視頻。 

3.  如權利要求2所述的一種監控視頻人物前景分割與分類的方法,其特征在于,步驟2包含下列步驟: 
步驟2-1,提取人物前景的關鍵幀:固定選取人物視頻中間F幀f1,f2,...,fF圖像作為關鍵幀,F取20~40; 
步驟2-2,提取顏色直方圖信息:對F幀f1,f2,...,fF圖像人物區域提取顏色特征直方圖,設顏色直方圖的柱狀分區共有mc個,計算圖像fi中像素點p三個顏色通道RGB值對應的柱狀分區id,i取1~F,R代表紅色通道值,G代表綠色通道值,B代表藍色通道值,公式如下: 

統計每個柱狀分區id中像素點的個數,得到圖像fi的顏色直方圖,顏色直方圖最終表示為長度為mc的向量υc,對所有關鍵幀重復本步驟,直到得到mc×F的矩陣M1; 
步驟2-3,提取局部二值特征:計算F幀f1,f2,...,fF圖像的局部二值特征,先將圖像fi灰度化,設局部二值特征LBP算子的半徑為r,r取3或4或5,用r*r的窗口在圖像中移動,每移動一個像素位置就計算一次窗口中心像素pcenter的LBP值,計算方法如下:將與中心像素pcenter相鄰的r*r個像素分別與中心像素pcenter的值進行比較,相鄰像素值大于中心像素pcenter,則該像素的位置被標記為1,否則被標記為0,由此得到r*r-1位二進制數,最終窗口移動到最后一個中心像素位置時得到了整個圖像的LBP特征,再將圖像的LBP特征用柱狀圖表示,設LBP柱狀圖分區有ml個,將柱狀圖每個分量的高度值串聯起來,得到最終的局部二值特征,即長度為ml的向量υ1,對所有的關鍵幀重復本步驟,直到得到ml×F的矩陣M2; 
步驟2-4,提取詞袋特征:首先計算F幀f1,f2,...,fF圖像的尺度旋轉不變特性sift特征點,設詞袋模型中單詞表長度為mb,采用K-means聚類方法將詞義相近的sift特征點合并得到mb個類,類中心構成詞袋的單詞表,再重新用單詞表中的詞匯代替每一幀圖像中的每個尺度不變特性轉換sift特征點,統計單詞表中每個詞匯對應sift特征點 個數,則最終得到圖像fi的每個詞匯的頻度,即長度為mb的向量υb,對所有關鍵幀重復本步驟,直到得到mb×F矩陣M3; 
步驟2-5,提取面積特征與速度特征:計算F幀f1,f2,...,fF圖像中每一幀圖像的前景的面積s1,s2,...,sF與速度υ1,υ2,...,υF-1,前景的面積也即前景中非0的像素個數,取F個圖像前景面積的平均值作為該前景的面積值s,前景速度由前景的矩形包圍框的中心位置在原始監控視頻中的位移決定,每兩幀圖像的包圍框中心位置確定一個位移,F幀圖像計算得到F-1個速度,取速度的中值作為該前景的速度v。 

4.  如權利要求3所述的一種監控視頻人物前景分割與分類的方法,其特征在于,步驟3包含下列步驟: 
步驟3-1,設置前景面積和速度的閾值,面積閾值areathersh=800pixel,速度閾值speedthersh=25pixel/image,pixel表示像素,image表示圖像,面積特征超過面積閾值的前景劃分為汽車類別,面積特征沒有超過面積閾值時,若前景速度特征超過速度閾值,前景劃分為汽車類別,否則前景劃分為人物類別; 
步驟3-2,統一數據維度:將步驟2得到的對于F個圖像的顏色直方圖矩陣mc×F,局部二值特征矩陣ml×F和詞袋特征矩陣mb×F,調用主成分分析PCA方法,降低到統一維度m,所有的特征向量矩陣變為m×F; 
步驟3-3,特征融合:設存在矩陣T維度為m×n,三個特征向量矩陣M1、M2、M3投影到矩陣T所在空間中,同類的空間向量在矩陣T所在空間的投影距離近,不同類的空間向量在矩陣T所在空間中的投影距離很遠的特性,初始化T為單位向量矩陣,迭代的更新矩陣T的內容,具體迭代過程如下: 
3-3-1,對矩陣M1,M2,M3進行矩陣正三角分解并更新矩陣Mi:
3-3-2,對每一對矩陣M′i,M′j進行矩陣奇異值分解:
3-3-3,求解矩陣T:計算矩陣計算矩陣A的特征向量λ為矩陣A中特征向量ti的特征值,將ti按照從大到小的順序排序構成矩陣T,即TT{t1,t2,...,tn},這里矩陣A的不 同特征向量個數確定了n的大小; 
重復步驟3-3-1~3-3-3直至T收斂為止,其中i取值范圍1~3,TT表示矩陣T的轉置矩陣,M′i表示Mi的逆矩陣,表示Mi的逆轉置矩陣,φ表示矩陣正三角分解后的正交矩陣,Δi則是矩陣正三角分解后的上三角矩陣,表示Δi的逆矩陣,Qij表示矩陣奇異值分解的酉矩陣,T的列維度n由矩陣A確定; 
步驟3-4,前景視頻分類:將特征向量矩陣M1,M2,M3投影到T所在的空間中,即Mi=TTMi,i取1~3,得到新的特征向量矩陣M1,M2,M3; 
步驟3-5,顏色直方圖特征聚類:顏色矩陣M1采用最低秩子空間聚類方法計算出每幀圖像之間的相似度w,構造圖image,將所有的前景圖像作為結點,圖像之間的相似度w作為權重,然后采用譜聚類Ncut方法對圖image進行分割,從而完成對圖像的分類,相似度w的計算方法如下: 
3-5-1,初始化參數λ0,相關性矩陣Z,相關性矩陣Z的等價矩陣J=0,Z=J,噪聲糾正矩陣E=0,拉格朗日矩陣Y1=0,Y2=0,拉格朗日懲罰參數μ=10-6,最大拉格朗日懲罰參數maxμ=1010,拉格朗日懲罰參數倍數ρ0=1.1,常數ε=10-8; 
3-5-2,計算M1每列數據的相關性矩陣等價矩陣J:固定其他矩陣更新矩陣J, 
3-5-3,計算M1每列數據的相關性矩陣Z:固定其他矩陣更新矩陣Z,Z=(I+M1tM1)-1(M1tM1-M1tE+J+(M1tY1-Y2)/μ); 
3-5-4,計算噪聲糾正矩陣E:固定其他矩陣更新矩陣E,
3-5-5,計算拉格朗日矩陣Y1,Y2:更新矩陣Y1,Y2,Y1=Y1+μ(M1-M1Z-E),Y2=Y2+μ(Z-J); 
3-5-6,更新拉格朗日懲罰參數μ,μ=min(ρ0μ,maxμ); 
3-5-7,判斷迭代是否結束:檢查||M1-M1Z-E||∞<ε,||Z-J||∞<ε是否成立, 若成立則迭代結束,否則繼續迭代; 
其中||||*代表核范數,||||F代表弗羅貝尼烏斯范數,||||∞代表最大范數,min(A,B)代表返回A和B中較小值,上述的迭代過程得到矩陣Z,則矩陣Z中的元素Zi,j、Zj,i之和代表圖像i、j之間的相似值,構建無向圖image,圖像i代表圖image的結點,圖像i、j之間的相似性值代表結點i與結點j之間的權重,采用譜聚類Ncut方法來對圖image進行分割從而實現對多個前景關鍵幀之間的分類; 
步驟3-6,局部二值特征以及詞袋特征聚類:對矩陣M2,M3采用K-means方法進行聚類; 
步驟3-7,對結果進行集成學習:由步驟3-5,3-6,3-7得到三個特征下每一幀圖像所屬的類別Ci,利用三個類別信息投票確定每一幀圖像的類別,從而所有的關鍵幀Fi都可以確定其類別信息,計算前景視頻υi與υj之間的相似度
對于前景視頻υi,若其同υj之間的相似度比同其他的視頻的相似度高,則υi同υj劃分為同一類。 

說明書

說明書一種監控視頻人物前景分割與分類的方法
技術領域
本發明涉及到一種監控視頻人物前景分割與分類的方法,屬于計算機視頻、機器學習技術等領域。 
背景技術
現代生活在帶給人們便利的同時也帶來了一些安全隱患,為了消除這些隱患采取了多種措施,各個角落的監控視頻就是諸多措施中的一種,但是在發生不安全事件時,面對數量龐大的監控視頻,檢查人員往往需要花費很長的時間搜尋不安全目標,影響了消除不安全事件的效率,現在有一些手段可以從時間和空間兩個角度縮短監控視頻,縮短沒有意義的部分所占視頻的比重,這樣做雖然能有效的減少瀏覽沒有意義的視頻的時間,但是還是需要在多個監控視頻中辨別出目標,而且目前很多對前景分類的研究主要圍繞的是對前景的種類進行分類,而正常情況下各種不安全隱患是由人造成的,比如將前景分成各式車輛與人物、分成植物,動物與建筑等等,很少有對人物前景進行分類的研究,前景種類分類的研究主要采用的是監督方法,變換場景后通常還需要采集新場景數據訓練耗費較大,而無監督的人物前景分類將會有力縮短搜索范圍,大大減少查看監控視頻的時間提高工作效率,監控視頻前景人物分類研究成為一個有重大意義的研究問題。 
傳統的監控視頻前景分類主要采用監督學習的方法劃分前景的種類,適合用于范圍較大的監控場景應用中,但是對于小范圍的前景主要是人的監控場景分類則很少有相關研究,而且監督學習需要進行大量的學習準備工作較大,在本發明中采用了分割監控視頻前景和背景并提取關鍵幀的多個特征并用無監督典型相關系數融合特征,采用最低秩聚類方法,給出視頻的分類結果。 
發明內容
發明目的:本發明所要解決的技術問題是針對現有研究的不足,提供一種監控視頻人物前景的分類與分割方法,從而提高檢閱監控視頻的效率。 
技術方案:本發明公開了一種監控視頻人物前景分割與分類的方法,該方法的特征在于能夠短時間內瀏覽同一人物不同場景中的視頻,具體包括以下步驟: 
1、分離監控視頻的前景和背景:一般而言監控視頻的前景指的是活動的事物, 通常為人或車,而監控視頻的背景指的是視頻中靜止的景物。采用混合高斯模型將監控視頻的前景和背景分離出來,并將每個前景用能完全包圍住前景的最小包圍盒包圍起來,形成獨立的前景小視頻。步驟1前景和背景分割的詳細步驟如下: 
步驟1-1,初始化高斯模型:讀取視頻的第一幀圖像,為圖像中每個像素點構建一個含有K個高斯模型的混合高斯模型,K取值范圍3~5,像素j在時刻t取值xj的概率P(xj)可以由這K個高斯模型表示:其中代表t時刻像素j的混合高斯模型中第i個高斯分量的權重,滿足:和代表t時刻像素j的第i個高斯分量的均值和協方差,表示高斯概率密度函數,表示如下: 
N(xj,uj,ti,Σj,ti)=12πd2|Σj,ti|12exp[-12(xj-uj,ti)T(Σj,ti)-1(xj-uj,ti)],]]>
其中d為xj的維數,對于RGB顏色空間,每個像素有3個通道,xj為三維向量,其中協方差矩陣其中表示在t時刻像素j的第i個高斯模型方差,初始化時值為I代表單位矩陣,初始化階段,每個高斯分布的權重σinit2=900;]]>
步驟1-2,更新高斯模型:繼續讀取監控視頻,每讀取監控視頻的一幀圖像就對混合高斯模型做更新,將混合高斯模型中的每個高斯成分按照由大到小排序,當前讀取的新幀的像素值xj,t+1若與混合高斯模型中第i個高斯模型滿足下列式子: 
|xj,t+1-uj,ti|δ*σj,ti]]>
則更新第i個高斯成分,其余高斯成分保持不變,判定像素點xj,t+1在當前幀中是背景部分像素,參數δ為匹配閾值,δ取值范圍1~2,更新第i個高斯成分的計算方法如下: 
ωj,t+1i=(1-α)ωj,ti+α]]>
uj,t+1i=(1-ρ)uj,ti+ρxj]]>
(σj,t+1i)2=(1-ρ)(σj,ti)2+ρ(xj-uj,ti)T(xj-uj,ti)]]>
ρ=αωj,ti]]>
其中α是高斯混合模型的學習率,取值范圍0~1,ρ為參數α的學習率;如果像素xj,t+1與K個高斯成分都不匹配的,則判定這一像素點是當前幀的前景像素,構造新的高斯成分取代排序靠后的高斯成分,新的高斯成分的均值設為像素xj,t+1的值,標準差和權重分別設置為σinit和ωinit,保留的高斯成分的均值和方差保持不變,權重則按照下式更新: 
ωj,t+1i=(1-α)ωj,ti]]>
步驟1-3,完成視頻前景和背景分割工作:像素xj,t+1的K個高斯成分更新參數后,對K個高斯成分的權重進行歸一化,重復前面步驟1-1和1-2,保留每幀圖像中的前景像素,直至監控視頻讀取結束,得到同原始監控視頻同樣分辨率的顯示前景而不顯示背景的視頻; 
步驟1-4,提取包圍前景人物視頻的最小包圍盒:讀取步驟1-3中得到的監控視頻,對每幀圖像先進行膨脹和腐蝕操作,從而消除圖像中的噪聲,再逐行掃描圖像,記錄圖像中像素值不為0的像素構成的矩形的長l和寬w,因為前面步驟1-2得到的視頻背景像素值為0,所以像素值非0的代表該像素為前景,對于同一個人物前景每一幀的包圍盒都有長l和寬w,選擇所有幀中最長的l和w,作為該人物前景的包圍盒由此得到包圍人物前景視頻的小視頻。 
2、提取前景小視頻的特征:將前景小視頻提取一組關鍵幀,考慮到監控視頻移動前景中主要包含人與車輛,而本發明的主要目的是為了進行人物的分類,因而對每個前景記錄面積和移動速度兩個特征,在進行人物分類之前先將汽車前景分類出來,人物的外形和顏色信息對于區分不同的人物很重要,所以在進行膨脹和腐蝕操作之后,對每個人物前景關鍵幀提取顏色直方圖特征、局部二值特征和詞袋這三個有關顏色和形狀的特征。步驟2前景人物特征提取詳細步驟如下: 
步驟2-1,提取人物前景的關鍵幀:固定選取人物視頻中間F幀f1,f2,...,fF圖像作為關鍵幀,F可取20~40,選取中間F幀是因為人物小視頻中間一組幀較之開始幀和結束幀更完整的展現了人物的外形與顏色,且人物前景占視頻的面積大小適中; 
步驟2-2,提取顏色直方圖信息:對F幀f1,f2,...,fF人物部分區域提取顏色特征直方圖,設顏色直方圖的柱狀分區共有mc個,計算圖像fi中像素點p三個顏色通道RGB 值對應的柱狀分區id,i取1~F,R代表紅色通道值,G代表綠色通道值,B代表藍色通道值,公式如下: 
id=R256+G256mc23+B256mc13,]]>
統計每個柱狀分區id中像素點的個數得到fi的顏色直方圖,顏色直方圖最終表示為長度為mc的向量υc,對所有關鍵幀重復本步驟得到mc×F的矩陣M1; 
步驟2-3,提取局部二值即Local Binary Pattern特征,簡稱LBP特征:計算F幀f1,f2,...,fN圖像的局部二值特征,先將圖像fi灰度化,設局部二值LBP算子的半徑為r,r取3或4或5,用r*r的窗口在圖像中移動,每移動一個像素位置就計算一次窗口中心像素pcenter的LBP值,計算方法如下:將與中心像素pcenter相鄰的r*r個像素分別與中心像素pcenter的值進行比較,相鄰像素值大于中心像素pcenter,則該像素的位置被標記為1,否則被標記為0,由此得到r*r-1位二進制數,最終窗口移動到最后一個中心像素位置時得到了整個圖像的局部二值LBP特征,再將圖像的局部二值LBP特征用柱狀圖表示;設局部二值LBP特征柱狀圖分區有ml個,將柱狀圖每個分量的高度值串聯起來得到最終的局部二值特征即:長度為ml的向量υ1,對所有的關鍵幀重復本步驟,直到得到ml×F的矩陣M2; 
步驟2-4,提取詞袋即bag of words特征,簡稱BOW特征:首先計算F幀f1,f2,...,fF的尺度旋轉不變性sift特征點(參考文章:object recognition from local scale-invariant features),設詞袋bag of words模型中單詞表長度為mb,采用K-means聚類方法,K-means聚類中心為64,將詞義相近的sift特征點合并得到mb個類,類中心構成詞袋BOW的單詞表,即用聚類中心代替每一幀中每個sift特征點,統計所有單詞每個詞匯對應sift特征點個數,則最終得到圖像fi的每個詞匯的頻度,即長度為mb的向量υb。對所有關鍵幀重復本步驟,直到得到mb×F矩陣M3; 
步驟2-5,提取面積與速度特征。計算F幀f1,f2,...,fF圖像中每一幀圖像的前景的面積s1,s2,...,sF與速度υ1,υ2,...,υF-1,前景的面積也即前景中非0的像素個數,取F個圖像前景面積的平均值作為該前景的面積值s,前景速度由前景的矩形包圍框的中心位置在原始監控視頻中的位移決定,F幀圖像計算得到F-1個速度,取速度的中值作為該前景的速度v。 
3、特征融合與分類:先將前景中的汽車分類出來,一般監控視頻中出現的前 景通常分為兩大類即汽車與人物,同一鏡頭記錄的前景視頻的中間時間軸上一組圖像對鏡頭的透視效果有很好的魯棒性,人物前景視頻中間一組幀的人物前景面積通常遠遠小于汽車前景視頻中間一組幀中汽車前景的面積,人物前景的速度通常情況下也遠小于汽車前景的移動速度,對得到的每個前景面積和速度根據設定的閾值分類出汽車;再對分類得到的人物前景提取顏色直方圖特征、局部二值特征以及詞袋特征,再采用典型相關系數的方法進行無監督特征融合,得到一個區分不同類別的空間T,將三個特征矩陣投影到空間T,對投影后的顏色特征做最低秩子空間聚類,對投影后的LBP和BOW特征做K-means聚類,根據聚類結果對前景人物小視頻進行分類,步驟3監控視頻的前景人物分類詳細步驟如下: 
步驟3-1,設置前景面積和速度的閾值,通常情況下汽車的速度與面積數值比人物前景的對應的速度與面積數值要大,而鏡頭記錄下的前景物體軌跡或者由遠及近或者由近及遠,中間的圖像大小通常情況下受到透視效果影響較小,這里面積閾值areathresh=800pixel,速度閾值speedthresh=25pixel/image,pixel表示像素,image表示圖像,面積超過面積閾值的前景劃分為汽車類別,面積特征沒有超過面積閾值時,若前景速度特征超過速度閾值,則前景劃分為汽車類別否則劃分為人物類別; 
步驟3-2,統一數據維度:將步驟2得到的對于F個圖像的顏色直方圖矩陣mc×F,LBP特征矩陣ml×F和BOW特征矩陣mb×F,調用主成分分析Principal Component Analysis(參考文章:On Lines and Planes of Closest Fit to Systems of Points in Space),降低到統一維度m,所有的特征向量矩陣變為m×F; 
步驟3-3,特征融合:設存在矩陣T維度為m×n,n由下面的矩陣A確定,三個特征向量矩陣M1,M2,M3投影到矩陣T所在空間中,能夠呈現出同類的空間向量在空間T中的投影距離很近,而不同類的空間向量在空間T中的投影距離很遠的特性,初始化T為單位向量,迭代的更新矩陣T的內容,具體迭代過程如下: 
3-3-1.對矩陣M1,M2,M3進行矩陣正三角分解并更新矩陣 Mi:TTMi=φΔi,Mi=MiΔi-1,]]>i取1~3; 
3-3-2.對每一對M′i,M′j進行矩陣奇異值分解:
3-3-3.求解矩陣T,計算矩陣A=Σk1=13Σk2=13(Mk1Qk1k2-Mk2Qk2)(Mk1Qk1k2-]]>Mk2Qk2)T]]>計算矩陣A的特征向量λ為矩陣A的特征向量ti的特征值,將ti按照從大到小的順序排序構成矩陣T,即T={t1,t2,...,tn},這里矩陣A的不同特征向量個數確定了n的大小; 
重復步驟3-3-1~3-3-3直至T收斂為止,重復上述步驟3-5次矩陣T會收斂,其中i取值范圍1~3,TT表示矩陣T的轉置矩陣,M′i表示Mi的逆矩陣,表示Mi的逆轉置,φ表示矩陣正三角分解后的正交矩陣,Δi則是矩陣正三角分解后的上三角矩陣,表示Δi的逆矩陣,Qij表示矩陣奇異值分解的酉矩陣; 
步驟3-4,前景視頻分類:將特征向量矩陣M1,M2,M3投影到T所在的空間中,即Mi=TTMi,i取1~3,得到新的特征向量矩陣M1,M2,M3; 
步驟3-5,顏色直方圖特征聚類:顏色矩陣M1采用最低秩子空間聚類方法,不同的前景的顏色直方圖往往呈現在不同的數據維度上而K-means方法(參考文章A K-means Clustering Algorithm)中的距離一般采用歐式距離,不適合用于顏色空間的距離,所以采用子空間聚類方法能夠較好的實現類別劃分。利用最低秩方法計算出每幀圖像之間的相似度w,構造圖image將所有的前景圖像作為結點,圖像之間的相似度w作為權重,再采用譜聚類Ncut方法(參考文章:Normalized Cuts and Image Segmentation)對圖image進行分割,從而完成對圖像的分類,相似度w的計算方法如下: 
3-5-1,初始化參數λ0,相關性矩陣Z,相關性矩陣Z的等價矩陣J=0,Z=J,噪聲糾正矩陣E=0,拉格朗日矩陣Y1=0,Y2=0,拉格朗日懲罰參數μ=10-6,最大拉格朗日懲罰參數maxμ=1010,拉格朗日懲罰參數倍數ρ0=1.1,常數ε=10-8; 
3-5-2,計算M1每列數據的相關性矩陣等價矩陣J:固定其他矩陣更新矩陣J, J=argmin1μ||J||*+12||J-(Z+Y2/μ)||F2;]]>
3-5-3,計算M1每列數據的相關性矩陣Z:固定其他矩陣更新矩陣Z,Z=(I+M1tM1)-1(M1tM1-M1tE+J+(M1ty1-Y2)/μ); 
3-5-4,計算噪聲糾正矩陣E:固定其他矩陣更新矩陣E,E+argminλ0μ||E||2,1+]]>12||E-(M1-M1Z+Y1/μ)||F2;]]>
3-5-5,計算拉格朗日矩陣Y1,Y2:Y1,Y2,Y1=Y1+μ(M1-M1Z-E),Y2=Y2+μ(Z-J); 
3-5-6,更新拉格朗日懲罰參數μ:μ=min(ρ0μ,maxμ); 
3-5-7,判斷迭代是否結束:檢查||M1-M1Z-E||∞<ε,||Z-J||∞<ε是否成立,若成立則迭代結束,否則繼續迭代; 
其中||||*代表核范數,||||F代表弗羅貝尼烏斯范數,||||∞代表最大范數,min(A,B)代表返回A和B中較小值,上述的迭代過程得到矩陣Z,矩陣Z中的元素Zi,j、Zj,i之和代表圖像i、j之間的相似值,構建無向圖image,圖像i代表圖image的結點,圖像i、j之間的相似性值代表結點i與結點j之間的權重,采用譜聚類Ncut方法來對圖image進行分割從而實現對多個前景關鍵幀之間的分類。 
步驟3-6,LBP以及BOW特征聚類:LBP以及BOW特征數據在空間維度上的差異很小,直接采用K-means方法就可以得到較好的結果,對矩陣M2,M3采用K-means方法進行聚類,本方法中的人物前景一般為2-3類; 
步驟3-7,對結果進行集成學習:由步驟3-5,3-6,3-7得到三個特征下每一幀圖像所屬的類別Ci,利用三個類別信息投票確定每一幀圖像的類別,如C1、C2、C3對于圖像fi的類別分別為0、0、1出現次數最高的類別0為圖像fi的類別,從而所有的關鍵幀fi都可以確定其類別信息。計算人物前景視頻υi與υj之間的相似度對于前景視頻υi,若其同υj之間的相似度比同其他的視頻相似度高,則υi同υj劃分為同一類。 
附圖說明
圖1為本發明方法的基本流程圖。 
圖2為原始的監控視頻1部分畫面。 
圖3為原始的監控視頻2部分畫面。 
圖4為原始的監控視頻3部分畫面。 
圖5為監控視頻1部分前景。 
圖6為監控視頻2部分前景。 
圖7為監控視頻3部分前景。 
圖8為LBP特征的提取示意圖。 
圖9為BOW聚類方法的示意圖。 
圖10為監控視頻1中兩個物體前景所在的子空間示意圖。 
圖11典型相關性特征融合的原理示意圖。 
圖12本方法中人物分類精度同未融合后的人物聚類精度比較。 
具體實施方式
下面結合附圖和具體實施方式對本發明做更進一步的具體說明。 
本方法的流程圖如圖1所示,分為三大過程:首先是采用混合高斯模型對每個監控視頻分割前景和背景得到前景視頻;其次是將前景視頻人物分割開來并對每個人物視頻提取一組關鍵幀供視頻特征提取之用;再次對每個前景人物的關鍵幀提取顏色直方圖,局部二值特征,詞袋特征,然后將這三個特征用典型相關系數進行特征融合,構造出一個新的能夠更好區分不同類別的空間,再將這三個特征矩陣投影到這個具有更好區分性的空間中進行聚類,對投影后顏色矩陣采用最低秩子空間聚類,對局部二值特征和詞袋特征采用K-means聚類,最終采用集成學習方法得到前景之間的相似度。 
具體地說,如圖1所示,本發明公開了一種監控視頻前景人物分割與分類方法,主要包括以下幾個步驟: 
步驟1,監控視頻的前景和背景分割:一般而言監控視頻的前景指的是活動的事物,通常為人或車,而監控視頻的背景指的是視頻中靜止的景物。采用混合高斯模型分離監控視頻的前景和背景,并將每個前景人物用能完全包圍住前景人物的最小包圍盒包圍起來,形成獨立的前景人物小視頻; 
步驟2,提取前景人物小視頻的特征:將前景人物小視頻提取一組關鍵幀,考慮監控視頻移動前景中主要包含人與車輛,而本發明的主要目的是人物的分類,所以對每個前景記錄面積和速度兩個特征,在進行人物分類之前先將汽車前景分類出來,人物的外形和顏色信息對于區分不同的人物很重要,所以在進行膨脹和腐蝕操作之后,對每個人物關鍵幀提取顏色直方圖特征、局部二值特征和詞袋這三個有關顏色和形狀的特征; 
步驟3,特征融合與分類:先將前景中的汽車分類出來,一般監控視頻中出現的前 景通常為兩大類即汽車與人物,同一鏡頭記錄的前景視頻的中間時間軸上一組圖像對鏡頭的透視效果有很好的魯棒性,人物前景中間一組幀的人物面積通常遠遠小于汽車前景中間一組幀的汽車面積,人物前景的速度通常情況下也遠小于汽車前景的移動速度,對得到的每個前景面積和速度,根據設定的閾值分類出汽車;再對分類得到的人物前景提取顏色直方圖特征、局部二值特征以及詞袋特征,再采用典型相關系數的方法進行無監督特征融合,得到一個區分不同類別的空間T,將三個特征投影到空間T,對投影后的顏色特征做最低秩子空間聚類,對投影后的LBP和BOW特征做K-means聚類,根據聚類結果對前景人物小視頻進行分類; 
步驟1,前景和背景分割的詳細步驟如下: 
步驟1-1,初始化高斯模型:讀取視頻的第一幀圖像為圖像中每個像素點構建一個含有K,發明中K為3個的混合高斯模型,用K個高斯模型表示監控視頻中每幀圖像中每個像素j在時刻t的值xj,像素j在時刻t取值xj的概率P(xj)可以由這K個高斯模型表示:P(xj)=Σi=1Kωj,ti*N(xj,uj,ti,Σj,ti),]]>其中代表t時刻像素j的混合高斯模型中第i個高斯分量的權重,滿足:和代表t時刻像素j的第i個高斯分量的均值和協方差,表示高斯概率密度函數,表示如下: 
N(xj,uj,ti,Σj,ti)=12πd2|Σj,ti|12exp[-12(xj-uj,ti)T(Σj,ti)-1(xj-uj,ti)],]]>
其中d為xj的維數,對于RGB顏色空間,每個像素有3個通道xj為三維向量,其中協方差矩陣其中表示t時刻像素j的第i個高斯模型方差,初始化時的值為I代表單位矩陣。初始化階段,每個高斯分布的方差每個高斯分布的權重取ωinit=1/K,發明中ωinit值為0.3; 
步驟1-2,更新高斯模型:繼續讀取監控視頻,每讀取監控視頻的一幀圖像就對混合高斯模型做更新;將混合高斯模型中的每個高斯成分按照由大到小排序,當前讀取的新幀的像素值xj,t+1若與混合高斯模型中第i個高斯模型滿足下列式子: 
|xj,t+1-uj,ti|δ*σj,ti]]>
則更新第i個高斯成分,其余高斯成分保持不變,判斷像素點xj,t+1在當前幀中是背景部分像素,參數δ為匹配閾值,δ取值范圍1~2,發明中δ取1.5,更新第i個高斯成分的計算方法如下: 
ωj,t+1i=(1-α)ωj,ti+α]]>
uj,t+1i=(1-ρ)uj,ti+ρxj]]>
(σj,t+1i)2=(1-ρ)(σj,ti)2+ρ(xj-uj,ti)T(xj-uj,ti)]]>
ρ=αωj,ti]]>
其中α是混合高斯模型的學習率,α取值范圍0~1,α發明中取1,ρ為參數的學習率;如果像素xj,t+1與K個高斯成分都不匹配的,則判定這一像素點是當前幀的前景像素,構造新的高斯成分取代排序靠后的高斯成分,新的高斯成分的均值設為xj,t+1的值,標準差和權重分別設置為σinit和ωinit,保留的高斯成分的均值和方差保持不變,權重則按照下式更新: 
ωj,t+1i=(1-α)ωj,ti]]>
步驟1-3,完成視頻的前景和背景分割工作:像素xj,t+1的K個高斯成分更新參數后,對K個高斯成分的權重進行歸一化,重復前面步驟1-1和1-2保留每幀圖像中的前景像素,直至監控視頻讀取結束,得到同原始監控視頻同樣分辨率的顯示前景而不顯示背景的視頻; 
1-4,提取包圍前景人物視頻的最小包圍盒:讀取步驟1-3中得到的監控視頻,對每幀圖像先進行膨脹和腐蝕操作,從而消除圖像中的噪聲,再逐行掃描圖像,記錄圖像中像素值不為0的像素構成的矩形的長l和寬w,因為步驟1-2得到的視頻背景像素值為0,所以像素值非0的代表該像素為前景,對于同一個人物前景每一幀的包圍盒都有長l和寬w,選擇所有幀中最長的l、w作為該人物前景的包圍盒由此得到包圍人物前景視頻的小視頻,圖2~4是原始的監控視頻,圖5~7是對應于圖2~4的采用混合高斯模型提取前景后的監控視頻。 
步驟2,前景人物特征提取詳細步驟如下: 
步驟2-1,提取人物前景的關鍵幀:固定選取人物視頻中間F幀f1,f2,...,fF圖像作為關鍵幀,F可取20~40,發明中F取20,選取中間F幀是因為人物小視頻中間一組幀較之開始幀和結束幀更完整的展現了人物的外形與顏色,且人物前景占視頻的面積大小適中; 
步驟2-2,提取顏色直方圖信息:對F幀f1,f2,...,fF人物部分區域提取顏色特征直方圖,設顏色直方圖的柱狀分區共有mc個,發明中mc取64,計算圖像fi中像素點p三個顏色通道RGB值對應的柱狀分區id,i取1~F,R代表紅色通道值,G代表綠色通道值,B代表藍色通道值,公式如下: 
id=R256+G256mc23+B256mc13]]>
統計每個柱狀分區id中像素點的個數得到fi的顏色直方圖,顏色直方圖最終表示為長度為mc的向量υc;對所有關鍵幀重復操作本步驟,直到得到mc×F的矩陣M1; 
步驟2-3,提取局部二值即Local Binary Pattern特征,簡稱LBP特征,計算F幀f1,f2,...,fN圖像的局部二值特征,先將圖像fi灰度化,設LBP算子的半徑為r,發明中r取3,用r*r的窗口在圖像中移動,每移動一個像素位置就計算一次窗口中心像素pcenter的LBP值,計算方法如下:將與中心像素pcenter相鄰的r*r個像素分別與中心像素pcenter的值進行比較,相鄰像素值大于中心像素pcenter,則該像素的位置被標記為1,否則被標記為0,如圖8表示,由此得到r*r-1位二進制數,最終窗口移動到最后一個中心像素位置時得到了整個圖像的LBP特征,再將圖像的LBP特征用柱狀圖表示。設LBP柱狀圖分區有ml個,發明中ml取值64,將柱狀圖每個分量的高度值串聯起來,得到最終的局部二值特征即:長度為ml的向量υl。對所有的關鍵幀重復本步驟,直到得到ml×F的矩陣M2; 
步驟2-4,提取詞袋即bag of words特征,簡稱BOW特征:首先計算F幀f1,f2,...,fF的尺度旋轉不變性sift特征點,設BOW模型中單詞表長度為mb,發明中mb取64,采用K-means方法,K-means中聚類中心設為64,將詞義相近的sift特征點合并得到mb個類,類中心構成BOW的單詞表,發明中單詞表長度為64,用單詞表中的詞匯代替每一幀圖像中的每個sift特征點,如圖9中mb的值為3,K-means聚類后得到3個聚類中心,再重新用單詞表中的詞匯代替每一幀圖像中的每個sift特征點,特征點sift1距離類m1最近,則m1中心點表示特征點sift1,統計所有單詞表每個詞匯對應sift特征點個 數,得到圖像fi的每個詞匯的頻度即長度為mb的向量υb,對所有關鍵幀重復2-4的操作得到mb×F矩陣M3; 
步驟2-5,提取面積與速度特征。計算F幀f1,f2,...,fF圖像中每一幀圖像的前景的面積s1,s2,...,sF與速度υ1,υ2,...,υF-1,前景的面積也即前景中非0的像素個數,取F個圖像前景面積的平均值作為該前景的面積值s,前景速度由前景的矩形包圍框的中心位置在原始監控視頻中的位移決定,F幀圖像計算得到F-1個速度,取速度的中值作為該前景的速度v。 
步驟3,監控視頻的前景人物分類詳細步驟如下: 
步驟3-1,設置前景面積和速度的閾值分類出汽車,通常情況下汽車的速度與面積數值比人物前景對應的速度與面積數值要大,而鏡頭記錄下的前景物體軌跡或者由遠及近或者由近及遠,中間的圖像大小通常情況下受到透視效果影響較小,這里面積閾值areathresh=800pixel,速度閾值speedthresh=25pixel/image,pixel表示像素,image表示圖像;面積超過面積閾值的前景劃分為汽車類別,面積特征沒有超過面積閾值時,若前景速度特征超過速度閾值,則前景劃分為汽車類別否則劃分為人物類別; 
步驟3-2,統一數據維度:將步驟2得到的對于F個圖像的顏色直方圖矩陣mc×F,LBP特征矩陣ml×F和BOW特征矩陣mb×F,特征矩陣均為64×20,調用主成分分析方法降低到統一維度m,發明中設保留最大的主成分大小為64,即發明中m取值64,這所有的特征向量矩陣就變為m×F; 
步驟3-3,特征融合:設存在矩陣T維度為m×n,發明中T大小為64×64,三個特征向量矩陣M1、M2、M3投影到矩陣T所在空間中,能夠呈現出圖11中同類別的空間向量P1,P2在空間T中的投影距離很近,不同類別的空間向量P1,P3在空間T中的投影距離很遠的特性初始化T為單位向量,迭代的更新矩陣T的內容,具體迭代過程如下: 
3-3-1,對矩陣M1,M2,M3進行矩陣正三角分解并更新矩陣Mi:TTMi=]]>φΔi,Mi=MiΔi-1,i=1~3;]]>
3-3-2,對每一對M′i,M′j進行矩陣奇異值分解:i=1~3; 
3-3-3,求解矩陣T,計算矩陣A=Σk1=13Σk2=13(Mk1Qk1k2-Mk2Qk2)(Mk1Qk1k2-]]>Mk2Qk2)T]]>計算矩陣A的特征向量λ為矩陣A中特征向量ti的特征值,將ti按照從大到小的順序排序構成矩陣T,即T={t1,t2,...,tn},這里矩陣A不同的特征向量個數確定n大小; 
重復步驟3-3-1~3-3-3直至T收斂為止,重復上述步驟3-5次矩陣T會收斂,其中TT表示矩陣T的轉置矩陣,M′i表示Mi的逆矩陣,表示Mi的逆轉置,φ表示矩陣正三角分解后的正交矩陣,Δi則是矩陣正三角分解后的上三角矩陣,表示Δi的逆矩陣,Qij表示矩陣奇異值分解的酉矩陣,矩陣的奇異值分解,正三角分解,矩陣的逆,矩陣的轉置方法在matlab環境下調用svd函數,qr函數,求逆符號’和求轉置符號T; 
步驟3-4,前景視頻分類:將特征向量矩陣M1,M2,M3投影到T所在的空間中,即Mi=TTMi,i取1~3,得到新的特征向量矩陣M1,M2,M3; 
步驟3-5,顏色直方圖特征聚類:顏色矩陣M1采用最低秩子空間聚類方法,不同的前景的顏色直方圖往往呈現在不同的數據維度上,如圖10所示,而K-means方法中的距離一般采用歐式距離,不適合用于顏色空間的距離,所以采用子空間聚類方法能夠較好的實現類別劃分,利用最低秩方法計算出每幀圖像之間的相似度w,圖10中兩個數據集合分屬于不同的子空間,通過最低秩方法可以區分出這兩個不同的子空間;構造圖image,將所有的前景圖像作為結點,圖像之間的相似度w作為權重,再采用譜聚類Ncut方法對圖image進行分割,從而完成對圖像的分類,相似度w的計算方法如下: 
3-5-1,初始化參數λ0,相關性矩陣Z,相關矩陣Z的等價矩陣J=0,Z=J,噪聲糾正矩陣E=0,拉格朗日矩陣Y1=0,Y2=0,拉格朗日懲罰參數μ=10-6,最大拉格朗日懲罰參數maxμ=1010,拉格朗日懲罰參數倍數ρ0=1.1,常數ε=10-8; 
3-5-2,計算M1每列數據的相關性矩陣等價矩陣J:固定其他矩陣更新矩陣J, J=argmin=1μ||J||*+12||J-(Z+y2/μ)||F2;]]>
3-5-3,計算M1每列數據的相關性矩陣Z:固定其他矩陣更新矩陣Z,Z=]]>(I+M1tM1)-1(M1tM1-M1ttE+J+(M1tY1-Y2)/μ);]]>
3-5-4,計算噪聲糾正矩陣E:固定其他矩陣更新矩陣E,E=argminλ0μ||E||2,1+]]>12||E-(M1-M1Z+Y1/μ)||F2;]]>
3-5-5,計算拉格朗日矩陣Y1,Y2:Y1=Y1+μ(M1-M1Z-E),Y2=Y2+μ(Z-J); 
3-5-6,更新拉格朗日參數μ:μ=min(ρ0μ,maxμ); 
3-5-7,判斷迭代是否結束:檢查||M1-M1Z-E||∞<ε,||Z-J||∞<ε是否成立,若成立則迭代結束,否則繼續迭代; 
其中||||*代表核范數,||||F代表弗羅貝尼烏斯范數,||||∞代表最大范數,min(A,B)代表返回A和B中較小值,上述的迭代過程得到矩陣Z,矩陣Z中的元素Zi,j、Zj,i之和代表圖像i、j之間的相似值,構建無向圖image,圖像i代表圖image的結點,圖像i和圖像j之間的相似性值代表結點i與結點j之間的權重,采用譜聚類Ncut方法來對圖image進行分割從而實現對多個前景關鍵幀之間的分類,發明中譜聚類的中心設置為不同的前景人物的個數。 
步驟3-6,LBP以及BOW特征聚類:LBP以及BOW特征數據在空間維度上的差異很小,直接采用K-means方法就可以得到較好的結果,對矩陣M2,M3采用K-means方法進行聚類,K-means聚類中心個數設定為前景人物的個數; 
步驟3-7,對結果進行集成學習:由步驟3-5,3-6,3-7得到三個特征下每一幀圖像所屬的類別Ci,利用三個類別信息投票確定每一幀圖像的類別,如C1、C2、C3對于圖像fi的類別分別為0、0、1出現次數最高的類別0為圖像fi的類別,從而所有的關鍵幀fi都可以確定其類別信息,從而所有的關鍵幀fi都可以確定其類別信息。計算前景視頻υi與υj之間的相似度對于前景視頻υi,若其同υj之間的相似度比同其他的視頻的相似度高,則υi同υj劃分為同一類。從圖12給出的對比發現,發明中的方法相對直接采用特征聚類的方法提高了準確性。 
實施例 
本實施例的實驗硬件環境是:Intel-Core2Duo i321003.1GHz,4G內存,編程環境是visual studio2010,opencv2.3,matlab R2012a,測試用的監控視頻主要來自于校園監 控系統中的監控視頻。 
采用混合高斯模型提取前景中高斯模型個數K=3,匹配閾值參數δ=1.5,初始方差σinit2=302,初始權重ωinit取0.3,學習率α=1,關鍵幀選取參數N=20,面積閾值areathresh=800pixel,速度閾值speedthresh=25pixel/image,特征提取過程中顏色直方圖參數mc=64,LBP特征中半徑r=3,直方圖參數ml=64,BOW特征單詞個數mb=64,特征采用PCA降維后長度m=64,特征融合過程中矩陣T的列數n=64。 
直方圖參數設置為64可以減少計算數據量,直方圖參數設置大于64會導致聚類結果分散而且大于64會帶來龐雜的計算量,而直方圖參數設置小于64則有可能帶來多個類合并的現象。所以選擇64用來做直方圖柱狀分區個數參數,實驗中針對不同的場景中的人物前景為了減少不同的環境光的影響采用了對于光照魯棒的sift特征進行處理,提高了分類的準確率。 
本發明使用了無監督典型系數融合多個特征促進分類的方法,將外形與顏色相似的人物前景采用多種聚類方法劃分一類,提高查閱監控視頻的效率,總之本發明具有分類準確率高,有效信息比率高,無需人工標注的特點。 

關 鍵 詞:
一種 監控 視頻 人物 前景 分割 分類 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種監控視頻人物前景分割與分類的方法.pdf
鏈接地址:http://www.wwszu.club/p-6140867.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大