鬼佬大哥大
  • / 18
  • 下載費用:30 金幣  

一種基于多核融合的多示例多標簽場景分類方法.pdf

摘要
申請專利號:

CN201510344990.5

申請日:

2015.06.19

公開號:

CN105046269A

公開日:

2015.11.11

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06K 9/62申請日:20150619|||公開
IPC分類號: G06K9/62; G06F17/30 主分類號: G06K9/62
申請人: 魯東大學
發明人: 鄒海林; 陳彤彤; 丁昕苗; 柳嬋娟; 劉影; 申倩
地址: 264025山東省煙臺市芝罘區紅旗中路186號
優先權:
專利代理機構: 北京輕創知識產權代理有限公司11212 代理人: 王澎
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510344990.5

授權公告號:

||||||

法律狀態公告日:

2019.02.22|||2015.12.09|||2015.11.11

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明涉及一種基于多核融合的多示例多標簽場景分類方法,包括:輸入一個多示例多標簽數據集,拆分成多示例數據集和一個多標簽數據集;使用不同的閾值分別對多示例數據集中的每個包建立相關性矩陣;根據得到的相關性矩陣求同一閾值下每兩個多示例數據包之間的基本核函數,基本核函數值組成基本核矩陣;將不同閾值下的基本核矩陣中相同位置的元素值進行凸組合,得到一個多核矩陣;利用多標簽數據集訓練,得到多個多核SVM分類器。多核SVM分類器用于對未知的多示例數據包的標簽集進行預測從而實現場景分類。本發明的一種基于多核融合的多示例多標簽場景分類方法,提高場景分類準確性。本發明還涉及一種基于多核融合的多示例多標簽場景分類系統。

權利要求書

1.一種基于多核融合的多示例多標簽場景分類方法,其特征在于,包括
以下步驟:
步驟1,輸入一個多示例多標簽數據集,記為
并將所述多示例多標簽數據集拆分成一個多示例數據集X={Xi|i=1,2,...,m}和
一個多標簽數據集Y={Yi|i=1,2,...,m};
其中,i為多示例多標簽數據集中多示例數據包的編號,m為包的總個
數,m取正整數;Xi指多示例數據集X中編號為i的多示例數據包,記為
xi1表示多示例數據包Xi中編號為1的示例,xi2表示多示例
數據包Xi中編號為2的示例,表示多示例數據包Xi中編號為ni的示例,ni
指編號為i的包中包含的示例個數,ni取值為正整數;yi1表
示標簽數據集Yi中編號為1的標簽,yi2表示標簽數據集Yi中編號為2的標簽,
表示標簽數據集Yi中編號為li的標簽,li為標簽數據集Yi中包含的標簽個
數,li取值為正整數;
步驟2,使用多個閾值中的每一個閾值分別對每個多示例數據包Xi建立
相關性矩陣,則在同一閾值下,每一個多示例數據包都會建立一個相關性矩
陣所述閾值ts∈(t1,t2,...,tS),其中,S為閾值的總個數,s表示閾值的編號;
步驟3,根據步驟2中得到的相關性矩陣求同一閾值下每兩個多示例數
據包之間的基本核函數,所述多個基本核函數值組成基本核矩陣,所述基本
核矩陣中的元素值為同一閾值下每兩個多示例數據包之間的基本核函數值,
所述基本核矩陣中元素值的行號和列號分別對應兩個多示例數據包的編號;
針對不同的閾值,則會得到不同閾值下的基本核矩陣Kgs,g為基本核矩陣標
識,s為基本核矩陣的編號,與所述閾值的編號一一對應;
步驟4,將步驟3中得到的不同閾值下的基本核矩陣Kgs中相同位置的元
素進行組合,得到一個多核函數K(Xi,Xj),所述多個多核函數值組成多核矩
陣,即所述多核矩陣K中的元素值對應每兩個多示例數據包之間的多核函數
值;
步驟5,利用多標簽數據集Yi和步驟4中得到的多核函數進行學習,得
到多個多核SVM分類器,所述分類器的數量與所述多標簽數據集中的標簽
類數量相同,所述分類器用于對未知多示例數據包的標簽集進行預測從而實
現場景分類。
2.根據權利要求1所述的一種基于多核融合的多示例多標簽場景分類方
法,其特征在于,所述步驟2中使用一個閾值對一個包Xi建立相關性矩陣的
過程具體為:
步驟2.1,定義一個ni×ni的矩陣W,所述矩陣中的行號和列號分別對應
多示例數據包Xi中兩個示例的編號;
步驟2.2,判斷示例xia和示例xiu之間的高斯距離是否小于閾值t,若示例
xia和示例xiu之間的高斯距離小于閾值ts,則將矩陣W的第a行第u列的元素
賦值為1;否則賦值為0;a,u均為示例編號,均取值為[1,ni]之間的整數;
直至將矩陣W中的每一個元素都賦值完,得到多示例數據包Xi的相關性矩陣
其中,的上標s表示閾值的編號,的下標i表示多示例數據包的編
號。
3.根據權利要求2所述的一種基于多核融合的多示例多標簽場景分類方
法,其特征在于,所述步驟2.2中的閾值ts取值為[0,4],所述閾值的個數為
[10,15]。
4.根據權利要求1所述的一種基于多核融合的多示例多標簽場景分類方
法,其特征在于,所述步驟3按照以下公式求同一個閾值下每兩個多示例數
據包之間的基本核函數:
K g s ( X i , X j ) = Σ a = 1 n i Σ b = 1 n j W i a s W j b s k s ( x i a , x j b ) Σ a = 1 n i W i a s Σ b = 1 n j W j b s ]]>
其中,Xi,Xj分別表示編號為i和編號為j的多示例數據包,Kgs(Xi,Xj)為
多示例數據包Xi和多示例數據包Xj之間的基本核函數,g為基本核矩陣標
識,s為基本核矩陣的編號,與所述閾值的編號一一對應;
為多示例數據包Xi對應的閾值為ts的相關性矩陣中第a行所有元素之
和的倒數,其中,i為多示例數據包的編號,s為基本核矩陣的編號,與所述
閾值的編號一一對應,a為所述多示例數據包Xi對應的閾值為ts的相關性矩
陣中的行號;表示多示例數據包Xi對應的閾值為ts的相關
性矩陣中第a行第u列的元素值,ni為多示例數據包Xi對應的閾值為ts的相
關性矩陣的總行數或總列數,與多示例數據包Xi中的示例個數相等;
為多示例數據包Xj對應的閾值為ts的相關性矩陣中第b行所有元素之
和的倒數,其中,j為多示例數據包的編號;表示多示例
數據包Xj對應的閾值為ts的相關性矩陣中第b行第v列的元素值;nj為多
示例數據包Xj對應的相關性矩陣的總行數或總列數,與多示例數據包Xj中
的示例個數相等;
ks(xia,xjb)為一般核函數,由徑向基核函數求得,具體為:
ks(xia,xjb)=exp(-γ||xia-xjb||2);其中,s為閾值的編號;xia為多示例數據包Xi中
編號為a的示例,i為多示例數據包的編號,a為示例的編號;xjb為多示例數
據包Xj中編號為b的示例,j為多示例數據包的編號,b為示例的編號;
exp(-γ||xia-xjb||2)為以e為底數的指數函數,
e=2.71828,冪為-γ||xia-xjb||2,||xia-xjb||為xia-xjb的范數,γ為核系數,取任
意值,針對不同的基本核矩陣,核系數γ取不同值。
5.根據權利要求1至4中任意一項所述的一種基于多核融合的多示例多
標簽場景分類方法,其特征在于,所述步驟4中采用凸組合對不同閾值下的
基本核矩陣Kgs中相同位置的元素進行組合,所述經過凸組合得到的多核函
數為:
K ( X i , X j ) = Σ s = 1 S d s K g s ( X i , X j ) , d s 0 , Σ s = 1 S d s = 1 ; ]]>
式中,K(Xi,Xj)為多示例數據包Xi和多示例數據包Xj之間的多核函數,
也是多核矩陣中第i行第j列的元素;ds為權系數;s為閾值的編號,取值為
正整數;S為基本核矩陣的總個數,Kgs(Xi,Xj)為多示例數據包Xi和多示例數
據包Xj之間的基本核函數,也是基本核矩陣Kgs中第i行第j列的元素。
6.一種基于多核融合的多示例多標簽場景分類系統,其特征在于,包括:
輸入模塊,用于輸入一個多示例多標簽數據
集,記為并將所述多示例多標簽數據集拆分成一個多示例數據集
X={Xi|i=1,2,...,m}和一個多標簽數據集Y={Yi|i=1,2,...,m};
其中,i為多示例多標簽數據集中多示例數據包的編號,m為包的總個
數,m取正整數;Xi指多示例數據集X中編號為i的多示例數據包,記為
xi1表示多示例數據包Xi中編號為1的示例,xi2表示多示例
數據包Xi中編號為2的示例,表示多示例數據包Xi中編號為ni的示例,ni
指編號為i的包中包含的示例個數,ni取值為正整數;yi1表
示標簽數據集Yi中編號為1的標簽,yi2表示標簽數據集Yi中編號為2的標簽,
表示標簽數據集Yi中編號為li的標簽,li為標簽數據集Yi中包含的標簽個
數,li取值為正整數;
相關性矩陣建立模塊,用于使用多個閾值中的每一個閾值分別對每個多
示例數據包Xi建立相關性矩陣,則在同一閾值下,每一個多示例數據包都會
建立一個相關性矩陣所述閾值ts∈(t1,t2,...,tS),其中,S為閾值的總個數,
s表示閾值的編號;
基本核矩陣模塊,用于根據相關性矩陣建立模塊中得到的相關性矩陣求
同一閾值下每兩個多示例數據包之間的基本核函數,所述多個基本核函數值
組成基本核矩陣,所述基本核矩陣中的元素值為同一閾值下每兩個多示例數
據包之間的基本核函數值,所述基本核矩陣中元素值的行號和列號分別對應
兩個多示例數據包的編號;針對不同的閾值,則會得到不同閾值下的基本核
矩陣Kgs,g為基本核矩陣標識,s為基本核矩陣的編號,與所述閾值的編號
一一對應;
組合模塊,用于將基本核矩陣模塊中得到的不同閾值下的基本核矩陣
Kgs中相同位置的元素進行組合,得到一個多核函數K(Xi,Xj),所述多個多
核函數值組成多核矩陣,即所述多核矩陣K中的元素值對應每兩個多示例數
據包之間的多核函數值;
學習模塊,用于利用多標簽數據集Yi和組合模塊中得到的多核函數進行
學習,得到多個多核SVM分類器,所述分類器的數量與所述多標簽數據集
中的標簽類數量相同,所述分類器用于對未知多示例數據包的標簽集進行預
測從而實現場景分類。
7.根據權利要求6所述的一種基于多核融合的多示例多標簽場景分類系
統,其特征在于,所述相關性矩陣建立模塊中使用一個閾值對一個包Xi建立
相關性矩陣的過程具體為:
步驟2.1,定義一個ni×ni的矩陣W,所述矩陣中的行號和列號分別對應
多示例數據包Xi中兩個示例的編號;
步驟2.2,判斷示例xia和示例xiu之間的高斯距離是否小于閾值t,若示例
xia和示例xiu之間的高斯距離小于閾值ts,則將矩陣W的第a行第u列的元素賦
值為1;否則賦值為0;a,u均為示例編號,均取值為[1,ni]之間的整數;直
至將矩陣W中的每一個元素都賦值完,得到多示例數據包Xi的相關性矩陣
其中,的上標s表示閾值的編號,的下標i表示多示例數據包的編
號。
8.根據權利要求7所述的一種基于多核融合的多示例多標簽場景分類系
統,其特征在于,所述步驟2.2中的閾值t取值為[0,4],所述閾值的個數為
[10,15]。
9.根據權利要求8所述的一種基于多核融合的多示例多標簽場景分類方
法,其特征在于,所述基本核矩陣模塊按照以下公式求每兩個多示例數據包
之間的基本核函數:
K g s ( X i , X j ) = Σ a = 1 n i Σ b = 1 n j W ia s W j b s k s ( x i a , x j b ) Σ a = 1 n i W ia s Σ b = 1 n j W j b s ; ]]>
其中,Xi,Xj分別表示編號為i和編號為j的多示例數據包,Kgs(Xi,Xj)為
多示例數據包Xi和多示例數據包Xj之間的基本核函數,g為基本核矩陣標
識,s為基本核矩陣的編號,與所述閾值的編號一一對應;
為多示例數據包Xi對應的閾值為ts的相關性矩陣中第a行所有元素之
和的倒數,其中,i為多示例數據包的編號,s為基本核矩陣的編號,與所述
閾值的編號一一對應,a為所述多示例數據包Xi對應的閾值為ts的相關性矩
陣中的行號;表示多示例數據包Xi對應的閾值為ts的相關
性矩陣中第a行第u列的元素值,ni為多示例數據包Xi對應的閾值為ts的相
關性矩陣的總行數或總列數,與多示例數據包Xi中的示例個數相等;
為多示例數據包Xj對應的閾值為ts的相關性矩陣中第b行所有元素之
和的倒數,其中,j為多示例數據包的編號;表示多示例
數據包Xj對應的閾值為ts的相關性矩陣中第b行第v列的元素值;nj為多
示例數據包Xj對應的相關性矩陣的總行數或總列數,與多示例數據包Xj中
的示例個數相等;
ks(xia,xjb)為一般核函數,由徑向基核函數求得,具體為:
ks(xia,xjb)=exp(-γ||xia-xjb||2);其中,s為閾值的編號;xia為多示例數據包Xi中
編號為a的示例,i為多示例數據包的編號,a為示例的編號;xjb為多示例數
據包Xj中編號為b的示例,j為多示例數據包的編號,b為示例的編號;
exp(-γ||xia-xjb||2)為以e為底數的指數函數,
e=2.71828,冪為-γ||xia-xjb||2,||xia-xjb||為xia-xjb的范數,γ為核系數,取任
意值,針對不同的基本核矩陣,核系數γ取不同值。
10.根據權利要求6-9中任意一項所述的一種基于多核融合的多示例多
標簽場景分類方法,其特征在于,所述組合模塊采用凸組合對不同閾值下的
基本核矩陣Kgs中相同位置的元素進行組合,所述經過凸組合得到的多核函
數為:
K ( X i , X j ) = Σ s = 1 S d s K g s ( X i , X j ) , d s 0 , Σ s = 1 S d s = 1 ; ]]>
式中,K(Xi,Xj)為多示例數據包Xi和多示例數據包Xj之間的多核函數,
也是多核矩陣中第i行第j列的元素;ds為權系數;s為閾值的編號,取值為
正整數;S為基本核矩陣的總個數,Kgs(Xi,Xj)為多示例數據包Xi和多示例數
據包Xj之間的基本核函數,也是基本核矩陣Kgs中第i行第j列的元素。

說明書

一種基于多核融合的多示例多標簽場景分類方法

技術領域

本發明涉及機器學習技術領域,具體涉及一種基于多核融合的多示例多
標簽場景分類方法。

背景技術

多示例學習是由監督型學習演變出來的一種學習方法,首次是在20世
紀90年代人們研究藥物活性時提出,其是將每個制藥分子看做一個包,分
子的每個異構體看做包中的一個示例,如果該分子有一種異構體適于制藥,
則將該分子對應的包標記為正包,否則標記為負包,通過該方法最終構建出
一個學習系統,進而對已知適于或不適于制藥的分子進行學習,來正確地預
測其他新的分子是否適合制藥。自此,多示例學習一直成為研究的熱點,并
被廣泛應用于文本、圖像和視頻的分類檢索中,隨后又將多示例學習引入到
多標簽分類問題中,提出了多示例多標簽學習框架。

目前,針對多示例多標簽學習問題的解決辦法,都是通過轉化為多示例
單標簽問題或單示例多標簽問題,進而轉化為傳統的監督學習問題加以解
決,其代表算法有MIML_BOOST方法和MIML_SVM方法的學習框架,其
中,MIML_BOOST算法是先將多示例多標簽問題轉化為多示例單標簽問題,
再利用MIBOOSTING算法解決多示例問題,但這種方法在利用
MIBOOSTING算法解決多示例問題過程中,由于正包中不一定都是正示例,
給包的所有示例加上該包標簽的做法會造成較大的誤差;MIML_SVM算法
則是先將多示例多標簽問題轉化為單示例多標簽問題,再利用MLSVM算法
解決多標簽問題,但MIMLSVM算法是用兩個包內示例與示例之間的最小
Hausdorff距離來表示包與包之間的距離,當一個正包的負示例與負包的示例
很相似時,該距離的表示方法會導致正包和負包的判別性下降,影響分類效
果。此外,還有KISAR算法,該算法通過找到每個包中與某一類標簽最相
關的示例實現多示例多標簽問題的分類與預測。還有人提出帶有軟標簽的多
示例多標簽學習算法MIMLwel(Multi-InstanceMulti-LabelLearningwith
WeakLabel)。為了高效的實現大數據集的多標簽預測,又有人提出了
MIMLfast算法,該算法首先構建一個所有標簽共用的低維子空間,然后利
用隨機梯度下降法訓練標簽特定的線性模型,從而優化排序損失。

以上算法盡管在解決多示例多標簽問題上取得了較好的效果,但均未考
慮包內示例的相關性。而在很多實際應用中,尤其是場景分類問題,示例的
獨立性假設是很難保證的,這樣就會導致分類效果不理想。

發明內容

本發明所要解決的技術問題是提供一種基于多核融合的多示例多標簽
場景分類方法,提高場景分類準確性。

本發明解決上述技術問題的技術方案如下:一種基于多核融合的多示例
多標簽場景分類方法,包括以下步驟:

步驟1,輸入一個多示例多標簽數據集,記為
并將所述多示例多標簽數據集拆分成一個多示例數據集X={Xi|i=1,2,...,m}和
一個多標簽數據集Y={Yi|i=1,2,...,m};

其中,i為多示例多標簽數據集中多示例數據包的編號,m為包的總個
數,m取正整數;Xi指多示例數據集X中編號為i的多示例數據包,記為
xi1表示多示例數據包Xi中編號為1的示例,xi2表示多示例
數據包Xi中編號為2的示例,表示多示例數據包Xi中編號為ni的示例,ni
指編號為i的包中包含的示例個數,ni取值為正整數;yi1表
示標簽數據集Yi中編號為1的標簽,yi2表示標簽數據集Yi中編號為2的標簽,
表示標簽數據集Yi中編號為li的標簽,li為標簽數據集Yi中包含的標簽個
數,li取值為正整數;

步驟2,使用多個閾值中的每一個閾值分別對每個多示例數據包Xi建立
相關性矩陣,則在同一閾值下,每一個多示例數據包都會建立一個相關性矩
陣Wis;所述閾值ts∈(t1,t2,...,tS),其中,S為閾值的總個數,s表示閾值的編號;

步驟3,根據步驟2中得到的相關性矩陣求同一閾值下每兩個多示例數
據包之間的基本核函數,所述多個基本核函數值組成基本核矩陣,所述基本
核矩陣中的元素值為同一閾值下每兩個多示例數據包之間的基本核函數值,
所述基本核矩陣中元素值的行號和列號分別對應兩個多示例數據包的編號;
針對不同的閾值,則會得到不同閾值下的基本核矩陣Kgs,g為基本核矩陣標
識,s為基本核矩陣的編號,與所述閾值的編號一一對應;

步驟4,將步驟3中得到的不同閾值下的基本核矩陣Kgs中相同位置的元
素進行組合,得到一個多核函數K(Xi,Xj),所述多個多核函數值組成多核矩
陣,即所述多核矩陣K中的元素值對應每兩個多示例數據包之間的多核函數
值;

步驟5,利用多標簽數據集Yi和步驟4中得到的多核函數進行學習,得
到多個多核SVM分類器,所述分類器的數量與所述多標簽數據集中的標簽
類數量相同,所述分類器用于對未知多示例數據包的標簽集進行預測從而實
現場景分類。

本發明的有益效果是:通過使用不同的閾值分別對每一個多示例數據包
建立相關性矩陣,則可以將多示例數據包內示例之間的相關性表達出來,然
后將建立的相關性矩陣進行處理得到每一個閾值下的基本核矩陣,進而將每
一個基本核矩陣中相同位置元素組合得到多核矩陣,采用多核融合的方式得
到多核函數,可以針對數據集中的多標簽進行學習,從而得到多個多核SVM
分類器,適用于多標簽分類問題,同時也能適用于樣本集數據異構等復雜情
況。

在上述技術方案的基礎上,本發明還可以做如下改進。

進一步,所述步驟2中使用一個閾值對一個包Xi建立相關性矩陣的過程
具體為:

步驟2.1,定義一個ni×ni的矩陣W,所述矩陣中的行號和列號分別對應
多示例數據包Xi中兩個示例的編號;

步驟2.2,判斷示例xia和示例xiu之間的高斯距離是否小于閾值t,若示例
xia和示例xiu之間的高斯距離小于閾值ts,則將矩陣W的第a行第u列的元素賦
值為1;否則賦值為0;a,u均為示例編號,均取值為[1,ni]之間的整數;直
至將矩陣W中的每一個元素都賦值完,得到多示例數據包Xi的相關性矩陣
Wis,其中,Wis的上標s表示閾值的編號,Wis的下標i表示多示例數據包的編
號。

采用上述進一步方案的有益效果是:用一個相關性矩陣將多示例數據包
內示例間的相關關系表示出來,使多示例數據包由多個示例表示轉化為由一
個相關性矩陣表示,而由于不同類別標簽的預測對應的相關性矩陣的閾值有
所不同,所以不同閾值下的相關性矩陣的建立能夠更好地解決多標簽分類問
題。

進一步,所述步驟2.2中的閾值ts取值為[0,4],所述閾值的個數為[10,15]。

采用上述進一步方案的有益效果是通過對閾值個數限定在一個范圍內,
避免了由于閾值個數太多而增加方法的復雜度。

進一步,所述步驟3按照以下公式求同一個閾值下每兩個多示例數據包
之間的基本核函數:

K g s ( X i , X j ) = Σ a = 1 n i Σ b = 1 n j W i a s W j b s k s ( x i a , x j b ) Σ a = 1 n i W i a s Σ b = 1 n j W j b s ]]>

其中,Xi,Xj分別表示編號為i和編號為j的多示例數據包,Kgs(Xi,Xj)為
多示例數據包Xi和多示例數據包Xj之間的基本核函數,g為基本核矩陣標
識,s為基本核矩陣的編號,與所述閾值的編號一一對應;

為多示例數據包Xi對應的閾值為ts的相關性矩陣中第a行所有元素之
和的倒數,其中,i為多示例數據包的編號,s為基本核矩陣的編號,與所述
閾值的編號一一對應,a為所述多示例數據包Xi對應的閾值為ts的相關性矩
陣中的行號;表示多示例數據包Xi對應的閾值為ts的相關
性矩陣Wis中第a行第u列的元素值,ni為多示例數據包Xi對應的閾值為ts的相
關性矩陣的總行數或總列數,與多示例數據包Xi中的示例個數相等;

為多示例數據包Xj對應的閾值為ts的相關性矩陣中第b行所有元素之
和的倒數,其中,j為多示例數據包的編號;表示多示例
數據包Xj對應的閾值為ts的相關性矩陣中第b行第v列的元素值;nj為多
示例數據包Xj對應的相關性矩陣的總行數或總列數,與多示例數據包Xj中
的示例個數相等;

ks(xia,xjb)為一般核函數,由徑向基核函數求得,具體為:
ks(xia,xjb)=exp(-γ||xia-xjb||2);其中,s為閾值的編號;xia為多示例數據包Xi中
編號為a的示例,i為多示例數據包的編號,a為示例的編號;xjb為多示例數
據包Xj中編號為b的示例,j為多示例數據包的編號,b為示例的編號;
exp(-γ||xia-xjb||2)為以e為底數的指數函數,
e=2.71828,冪為-γ||xia-xjb||2,||xia-xjb||為xia-xjb的范數,γ為核系數,取任
意值,針對不同的基本核矩陣,核系數γ取不同值。

采用上述進一步方案的有益效果是通過使用一般核函數及相關性矩陣
來表達兩個多示例數據包之間的基本核函數,充分考慮了多示例數據包內示
例之間的相關性特征,同時將特征從低維空間映射到高維空間,實現分類。

進一步,所述步驟4中采用凸組合對不同閾值下的基本核矩陣Kgs中相
同位置的元素進行組合,所述經過凸組合得到的多核函數為:

K ( X i , X j ) = Σ s = 1 S d s K g s ( X i , X j ) , d s 0 , Σ s = 1 S d s = 1 ; ]]>

式中,K(Xi,Xj)為多示例數據包Xi和多示例數據包Xj之間的多核函數,
也是多核矩陣中第i行第j列的元素;ds為權系數;s為閾值的編號,取值為
正整數;S為基本核矩陣的總個數,Kgs(Xi,Xj)為多示例數據包Xi和多示例數
據包Xj之間的基本核函數,也是基本核矩陣Kgs中第i行第j列的元素。

采用上述進一步方案的有益效果是采用凸組合將多個基本核函數進行
組合,從而達到組合多個特征空間的目的,使得原數據集映射到多個不同的
特征空間,經過凸組合使得方法的靈活性和準確性更高,能夠適用于標簽分
類問題,同時也能夠較好地解決樣本集數據異構等復雜情況。

本發明一種基于多核融合的多示例多標簽場景分類系統,包括:

輸入模塊,用于輸入一個多示例多標簽數據
集,記為并將所述多示例多標簽數據集拆分成一個多示例數據集
X={Xi|i=1,2,...,m}和一個多標簽數據集Y={Yi|i=1,2,...,m};

其中,i為多示例多標簽數據集中多示例數據包的編號,m為包的總個
數,m取正整數;Xi指多示例數據集X中編號為i的多示例數據包,記為
xi1表示多示例數據包Xi中編號為1的示例,xi2表示多示例
數據包Xi中編號為2的示例,表示多示例數據包Xi中編號為ni的示例,ni
指編號為i的包中包含的示例個數,ni取值為正整數;yi1表
示標簽數據集Yi中編號為1的標簽,yi2表示標簽數據集Yi中編號為2的標簽,
表示標簽數據集Yi中編號為li的標簽,li為標簽數據集Yi中包含的標簽個
數,li取值為正整數;

相關性矩陣建立模塊,用于使用多個閾值中的每一個閾值分別對每個多
示例數據包Xi建立相關性矩陣,則在同一閾值下,每一個多示例數據包都會
建立一個相關性矩陣Wis;所述閾值ts∈(t1,t2,...,tS),其中,S為閾值的總個數,
s表示閾值的編號;

基本核矩陣模塊,用于根據相關性矩陣建立模塊中得到的相關性矩陣求
同一閾值下每兩個多示例數據包之間的基本核函數,所述多個基本核函數值
組成基本核矩陣,所述基本核矩陣中的元素值為同一閾值下每兩個多示例數
據包之間的基本核函數值,所述基本核矩陣中元素值的行號和列號分別對應
兩個多示例數據包的編號;針對不同的閾值,則會得到不同閾值下的基本核
矩陣Kgs,g為基本核矩陣標識,s為基本核矩陣的編號,與所述閾值的編號
一一對應;

組合模塊,用于將基本核矩陣模塊中得到的不同閾值下的基本核矩陣
Kgs中相同位置的元素進行組合,得到一個多核函數K(Xi,Xj),所述多個多
核函數值組成多核矩陣,即所述多核矩陣K中的元素值對應每兩個多示例數
據包之間的多核函數值;

學習模塊,用于利用多標簽數據集Yi和組合模塊中得到的多核函數進行
學習,得到多個多核SVM分類器,所述分類器的數量與所述多標簽數據集
中的標簽類數量相同,所述分類器用于對未知多示例數據包的標簽集進行預
測從而實現場景分類。

采用上述技術方案的有益效果是:通過使用不同的閾值分別對每一個多
示例數據包建立相關性矩陣,則可以將多示例數據包內示例之間的相關性表
達出來,然后將建立的相關性矩陣進行處理得到每一個閾值下的基本核矩
陣,進而將每一個基本核矩陣中相同位置元素組合得到多核矩陣,采用多核
融合的方式得到多核函數,可以針對數據集中的多標簽進行學習,從而得到
多個多核SVM分類器,適用于多標簽分類問題,同時也能適用于樣本集數
據異構等復雜情況。

進一步,所采用的技術方案是:

所述相關性矩陣建立模塊中使用一個閾值對一個包Xi建立相關性矩陣
的過程具體為:

步驟2.1,定義一個ni×ni的矩陣W,所述矩陣中的行號和列號分別對應
多示例數據包Xi中兩個示例的編號;

步驟2.2,判斷示例xia和示例xiu之間的高斯距離是否小于閾值t,若示例
xia和示例xiu之間的高斯距離小于閾值ts,則將矩陣W的第a行第u列的元素賦
值為1;否則賦值為0;a,u均為示例編號,均取值為[1,ni]之間的整數;直
至將矩陣W中的每一個元素都賦值完,得到多示例數據包Xi的相關性矩陣
Wis,其中,Wis的上標s表示閾值的編號,Wis的下標i表示多示例數據包的編
號。

采用上述進一步技術方案的有益效果是:用一個相關性矩陣將多示例數
據包內示例間的相關關系表示出來,使多示例數據包由多個示例表示轉化為
由一個相關性矩陣表示,而由于不同類別標簽的預測對應的相關性矩陣的閾
值有所不同,所以不同閾值下的相關性矩陣的建立能夠更好地解決多標簽分
類問題。

進一步,所采用的技術方案是:所述步驟2.2中的閾值t取值為[0,4],
所述閾值的個數為[10,15]。

采用上述進一步方案的有益效果是通過對閾值個數限定在一個范圍內,
避免了由于閾值個數太多而增加方法的復雜度。

進一步,所采用的技術方案是:所述基本核矩陣模塊按照以下公式求每
兩個多示例數據包之間的基本核函數:

K g s ( X i , X j ) = Σ a = 1 n i Σ b = 1 n j W i a s W j b s k s ( x i a , x j b ) Σ a = 1 n i W i a s Σ b = 1 n j W j b s ; ]]>

其中,Xi,Xj分別表示編號為i和編號為j的多示例數據包,Kgs(Xi,Xj)為
多示例數據包Xi和多示例數據包Xj之間的基本核函數,g為基本核矩陣標
識,s為基本核矩陣的編號,與所述閾值的編號一一對應;

為多示例數據包Xi對應的閾值為ts的相關性矩陣中第a行所有元素之
和的倒數,其中,i為多示例數據包的編號,s為基本核矩陣的編號,與所述
閾值的編號一一對應,a為所述多示例數據包Xi對應的閾值為ts的相關性矩
陣中的行號;表示多示例數據包Xi對應的閾值為ts的相關
性矩陣Wis中第a行第u列的元素值,ni為多示例數據包Xi對應的閾值為ts的相
關性矩陣的總行數或總列數,與多示例數據包Xi中的示例個數相等;

為多示例數據包Xj對應的閾值為ts的相關性矩陣中第b行所有元素之
和的倒數,其中,j為多示例數據包的編號;表示多示例
數據包Xj對應的閾值為ts的相關性矩陣中第b行第v列的元素值;nj為多
示例數據包Xj對應的相關性矩陣的總行數或總列數,與多示例數據包Xj中
的示例個數相等;

ks(xia,xjb)為一般核函數,由徑向基核函數求得,具體為:
ks(xia,xjb)=exp(-γ||xia-xjb||2);其中,s為閾值的編號;xia為多示例數據包Xi中
編號為a的示例,i為多示例數據包的編號,a為示例的編號;xjb為多示例數
據包Xj中編號為b的示例,j為多示例數據包的編號,b為示例的編號;
exp(-γ||xia-xjb||2)為以e為底數的指數函數,
e=2.71828,冪為-γ||xia-xjb||2,||xia-xjb||為xia-xjb的范數,γ為核系數,取任
意值,針對不同的基本核矩陣,核系數γ取不同值。

采用上述技術方案的有益效果是通過使用一般核函數及相關性矩陣來
表達兩個多示例數據包之間的基本核函數,充分考慮了多示例數據包內示例
之間的相關性特征,同時將特征從低維空間映射到高維空間,實現分類。

進一步,所采用的技術方案是:所述組合模塊采用凸組合對不同閾值下
的基本核矩陣Kgs中相同位置的元素進行組合,所述經過凸組合得到的多核
函數為:

K ( X i , X j ) = Σ s = 1 S d s K g s ( X i , X j ) , d s 0 , Σ s = 1 S d s = 1 ; ]]>

式中,K(Xi,Xj)為多示例數據包Xi和多示例數據包Xj之間的多核函數,
也是多核矩陣中第i行第j列的元素;ds為權系數;s為閾值的編號,取值為
正整數;S為基本核矩陣的總個數,Kgs(Xi,Xj)為多示例數據包Xi和多示例數
據包Xj之間的基本核函數,也是基本核矩陣Kgs中第i行第j列的元素。

采用上述進一步方案的有益效果是采用凸組合將多個基本核函數進行
組合,從而達到組合多個特征空間的目的,使得原數據集映射到多個不同的
特征空間,經過凸組合使得方法的靈活性和準確性更高,能夠適用于標簽分
類問題,同時也能夠較好地解決樣本集數據異構等復雜情況。

附圖說明

圖1為本發明一種基于多核融合的多示例多標簽場景分類方法的流程示
意圖。

具體實施方式

以下結合附圖對本發明的原理和特征進行描述,所舉實例只用于解釋本
發明,并非用于限定本發明的范圍。

如圖1所示,本發明一種基于多核融合的多示例多標簽場景分類方法,
包括以下步驟:

步驟1,輸入一個多示例多標簽數據集,記為
并將所述多示例多標簽數據集拆分成一個多示例數據集X={Xi|i=1,2,...,m}和
一個多標簽數據集Y={Yi|i=1,2,...,m};

其中,i為多示例多標簽數據集中多示例數據包的編號,m為包的總個
數,m取正整數;Xi指多示例數據集X中編號為i的多示例數據包,記為
xi1表示多示例數據包Xi中編號為1的示例,xi2表示多示例
數據包Xi中編號為2的示例,表示多示例數據包Xi中編號為ni的示例,ni
指編號為i的包中包含的示例個數,ni取值為正整數;yi1表
示標簽數據集Yi中編號為1的標簽,yi2表示標簽數據集Yi中編號為2的標簽,
表示標簽數據集Yi中編號為li的標簽,li為標簽數據集Yi中包含的標簽個
數,li取值為正整數;

步驟2,使用多個閾值中的每一個閾值分別對每個多示例數據包Xi建立
相關性矩陣,則在同一閾值下,每一個多示例數據包都會建立一個相關性矩
陣Wis;所述閾值ts∈(t1,t2,...,tS),其中,S為閾值的總個數,s表示閾值的編號;

步驟2中使用一個閾值對一個包Xi建立相關性矩陣的過程具體為:

步驟2.1,定義一個ni×ni的矩陣W,所述矩陣中的行號和列號分別對應
多示例數據包Xi中兩個示例的編號;

步驟2.2,判斷示例xia和示例xiu之間的高斯距離是否小于閾值t,若示例
xia和示例xiu之間的高斯距離小于閾值ts,則將矩陣W的第a行第u列的元素
賦值為1;否則賦值為0;a,u均為示例編號,均取值為[1,ni]之間的整數;
直至將矩陣W中的每一個元素都賦值完,得到多示例數據包Xi的相關性矩陣
Wis,其中,Wis的上標s表示閾值的編號,Wis的下標i表示多示例數據包的編
號;閾值ts取值為[0,4],所述閾值的個數為[10,15]。

例如:設有3幅圖像,即3個包,編號分別為1,2,3;每一個包中分
別包含2個,6個,7個示例,選取3個閾值為:t1,t2,t3;

首先,使用閾值t1分別對這3個包建立相關性矩陣,具體為:

對于第一個包,定義一個2×2的矩陣,判斷包1中示例1和示例1之間
的高斯距離是否小于t1,若小于,則將該矩陣的第1行第1列的元素賦值為
1;否則賦值為0;然后依次判斷示例1和示例2,示例2和示例1,示例2
和示例2之間的高斯距離是否小于閾值t1,若小于,則將該矩陣第1行第2
列,第2行第1列,第2行第2列的元素賦值為1;否則賦值為0;得到閾
值為t1時的相關性矩陣W11;

對于第二個包,定義一個6×6的矩陣,判斷包2中每兩個示例之間的高
斯距離是否小于t1,若小于,則將該矩陣對應位置的元素賦值為1,否則賦
值為0;得到閾值為t1時的相關性矩陣W12;

對于第三個包,同理得到閾值為t1的相關性矩陣W13;

同理,使用閾值t2分別對這3個包建立相關性矩陣,分別為

同理,使用閾值t3分別對這3個包建立相關性矩陣,分別為

步驟3,根據步驟2中得到的相關性矩陣求同一閾值下每兩個多示例數
據包之間的基本核函數,所述多個基本核函數值組成基本核矩陣,所述基本
核矩陣中的元素值為同一閾值下每兩個多示例數據包之間的基本核函數值,
所述基本核矩陣中元素值的行號和列號分別對應兩個多示例數據包的編號;
針對不同的閾值,則會得到不同閾值下的基本核矩陣Kgs,g為基本核矩陣標
識,s為基本核矩陣的編號,與所述閾值的編號一一對應;

步驟3按照以下公式求同一個閾值下每兩個多示例數據包之間的基本核
函數:

K g s ( X i , X j ) = Σ a = 1 n i Σ b = 1 n j W i a s W j b s k s ( x i a , x j b ) Σ a = 1 n i W i a s Σ b = 1 n j W j b s ]]>

其中,Xi,Xj分別表示編號為i和編號為j的多示例數據包,Kgs(Xi,Xj)為
多示例數據包Xi和多示例數據包Xj之間的基本核函數,g為基本核矩陣標
識,s為基本核矩陣的編號,與所述閾值的編號一一對應;

為多示例數據包Xi對應的閾值為ts的相關性矩陣中第a行所有元素之
和的倒數,其中,i為多示例數據包的編號,s為基本核矩陣的編號,與所述
閾值的編號一一對應,a為所述多示例數據包Xi對應的閾值為ts的相關性矩
陣中的行號;表示多示例數據包Xi對應的閾值為ts的相關
性矩陣Wis中第a行第u列的元素值,ni為多示例數據包Xi對應的閾值為ts的相
關性矩陣的總行數或總列數,與多示例數據包Xi中的示例個數相等;

為多示例數據包Xj對應的閾值為ts的相關性矩陣中第b行所有元素之
和的倒數,其中,j為多示例數據包的編號;表示多示例
數據包Xj對應的閾值為ts的相關性矩陣中第b行第v列的元素值;nj為多
示例數據包Xj對應的相關性矩陣的總行數或總列數,與多示例數據包Xj中
的示例個數相等;

ks(xia,xjb)為一般核函數,由徑向基核函數求得,具體為:
ks(xia,xjb)=exp(-γ||xia-xjb||2);其中,s為閾值的編號;xia為多示例數據包Xi中
編號為a的示例,i為多示例數據包的編號,a為示例的編號;xjb為多示例數
據包Xj中編號為b的示例,j為多示例數據包的編號,b為示例的編號;
exp(-γ||xia-xjb||2)為以e為底數的指數函數,
e=2.71828,冪為-γ||xia-xjb||2,||xia-xjb||為xia-xjb的范數,γ為核系數,取任
意值,針對不同的基本核矩陣,核系數γ取不同值。

步驟4,將步驟3中得到的不同閾值下的基本核矩陣Kgs中相同位置的元
素進行組合,得到一個多核函數K(Xi,Xj),所述多個多核函數值組成多核矩
陣,即所述多核矩陣K中的元素值對應每兩個多示例數據包之間的多核函數
值;

步驟4中采用凸組合對不同閾值下的基本核矩陣Kgs中相同位置的元素
進行組合,所述經過凸組合得到的多核函數為:

K ( X i , X j ) = Σ s = 1 S d s K g s ( X i , X j ) , d s 0 , Σ s = 1 S d s = 1 ]]>

式中,K(Xi,Xj)為多示例數據包Xi和多示例數據包Xj之間的多核函數,
也是多核矩陣中第i行第j列的元素;ds為權系數;s為閾值的編號,取值為
正整數;S為基本核矩陣的總個數,Kgs(Xi,Xj)為多示例數據包Xi和多示例數
據包Xj之間的基本核函數,也是基本核矩陣Kgs中第i行第j列的元素。

例如:分別將閾值t1,t2,t3下得到的基本核矩陣中相同位置的元素值進行
凸組合,得到多核矩陣中相同位置的元素值,同理,依次類推,則可以得到
多核矩陣。

步驟5,利用多標簽數據集Yi對步驟4中得到的多核函數學習,即得到
多個分類器,所述分類器的數量與所述多標簽數據集中的標簽數量相同,所
述分類器用于對未知多示例數據包的標簽集進行預測從而實現場景分類,具
體為采用SimpleMKL方法對多核函數學習。

本發明一種基于多核融合的多示例多標簽場景分類系統,包括:

輸入模塊,用于輸入一個多示例多標簽數據
集,記為并將所述多示例多標簽數據集拆分成一個多示例數據集
X={Xi|i=1,2,...,m}和一個多標簽數據集Y={Yi|i=1,2,...,m};

其中,i為多示例多標簽數據集中多示例數據包的編號,m為包的總個
數,m取正整數;Xi指多示例數據集X中編號為i的多示例數據包,記為
xi1表示多示例數據包Xi中編號為1的示例,xi2表示多示例
數據包Xi中編號為2的示例,表示多示例數據包Xi中編號為ni的示例,ni
指編號為i的包中包含的示例個數,ni取值為正整數;yi1表
示標簽數據集Yi中編號為1的標簽,yi2表示標簽數據集Yi中編號為2的標簽,
表示標簽數據集Yi中編號為li的標簽,li為標簽數據集Yi中包含的標簽個
數,li取值為正整數;

相關性矩陣建立模塊,用于使用多個閾值中的每一個閾值分別對每個多
示例數據包Xi建立相關性矩陣,則在同一閾值下,每一個多示例數據包都會
建立一個相關性矩陣Wis;所述閾值ts∈(t1,t2,...,tS),其中,S為閾值的總個數,
s表示閾值的編號;相關性矩陣建立模塊中使用一個閾值對一個包Xi建立相
關性矩陣的過程具體為:

步驟2.1,定義一個ni×ni的矩陣W,所述矩陣中的行號和列號分別對應
多示例數據包Xi中兩個示例的編號;

步驟2.2,判斷示例xia和示例xiu之間的高斯距離是否小于閾值t,若示例
xia和示例xiu之間的高斯距離小于閾值ts,則將矩陣W的第a行第u列的元素
賦值為1;否則賦值為0;a,u均為示例編號,均取值為[1,ni]之間的整數;
直至將矩陣W中的每一個元素都賦值完,得到多示例數據包Xi的相關性矩陣
Wis,其中,Wis的上標s表示閾值的編號,Wis的下標i表示多示例數據包的編
號;步驟2.2中的閾值t取值為[0,4],所述閾值的個數為[10,15]。

基本核矩陣模塊,用于根據相關性矩陣建立模塊中得到的相關性矩陣求
同一閾值下每兩個多示例數據包之間的基本核函數,所述多個基本核函數值
組成基本核矩陣,所述基本核矩陣中的元素值為同一閾值下每兩個多示例數
據包之間的基本核函數值,所述基本核矩陣中元素值的行號和列號分別對應
兩個多示例數據包的編號;針對不同的閾值,則會得到不同閾值下的基本核
矩陣Kgs,g為基本核矩陣標識,s為基本核矩陣的編號,與所述閾值的編號
一一對應;基本核矩陣模塊按照以下公式求每兩個多示例數據包之間的基本
核函數:

K g s ( X i , X j ) = Σ a = 1 n i Σ b = 1 n j W i a s W j b s k s ( x i a , x j b ) Σ a = 1 n i W i a s Σ b = 1 n j W j b s ; ]]>

其中,Xi,Xj分別表示編號為i和編號為j的多示例數據包,Kgs(Xi,Xj)為
多示例數據包Xi和多示例數據包Xj之間的基本核函數,g為基本核矩陣標
識,s為基本核矩陣的編號,與所述閾值的編號一一對應;

為多示例數據包Xi對應的閾值為ts的相關性矩陣中第a行所有元素之
和的倒數,其中,i為多示例數據包的編號,s為基本核矩陣的編號,與所述
閾值的編號一一對應,a為所述多示例數據包Xi對應的閾值為ts的相關性矩
陣中的行號;表示多示例數據包Xi對應的閾值為ts的相關
性矩陣Wis中第a行第u列的元素值,ni為多示例數據包Xi對應的閾值為ts的相
關性矩陣的總行數或總列數,與多示例數據包Xi中的示例個數相等;

為多示例數據包Xj對應的閾值為ts的相關性矩陣中第b行所有元素之
和的倒數,其中,j為多示例數據包的編號;表示多示例
數據包Xj對應的閾值為ts的相關性矩陣中第b行第v列的元素值;nj為多
示例數據包Xj對應的相關性矩陣的總行數或總列數,與多示例數據包Xj中
的示例個數相等;

ks(xia,xjb)為一般核函數,由徑向基核函數求得,具體為:
ks(xia,xjb)=exp(-γ||xia-xjb||2);其中,s為閾值的編號;xia為多示例數據包Xi中
編號為a的示例,i為多示例數據包的編號,a為示例的編號;xjb為多示例數
據包Xj中編號為b的示例,j為多示例數據包的編號,b為示例的編號;
exp(-γ||xia-xjb||2)為以e為底數的指數函數,
e=2.71828,冪為-γ||xia-xjb||2,||xia-xjb||為xia-xjb的范數,γ為核系數,取任
意值,針對不同的基本核矩陣,核系數γ取不同值。

組合模塊,用于將基本核矩陣模塊中得到的不同閾值下的基本核矩陣
Kgs中相同位置的元素進行組合,得到一個多核函數K(Xi,Xj),所述多個多
核函數值組成多核矩陣,即所述多核矩陣K中的元素值對應每兩個多示例數
據包之間的多核函數值;組合模塊采用凸組合對不同閾值下的基本核矩陣
Kgs中相同位置的元素進行組合,所述經過凸組合得到的多核函數為:

K ( X i , X j ) = Σ s = 1 S d s K g s ( X i , X j ) , d s 0 , Σ s = 1 S d s = 1 ; ]]>

式中,K(Xi,Xj)為多示例數據包Xi和多示例數據包Xj之間的多核函數,
也是多核矩陣中第i行第j列的元素;ds為權系數;s為閾值的編號,取值為
正整數;S為基本核矩陣的總個數,Kgs(Xi,Xj)為多示例數據包Xi和多示例數
據包Xj之間的基本核函數,也是基本核矩陣Kgs中第i行第j列的元素。

學習模塊,用于利用多標簽數據集Yi和組合模塊中得到的多核函數進行
學習,得到多個多核SVM分類器,所述分類器的數量與所述多標簽數據集
中的標簽類數量相同,所述分類器用于對未知多示例數據包的標簽集進行預
測從而實現場景分類。

下面通過實驗對本發明的效果進行說明:

為驗證本發明方法的性能,在MSRCv2和Scene圖像數據集上進行了
實驗。MSRCv2數據集包含591張圖片,共屬于23類,其中有很多圖像同
時屬于多類。通過分割,每張圖片用包含多個對應不同區域的特征向量組成。
場景分類圖像數據集由2000張自然場景圖片組成,這些圖片屬于沙漠、山
脈等5類,其中有超過20%的圖片同時屬于多個類別。每幅圖像利用SBN
算法分割成9個區域,每個區域由一個15維的特征向量表示,每幅圖像的9
個區域作為示例組成了該幅圖像對應的包。

在傳統的監督學習中,每個對象只有一個標簽,通常只用accuracy來評
價性能就可以了,但對于多標簽學習問題,需要對一個對象預測多類標簽,
僅用accuracy已經不具有說服力了,因此通常用5個指標來評價多標簽學習
性能,分別是hammingloss、one-error、coverage、rankingloss、average
precision。其中前4個指標的值越小,性能越好,averageprecision的值越大,
性能越好。此外還有兩個新的多標簽評價指標,分別為averagerecall、average
F1。averagerecall計算了被預測出的合適標簽的平均分數,averageF1描述
了平均精度與平均召回率之間的權衡,兩種評價指標越大,表示該算法的性
能越好。本發明實驗中綜合采用這7種評價指標(hammingloss、one-error、
coverage、rankingloss、averageprecision、averagerecall、averageF1)來評
價方法的性能,通過對比7種指標來對本發明的效果進行驗證說明。

MSRCv2圖像數據集上的實驗隨機選取2/3的樣本作為訓練集,剩余
的樣本用作測試。Scene圖像數據集上的實驗隨機選取1500個樣本作為訓練
集,剩余500個作為測試集。實驗重復30次,最后求得算法分類性能指標
的平均值及標準偏差。

對于MSRCv2,構圖閾值threshold=[0.2,0.4,0.6,0.8,1,1.2,1.4,1.6,1.8,2],不同
尺度對應的不同RBF核函數的參數gam=[0.2,0.4,0.6,0.8,1,1.2,1.4,1.6,1.8,2];

對于Scene圖像數據集,gam=[0.2,0.8,1.6,200,3.2,5.6,500,7,9,100],
threshold=[0.2,0.4,0.6,0.8,1,1.2,1.4,1.6,1.8,2]

實驗中將本發明方法與現有的多種多示例多標簽算法的分類性能指標
進行了比較,現有方法包括:MIMLBOOST、MIMLSVM、MIMLSVMmi、
MIMLNN、MIMLfast,以及KISAR。其中,MIMLSVMmi算法是在
MIMLBOOST算法的基礎上利用MI-SVM方法代替MIBOOSTING方法做出
的改進,MIMLNN算法是在MIMLSVM算法的基礎上利用兩層神經網絡代
替MLSVM方法做出的改進。另外,還與多標簽算法ML-kNN進行了對比。
MIMLfast算法的步長γt=γ0/(1+ηγ0t),γ0=0.005,η=10-5,范數的上界設為1。
MIMLBOOST中boosting輪數設為50。MIMLSVM的參數k設為訓練集的
20%。ML_kNN中最近鄰數設為10。

表1和表2分別給出了在兩個實驗數據集上的實驗對比結果,最優結果
用粗體表示。由表1看出,本發明方法在hammingloss、coverage、rankingloss、
averageprecision、averagerecall和averageF1上優于其他7種算法。MIMLNN
算法的性能和MK_MIML的性能相差不多。同時,通過比較整體性能的標
準偏差,我們看出MIMLNN的最小,MK_MIML次之,可見本發明方法的
穩定性高于現有的幾種方法。因此,本發明的方法提高了圖像場景分類的準
確性。

本文算法之所以能夠取得最好的分類效果,一是示例間的相關性特征能
夠更全面地表征包,使得分類準確性提高;二是多核融合的引入使得算法的
靈活性提高,更適用于多標簽的預測。同時,算法還存在一定的不足:一方
面,算法利用構圖來表示示例間的相關性,每個包對應一個圖,提高了算法
的復雜度;另一方面,多核融合的引入意味著要構造多個基本核函數,同時
針對每類標簽都要學得一個多核分類器,又提高了算法的復雜度。因此,如
何降低算法的復雜度還有待解決。

表1MSRCv2數據集上的實驗結果


表2Scene圖像數據集上的實驗結果


以上所述僅為本發明的較佳實施例,并不用以限制本發明,凡在本發明
的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發
明的保護范圍之內。

關 鍵 詞:
一種 基于 多核 融合 示例 標簽 場景 分類 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:一種基于多核融合的多示例多標簽場景分類方法.pdf
鏈接地址:http://www.wwszu.club/p-6401626.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大