鬼佬大哥大
  • / 22
  • 下載費用:30 金幣  

自適應多標簽預測方法.pdf

摘要
申請專利號:

CN201510501816.7

申請日:

2015.08.14

公開號:

CN105069129A

公開日:

2015.11.18

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 17/30申請日:20150814|||公開
IPC分類號: G06F17/30 主分類號: G06F17/30
申請人: 合肥工業大學
發明人: 胡學鋼; 王博巖; 李培培
地址: 230009安徽省合肥市包河區屯溪路193號
優先權: 2015103550309 2015.06.24 CN
專利代理機構: 安徽省合肥新安專利代理有限責任公司34101 代理人: 陸麗莉; 何梅生
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510501816.7

授權公告號:

||||||

法律狀態公告日:

2018.05.18|||2015.12.16|||2015.11.18

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明公開了一種自適應多標簽預測方法,其特征是按如下步驟進行:1、獲得初始化示例集;2、獲得初始化示例集中的領袖示例、局外示例和選民示例;3、獲得選民示例集的所屬聚類;4、采用支持向量機對預測示例進行粗分類;5、對預測示例進行多標簽預測。本發明能準確地對網絡信息加上標簽,提高多標簽預測的準確性、普適性、可解釋性以及可移轉性,從而實現大數據環境下智能信息分類和處理。

權利要求書

1.一種自適應多標簽預測方法,其特征是按如下步驟進行:
步驟1:獲得初始化示例集D:
步驟1.1、由num′個已知對象建立原始示例集D′={inst′1,inst′2,…,inst′a,…,inst′num′},inst′a表
示第a個已知對象所對應的原始示例;1≤a≤num′;并有inst′a={attr′a;lab′a};attr′a表示所述
第a個已知對象特征的屬性集;lab′a表示所述第a個已知對象語義的標簽集;并有
attr′a={attr′a,1,attr′a,2,…,attr′a,n};attr′a,n表示第a個已知對象的第n個屬性;n為第a個已知對象
的屬性數;lab′a={lab′a,1,lab′a,2,…,lab′a,x,…,lab′a,m};lab′a,x表示第a個已知對象的第x個標簽;m
為第a個已知對象的標簽數;1≤x≤m;并有:lab′a,x=1表示第a個已知對象語義符合第x個
標簽;lab′a,x=0表示第a個已知對象語義不符合第x個標簽;
步驟1.2、對所述原始示例集D′中的num′個已知對象特征的屬性集
{attr′1,attr′2,…,attr′a,…,attr′num′}分別進行歸一化處理,獲得歸一化處理后的num′個已知對象特
征的屬性集{attr″1,attr″2,…,attr″a,…,attr″num′};當所述歸一化后的第a個已知對象特征的屬性集
arrta″對應的m個標簽值均為0時,刪除所述歸一化后的第a個已知對象所屬的原始示例;從
而獲得num個示例構成的初始化示例集D={inst1,inst2,…,insti,…,instnum};insti表示初始化后
的第i個已知對象所對應的示例;并有insti={attri;labi};attri表示初始化后的第i個示例特征
的屬性集;labi表示初始化后的所述第i個示例語義的標簽集;1≤i≤num;
步驟2:求解所述初始化示例集D中各示例的群聚度,從而確定初始化示例集D中的領
袖示例、局外示例和選民示例:
步驟2.1、將所述初始化示例集D中num個示例中的每個示例的m個標簽分別作為m維
坐標,從而獲得第i個示例insti與第k個示例instk標簽的歐式距離dik;1≤k≤num且k≠i;
步驟2.2、定義迭代次數γ;并初始化γ=1;定義所述第i個示例insti的所屬聚類為clui;
步驟2.3、利用式(1)獲得第γ次迭代的第i個示例insti的內聚合度從而獲得第γ次
迭代的num個示例的內聚合度并將最大的內聚合度記為

ρ i ( γ ) = Σ k = 1 n u m f ( d i k - d c ( γ ) ) - - - ( 1 ) ]]>
式(1)中,為第γ次迭代的閾值;當 d i k d c ( γ ) ]]>時, f ( d i k - d c ( γ ) ) = 1 ; ]]> d i k > d c ( γ ) ]]>時,
f ( d i k - d c ( γ ) ) = 0 ; ]]>
步驟2.4、利用式(2)或式(3)獲得第γ次迭代的第i個示例insti的差異度從而獲得第γ
次迭代的num個示例的差異度 δ ( γ ) = { δ 1 ( γ ) , δ 2 ( γ ) , ... , δ i ( γ ) , ... , δ n u m ( γ ) } : ]]>
δ i ( γ ) = Σ k = 1 n u m m a x ( d i k ) , ]]> ρ i ( γ ) = ρ max ( γ ) - - - ( 2 ) ]]>
ρ i ( γ ) ρ max ( γ ) - - - ( 3 ) ]]>
步驟2.5、對所述第γ次迭代的num個示例的差異度δ(γ)進行歸一化處理,獲得歸一化后
的差異度 δ ( γ ) = { δ 1 ( γ ) , δ 2 ( γ ) , ... , δ i ( γ ) , ... , δ n u m ( γ ) } ; ]]>
步驟2.6、利用式(4)獲得第γ次迭代的第i個示例insti的群聚度從而獲得第γ次迭
代的num個示例的群聚度 sco ( γ ) = { sco 1 ( γ ) , sco 2 ( γ ) , ... , sco i ( γ ) ... , sco n u m ( γ ) } : ]]>
sco i ( γ ) = ρ i ( γ ) × δ i ( γ ) - - - ( 4 ) ]]>
步驟2.7、對所述第γ次迭代的num個示例的群聚度sco(γ)進行降序排列,獲得群聚度序
列并令與所述群聚度序列sco′(γ)相對應的內聚合度
ρ ( γ ) = { ρ 1 ( γ ) , ρ 2 ( γ ) , ... , ρ t ( γ ) , ... , ρ n u m ( γ ) } ; ]]>表示當 sco i ( γ ) = sco t ( γ ) ]]>時的第γ次迭代的第i個示例
insti的內聚合度;1≤t≤num;
步驟2.8、初始化t=1;
步驟2.9、判斷且是否成立,若成立,則第γ次迭代
的閾值為有效值,并記錄t后,執行步驟2.10;否則,判斷是否成立,若成立,
則將t+1賦值給t,并重復執行步驟2.9;否則,修改閾值將γ+1賦值給γ,并返回執行
步驟2.3;
步驟2.10、若第γ次迭代的第i個示例insti的內聚合度是否滿足若滿足,則
所述第i個示例insti為局外示例,且令所述第i個示例insti的所屬聚類clui=-1;否則,判斷
是否成立,若成立,則第i個示例insti為領袖示例,且令clui=i,否則,第i個
示例insti為選民示例;
步驟2.11、統計所述領袖示例的個數和所述選民示例的個數,并分別記為N和M;
步驟2.12、記N個領袖示例集為 D ( l ) = { inst 1 ( l ) , inst 2 ( l ) , ... , inst α ( l ) , ... , inst N ( l ) } , ]]>1≤α≤N;則
與所述N個領袖示例集D(l)相對應的內聚合度為
表示第α個領袖示例的內聚合度;與所述N個領袖示例集D(l)相對應的標簽集為
lab ( l ) = { lab 1 ( l ) , lab 2 ( l ) , ... , lab α ( l ) , ... , lab N ( l ) } ; ]]>表示第α個領袖示例的標簽集;與所述N個
領袖示例集D(l)相對應的所屬聚類為 clu ( l ) = { clu 1 ( l ) , clu 2 ( l ) , ... , clu α ( l ) , ... , clu N ( l ) } ; ]]>表示第α個
領袖示例的所屬聚類;
步驟2.13、記M個選民示例集為 D ( v ) = { inst 1 ( v ) , inst 2 ( v ) , ... , inst β ( v ) , ... , inst M ( v ) } , ]]>1≤β≤M;則
與所述M個選民示例集D(v)相對應的內聚合度為 ρ ( v ) ( γ ) = { ρ 1 ( v ) ( γ ) , ρ 2 ( v ) ( γ ) , ... , ρ β ( v ) ( γ ) , ... , ρ M ( v ) ( γ ) } ; ]]>
表示第β個選民示例的內聚合度;與所述M個選民示例集D(v)相對應的標簽集為
lab ( v ) = { lab 1 ( v ) , lab 2 ( v ) , ... , lab β ( v ) , ... , lab M ( v ) } ; ]]>表示第β個選民示例的標簽集;與所述M
個選民示例集D(v)相對應的所屬聚類為 clu ( v ) = { clu 1 ( v ) , clu 2 ( v ) , ... , clu β ( v ) , ... , clu M ( u ) } ; ]]>表示第β
個選民示例的所屬聚類;
步驟3:獲得所述M個選民示例集D(v)的所屬聚類clu(v):
步驟3.1、定義迭代次數χ;并初始化χ=1;并定義第z個中轉示例instz;z≥0;并初
始化α=1、β=1、z=0;
步驟3.2、從所述N個領袖示例集D(l)中選取任第α個領袖示例獲得所述第α個
領袖示例為與第χ次迭代的第β個選民示例標簽的歐式距離
步驟3.3、若時,則將β+1賦值給β,并判斷β≤M是否成立,若成立,重
復執行步驟3.3;否則執行步驟3.5;若時,判斷第χ次迭代的第β個選民示例
的所屬聚類是否為空,若為空,則執行步驟3.4;否則,表示第χ次迭代的第β個選民
示例的所屬聚類的值為第χ次迭代現有的領袖示例的下標,記為執行步驟
3.11;
步驟3.4、將第α個領袖示例的下標α(l)賦值給并將z+1賦值給z,令
表示將第χ次迭代的第β個選民示例中的下標βχ、標簽集內聚
合度和所屬聚類均賦值給第χ次迭代的第z個中轉示例的下標、標簽集、內
聚合度和所屬聚類;并將β+1賦值給β;判斷β≤M是否成立,若成立,則執行步驟3.3;
否則執行步驟3.5;
步驟3.5、若z≤0,則執行步驟3.14;否則,將χ+1賦值給χ,并將
依次賦值給令β=1;并獲
得所述第χ次迭代的第β個選民示例與第χ次迭代第z個中轉示例標簽的歐式距
離并將z-1賦值給z;
步驟3.6、若時,則將β+1賦值給β,并判斷β≤M是否成立,若成立,重
復執行步驟3.6;否則執行步驟3.5;若時,判斷第χ次迭代的第β個選民示例
的所屬聚類是否為空,若為空,則執行步驟3.7;否則,表示第χ次迭代的第β個選民
示例的所屬聚類的值為第χ次迭代現有的領袖示例的下標,記為執行步驟
3.8;
步驟3.7、將第χ次迭代的第z個中轉示例的下標z(χ)賦值給并將z+1賦值
給z,令并將β+1賦值給β;并判斷β≤M是否成立,若成立,則重復執行
步驟3.6;否則執行步驟3.5;
步驟3.8、利用式(5)獲得第χ次迭代的第β選民示例與所述第χ次迭代現有領袖示
例的影響力
gra β χ ϵ ( v ) ( β χ ) = ρ β χ ( v ) × ρ ϵ ( β χ ) d β χ ϵ ( v ) ( β χ ) - - - ( 5 ) ]]>
步驟3.9、利用式(6)獲得第χ次迭代的第β個選民示例與第χ次迭代的第z個中轉
示例的影響力
gra β χ z ( v ) ( χ ) = ρ β χ ( v ) × ρ z ( χ ) d β χ z ( v ) ( χ ) - - - ( 6 ) ]]>
步驟3.10、若則將β+1賦值給β,并執行步驟3.6;否則,令
并將z+1賦值給z,令并將β+1賦值給β,并判斷β≤M是否
成立,若成立,則執行步驟3.6;否則執行步驟3.5;
步驟3.11、利用式(7)獲得第χ次迭代的第β選民示例與所述第χ次迭代現有領袖
示例的影響力
gra β χ ϵ ( v ) ( β χ ) = ρ β χ ( v ) × ρ ϵ ( β χ ) d β χ ϵ ( v ) ( β χ ) - - - ( 7 ) ]]>
步驟3.12、利用式(8)獲得第χ次迭代的第β個選民示例與第α個領袖示例的
影響力
gra β χ α ( v ) ( l ) = ρ β χ ( v ) × ρ α ( l ) d β χ α ( v ) ( l ) - - - ( 8 ) ]]>
步驟3.13、若則將β+1賦值給β,并執行步驟3.3;否則,將第α個
領袖示例的下標α(l)賦值給并將z+1賦值給z,令并將β+1賦值
給β,并判斷β≤M是否成立,若成立,則執行步驟3.3;否則執行步驟3.5;
步驟3.14、將α+1賦值給α;并判斷α≤N是否成立,若成立,令β=1,并執行步驟
3.2;否則執行步驟3.15;
步驟3.15、將第χ次迭代時所述M個選民示例集D(v)相對應的所屬聚類
依次賦值給所述M個選民示例集D(v)相對應的所屬聚類
{ clu 1 ( v ) , clu 2 ( v ) , ... , clu β ( v ) , ... , clu M ( v ) } ; ]]>
步驟3.16、判斷是否還存在所屬聚類為空的選民示例,若存在,則設置所屬聚類為空的
選民示例的所屬聚類的值為-1;
步驟4;采用支持向量機對預測示例進行粗分類:
4.1、建立由nump個預測示例組成的預測示例集P={instp1,instp2,…,instpj,…,instpnump};
instpj表示第j個預測示例;1≤j≤nump;并有instpj={attrpj;labpj};arrtpj表示第j個預測
示例instpj的屬性集;labpj表示第j個預測示例instpj的標簽集;記所述第j個預測示例instpj
的所屬聚類為clupj;
4.2、以所述初始化示例集D相對應的num個所屬聚類{clu1,clu2,…,clui,…,clunum}作為訓
練標簽,以所述初始化示例集D中的num個已知對象的屬性集{attr1,attr2…,attri,…,attrnum}作
為訓練樣本;以所述預測示例集P的nump個屬性集{attrp1,attrp2…,attrpj,…,attrpnump}作為預
測樣本,并用支持向量機方法進行訓練,獲得nump個預測標簽,將所述nump個預測標簽分
別賦值給所述預測示例集P的nump個所屬聚類;從而完成對所述預測示例集P的粗分類;
步驟5、對nump個預測示例進行多標簽預測;
步驟5.1、將所述初始化示例集D中num個示例和所述預測示例集P中nump個示例整合
為第ψ次更新示例集 D n e w ( ψ ) = { inst 1 , inst 2 , ... , inst i , ... , inst n u m ; instp 1 , instp 2 , ... , instp j , ... , instp n u m p } , ]]>
D n e w ( ψ ) = { inst 1 ( ψ ) , inst 2 ( ψ ) , ... , inst Ω ( ψ ) , ... , inst n u m + n u m p ( ψ ) } ; ]]>表示第Ω個第ψ次更新示例;
1≤Ω≤num+nump;
步驟5.2、所述第ψ次更新示例集中num+nump個更新示例中的的每個示例的n個屬
性分別作為n維坐標,從而獲得第Ω個第ψ次更新示例與第ξ個第ψ次更新示例
屬性的歐式距離1≤ξ≤num+nump且ξ≠Ω;
步驟5.3、利用式(9)獲得第Ω個第ψ次更新示例的屬性聚合度從而獲得第ψ
次更新的num+nump個更新示例的屬性聚合度
Γ Ω ( ψ ) = Σ ξ = 1 n u m + n u m p f ( d Ω ξ ( ψ ) - d c ( γ ) ) - - - ( 9 ) ]]>
d Ω ξ ( ψ ) d c ( γ ) ]]>時, f ( d Ω ξ ( ψ ) - d c ( γ ) ) = 1 ; ]]> d Ω ξ ( ψ ) > d c ( γ ) ]]>時, f ( d Ω ξ ( ψ ) - d c ( γ ) ) = 0 ; ]]>
步驟5.4、初始化j=1;
步驟5.5、若所述預測示例集P中第j個預測示例instpj的所屬聚類為clupj與所述初始化
示例集D中第i個已知示例insti的所屬聚類為clui相同;則利用式(10)獲得第i個已知示例insti
與第j個預測示例instpj的影響力graij:
gra i j = Γ i × Γ j d i j - - - ( 10 ) ]]>
式(10)中,Γi表示已知示例insti在第ψ次更新示例集所對應更新示例的屬性聚合度,
Γj表示預測示例instpj在第ψ次更新示例集所對應更新示例的屬性聚合度,dij表示所述
第i個已知示例insti與第j個預測示例instpj屬性的歐式距離;
步驟5.6、重復步驟5.5,從而獲得第j個預測示例instpj與所述初始化示例集D其他已知
示例的影響力,并記錄最大影響力gramax;
步驟5.7、若graij=gramax,則令labpj=labi,表示所述預測示例集P的標簽集labpj中的
各個標簽和所述初始化示例集D的標簽集labi中的各個標簽相同,從而獲得第j個多標簽預測
的預測示例;
步驟5.8、將j+1賦值給j,并判斷j≤nump是否成立,若成立,則返回步驟5.5執行,
否則,表示完成對nump個預測示例的多標簽預測;
2.根據權利要求1所述的自適應多標簽預測方法,其特征是:所述步驟5中,還包括
步驟5.9、將所述完成多標簽預測的預測示例集P的標簽集賦值到所述對應的第ψ次更新示例
集中,從而獲得第ψ+1次更新示例集以所述第ψ+1次更新示例集作為新
的初始化示例集進行自適應多標簽預測。
3.根據權利要求1或2所述的自適應多標簽預測方法,其特征是:當出現新的具有相
同的對象特征及相同的對象語義的預測示例時,只需從步驟4開始即可完成對新的預測示例
進行多標簽預測。
4.根據權利要求1所述的自適應多標簽預測方法,其特征是所述步驟2.9中,修改閾值
的規則是:若則將減去τ2賦值給否則,將加τ2賦值給
0.1≤τ2≤0.5,75%≤τ1<100%。

說明書

自適應多標簽預測方法

技術領域

本發明屬于智能信息分類與處理領域,特別是涉及一種可應用于大數據環境下多媒體資
訊的快速聚類及發現密度峰值點的自適應多標簽預測方法。

背景技術

隨著網絡的快速發展,信息量正成幾何趨勢增長,當下的微博、論壇、微信、在線視頻、
網絡購物和社交網絡無一例外都需要標簽來方便用戶的搜索和分類,準確而詳盡的標簽一方
面可讓用戶能夠快速地找到其所需,另一方面商家也可以借助標簽對用戶進行分類,對不同
的用戶群推薦迎合其口味的產品,從而避免用戶因瀏覽大量無關信息,使有價值的內容淹沒
在信息的海洋中。反之商家若是無法正確處理信息過載問題,將最終導致消費者的不斷流失。

目前給信息加多標簽的方法主要有將多標簽分解轉化為獨立的單一標簽進行標記和將多
標簽轉化為標簽間的排序來標記。轉化為單一標簽,將多標簽之間的關聯關系完全忽略,準
確性低;標簽間的排序不僅需要大量的計算,且確定標簽的排序后,還需要進一步確定是該
標簽的前標簽還是后標簽相似程度更高,因此同樣存在準確性不高的缺陷。

相較于本發明,目前的處理方法存在以下缺點:

1、目前的網絡信息通過計算機的學習方法,對單一標簽也就是識別問題做出的預測方法
較多,但由于信息的多標簽存在關聯關系,因此利用分解多標簽為單一多標簽的方法,標簽
的準確性較低,不能達到實用的目的。

2、目前的多標簽預測技術往往只能對給定的靜態數據集做出處理,如考慮新增信息,往
往需要重新學習,重新設置參數,不能做到隨數據的變化而自動調整參數,因此泛化性弱,
普適性差。

3、將信息的多標簽預測轉為標簽間的序關系來處理,不僅需要大量的計算,且可解釋性
較差,預測的準確性也不高。

4、現有的多標簽預測技術多是以提高某一評價標注而設計的,忽略了其它標準,這造成
了其可移植性差的特點,僅適合在滿足某些條件的數據集中使用。

發明內容

本發明是為了克服現有技術存在的不足之處,提供一種自適應多標簽預測方法,以期能
準確地對網絡信息加上標簽,提高多標簽預測的準確性、普適性、可解釋性以及可移轉性,
從而實現大數據環境下智能信息分類和處理。

本發明為解決技術問題采用如下技術方案:

本發明一種自適應多標簽預測方法的特點是按如下步驟進行:

步驟1:獲得初始化示例集D:

步驟1.1、由num′個已知對象建立原始示例集D′={inst′1,inst′2,…,inst′a,…,inst′num′},inst′a表
示第a個已知對象所對應的原始示例;1≤a≤num′;并有inst′a={attr′a;lab′a};attr′a表示所述
第a個已知對象特征的屬性集;lab′a表示所述第a個已知對象語義的標簽集;并有
attr′a={attr′a,1,attr′a,2,…,attr′a,n};attr′a,n表示第a個已知對象的第n個屬性;n為第a個已知對象
的屬性數;lab′a={lab′a,1,lab′a,2,…,lab′a,x,…,lab′a,m};lab′a,x表示第a個已知對象的第x個標簽;m
為第a個已知對象的標簽數;1≤x≤m;并有:lab′a,x=1表示第a個已知對象語義符合第x個
標簽;lab′a,x=0表示第a個已知對象語義不符合第x個標簽;

步驟1.2、對所述原始示例集D′中的num′個已知對象特征的屬性集
{attr′1,attr′2,…,attr′a,…,attr′num′}分別進行歸一化處理,獲得歸一化處理后的num′個已知對象特
征的屬性集{attr″1,attr″2,…,attr″a,…,attr″num′};當所述歸一化后的第a個已知對象特征的屬性集
arrt″a對應的m個標簽值均為0時,刪除所述歸一化后的第a個已知對象所屬的原始示例;從
而獲得num個示例構成的初始化示例集D={inst1,inst2,…,insti,…,instnum};insti表示初始化后
的第i個已知對象所對應的示例;并有insti={attri;labi};attri表示初始化后的第i個示例特征
的屬性集;labi表示初始化后的所述第i個示例語義的標簽集;1≤i≤num;

步驟2:求解所述初始化示例集D中各示例的群聚度,從而確定初始化示例集D中的領
袖示例、局外示例和選民示例:

步驟2.1、將所述初始化示例集D中num個示例中的每個示例的m個標簽分別作為m維
坐標,從而獲得第i個示例insti與第k個示例instk標簽的歐式距離dik;1≤k≤num且k≠i;

步驟2.2、定義迭代次數γ;并初始化γ=1;定義所述第i個示例insti的所屬聚類為clui;

步驟2.3、利用式(1)獲得第γ次迭代的第i個示例insti的內聚合度從而獲得第γ次
迭代的num個示例的內聚合度并將最大的內聚合度記為

ρ i ( γ ) = Σ k = 1 n u m f ( d i k - d c ( γ ) ) - - - ( 1 ) ]]>

式(1)中,為第γ次迭代的閾值;當 d i k d c ( γ ) ]]>時, f ( d i k - d c ( γ ) ) = 1 ; ]]> d i k > d c ( γ ) ]]>時,
f ( d i k - d c ( γ ) ) = 0 ; ]]>

步驟2.4、利用式(2)或式(3)獲得第γ次迭代的第i個示例insti的差異度從而獲得第γ
次迭代的num個示例的差異度 δ ( γ ) = { δ 1 ( γ ) , δ 2 ( γ ) , ... , δ i ( γ ) , ... , δ n u m ( γ ) } : ]]>

δ i ( γ ) = Σ k = 1 n u m m a x ( d i k ) , ]]> ρ i ( γ ) = ρ max ( γ ) - - - ( 2 ) ]]>

ρ i ( γ ) ρ max ( γ ) - - - ( 3 ) ]]>

步驟2.5、對所述第γ次迭代的num個示例的差異度進行歸一化處理,獲得歸一化后
的差異度 δ ( γ ) = { δ 1 ( γ ) , δ 2 ( γ ) , ... , δ i ( γ ) , ... , δ n u m ( γ ) } ; ]]>

步驟2.6、利用式(4)獲得第γ次迭代的第i個示例insti的群聚度從而獲得第γ次迭
代的num個示例的群聚度 sco ( γ ) = { sco 1 ( γ ) , sco 2 ( γ ) , ... , sco i ( γ ) ... , sco n u m ( γ ) } : ]]>

sco i ( γ ) = ρ i ( γ ) × δ i ( γ ) - - - ( 4 ) ]]>

步驟2.7、對所述第γ次迭代的num個示例的群聚度sco(γ)進行降序排列,獲得群聚度序
列并令與所述群聚度序列sco′(γ)相對應的內聚合度
ρ ( γ ) = { ρ 1 ( γ ) , ρ 2 ( γ ) , ... , ρ t ( γ ) , ... , ρ n u m ( γ ) } ; ]]>表示當 sco i ( γ ) = sco t ( γ ) ]]>時的第γ次迭代的第i個示例
insti的內聚合度;1≤t≤num;

步驟2.8、初始化t=1;

步驟2.9、判斷且≥num×3%是否成立,若成立,則第γ次迭代
的閾值為有效值,并記錄t后,執行步驟2.10;否則,判斷是否成立,若成立,
則將t+1賦值給t,并重復執行步驟2.9;否則,修改閾值將γ+1賦值給γ,并返回執行
步驟2.3;

步驟2.10、若第γ次迭代的第i個示例insti的內聚合度是否滿足若滿足,則
所述第i個示例insti為局外示例,且令所述第i個示例insti的所屬聚類clui=-1;否則,判斷
是否成立,若成立,則第i個示例insti為領袖示例,且令clui=i,否則,第i個
示例insti為選民示例;

步驟2.11、統計所述領袖示例的個數和所述選民示例的個數,并分別記為N和M;

步驟2.12、記N個領袖示例集為1≤α≤N;則
與所述N個領袖示例集D(l)相對應的內聚合度為
表示第α個領袖示例的內聚合度;與所述N個領袖示例集D(l)相對應的標簽集為
lab ( l ) = { lab 1 ( l ) , lab 2 ( l ) , ... , lab α ( l ) , ... , lab N ( l ) } ; ]]>表示第α個領袖示例的標簽集;與所述N個
領袖示例集D(l)相對應的所屬聚類為表示第α個
領袖示例的所屬聚類;

步驟2.13、記M個選民示例集為1≤β≤M;則
與所述M個選民示例集D(v)相對應的內聚合度為
表示第β個選民示例的內聚合度;與所述M個選民示例集D(v)相對應的標簽集為
lab ( v ) = { lab 1 ( v ) , lab 2 ( v ) , ... , lab β ( v ) , ... , lab M ( v ) } ; ]]>表示第β個選民示例的標簽集;與所述M
個選民示例集D(v)相對應的所屬聚類為表示第β
個選民示例的所屬聚類;

步驟3:獲得所述M個選民示例集D(v)的所屬聚類clu(v):

步驟3.1、定義迭代次數χ;并初始化χ=1;并定義第z個中轉示例instz;z≥0;并初
始化α=1、β=1、z=0;

步驟3.2、從所述N個領袖示例集D(l)中選取任第α個領袖示例獲得所述第α個
領袖示例為與第χ次迭代的第β個選民示例標簽的歐式距離

步驟3.3、若時,則將β+1賦值給β,并判斷β≤M是否成立,若成立,重
復執行步驟3.3;否則執行步驟3.5;若時,判斷第χ次迭代的第β個選民示例
的所屬聚類是否為空,若為空,則執行步驟3.4;否則,表示第χ次迭代的第β個選民
示例的所屬聚類的值為第χ次迭代現有的領袖示例的下標,記為執行步驟
3.11;

步驟3.4、將第α個領袖示例的下標α(l)賦值給并將z+1賦值給z,令
表示將第χ次迭代的第β個選民示例中的下標βχ、標簽集內聚
合度和所屬聚類均賦值給第χ次迭代的第z個中轉示例的下標、標簽集、內
聚合度和所屬聚類;并將β+1賦值給β;判斷β≤M是否成立,若成立,則執行步驟3.3;
否則執行步驟3.5;

步驟3.5、若z≤0,則執行步驟3.14;否則,將χ+1賦值給χ,并將
依次賦值給令β=1;并獲
得所述第χ次迭代的第β個選民示例與第χ次迭代第z個中轉示例標簽的歐式距
離并將z-1賦值給z;

步驟3.6、若時,則將β+1賦值給β,并判斷β≤M是否成立,若成立,重
復執行步驟3.6;否則執行步驟3.5;若時,判斷第χ次迭代的第β個選民示例
的所屬聚類是否為空,若為空,則執行步驟3.7;否則,表示第χ次迭代的第β個選民
示例的所屬聚類的值為第χ次迭代現有的領袖示例的下標,記為執行步驟
3.8;

步驟3.7、將第χ次迭代的第z個中轉示例的下標z(χ)賦值給并將z+1賦值
給z,令并將β+1賦值給β;并判斷β≤M是否成立,若成立,則重復執行
步驟3.6;否則執行步驟3.5;

步驟3.8、利用式(5)獲得第χ次迭代的第β選民示例與所述第χ次迭代現有領袖示
例的影響力

gra β χ ϵ ( v ) ( β χ ) = ρ β χ ( v ) × ρ ϵ ( β χ ) d β χ ϵ ( v ) ( β χ ) - - - ( 5 ) ]]>

步驟3.9、利用式(6)獲得第χ次迭代的第β個選民示例與第χ次迭代的第z個中轉
示例的影響力

gra β χ z ( v ) ( χ ) = ρ β χ ( v ) × ρ z ( χ ) d β χ z ( v ) ( χ ) - - - ( 6 ) ]]>

步驟3.10、若則將β+1賦值給β,并執行步驟3.6;否則,令
并將z+1賦值給z,令并將β+1賦值給β,并判斷β≤M是否
成立,若成立,則執行步驟3.6;否則執行步驟3.5;

步驟3.11、利用式(7)獲得第χ次迭代的第β選民示例與所述第χ次迭代現有領袖
示例的影響力

gra β χ ϵ ( v ) ( β χ ) = ρ β χ ( v ) × ρ ϵ ( β χ ) d β χ ϵ ( v ) ( β χ ) - - - ( 7 ) ]]>

步驟3.12、利用式(8)獲得第χ次迭代的第β個選民示例與第α個領袖示例的
影響力

gra β χ α ( v ) ( l ) = ρ β χ ( v ) × ρ α ( l ) d β χ α ( v ) ( l ) - - - ( 8 ) ]]>

步驟3.13、若則將β+1賦值給β,并執行步驟3.3;否則,將第α個
領袖示例的下標α(l)賦值給并將z+1賦值給z,令并將β+1賦值
給β,并判斷β≤M是否成立,若成立,則執行步驟3.3;否則執行步驟3.5;

步驟3.14、將α+1賦值給α;并判斷α≤N是否成立,若成立,令β=1,并執行步驟
3.2;否則執行步驟3.15;

步驟3.15、將第χ次迭代時所述M個選民示例集D(v)相對應的所屬聚類
依次賦值給所述M個選民示例集D(v)相對應的所屬聚類

步驟3.16、判斷是否還存在所屬聚類為空的選民示例,若存在,則設置所屬聚類為空的
選民示例的所屬聚類的值為-1;

步驟4;采用支持向量機對預測示例進行粗分類:

4.1、建立由nump個預測示例組成的預測示例集P={instp1,instp2,…,instpj,…,instpnump};
instpj表示第j個預測示例;1≤j≤nump;并有instpj={attrpj;labpj};arrtpj表示第j個預測
示例instpj的屬性集;labpj表示第j個預測示例instpj的標簽集;記所述第j個預測示例instpj
的所屬聚類為clupj;

4.2、以所述初始化示例集D相對應的num個所屬聚類{clu1,clu2,…,clui,…,clunum}作為訓
練標簽,以所述初始化示例集D中的num個已知對象的屬性集{attr1,attr2…,attri,…,attrnum}作
為訓練樣本;以所述預測示例集P的nump個屬性集{attrp1,attrp2…,attrpj,…,attrpnump}作為預
測樣本,并用支持向量機方法進行訓練,獲得nump個預測標簽,將所述nump個預測標簽分
別賦值給所述預測示例集P的nump個所屬聚類;從而完成對所述預測示例集P的粗分類;

步驟5、對nump個預測示例進行多標簽預測;

步驟5.1、將所述初始化示例集D中num個示例和所述預測示例集P中nump個示例整合
為第ψ次更新示例集 D n e w ( ψ ) = { inst 1 , inst 2 , ... , inst i , ... , inst n u m ; instp 1 , instp 2 , ... , instp j , ... , instp n u m p } , ]]>
D n e w ( ψ ) = { inst 1 ( ψ ) , inst 2 ( ψ ) , ... , inst Ω ( ψ ) , ... , inst n u m + n u m p ( ψ ) } ; ]]>表示第Ω個第ψ次更新示例;
1≤Ω≤num+nump;

步驟5.2、所述第ψ次更新示例集中num+nump個更新示例中的的每個示例的n個屬
性分別作為n維坐標,從而獲得第Ω個第ψ次更新示例與第ξ個第ψ次更新示例
屬性的歐式距離1≤ξ≤num+nump且ξ≠Ω;

步驟5.3、利用式(9)獲得第Ω個第ψ次更新示例的屬性聚合度從而獲得第ψ
次更新的num+nump個更新示例的屬性聚合度

Γ Ω ( ψ ) = Σ ξ = 1 n u m + n u m p f ( d Ω ξ ( ψ ) - d c ( γ ) ) - - - ( 9 ) ]]>

d Ω ξ ( ψ ) d c ( γ ) ]]>時, f ( d Ω ξ ( ψ ) - d c ( γ ) ) = 1 ; ]]> d Ω ξ ( ψ ) > d c ( γ ) ]]>時, f ( d Ωξ ( ψ ) - d c ( γ ) ) = 0 ; ]]>

步驟5.4、初始化j=1;

步驟5.5、若所述預測示例集P中第j個預測示例instpj的所屬聚類為clupj與所述初始化
示例集D中第i個已知示例insti的所屬聚類為clui相同;則利用式(10)獲得第i個已知示例insti
與第j個預測示例instpj的影響力graij:

gra i j = Γ i × Γ j d i j - - - ( 10 ) ]]>

式(10)中,Γi表示已知示例insti在第ψ次更新示例集所對應更新示例的屬性聚合度,
Γj表示預測示例instpj在第ψ次更新示例集所對應更新示例的屬性聚合度,dij表示所述
第i個已知示例insti與第j個預測示例instpj屬性的歐式距離;

步驟5.6、重復步驟5.5,從而獲得第j個預測示例instpj與所述初始化示例集D其他已知
示例的影響力,并記錄最大影響力gramax;

步驟5.7、若graij=gramax,則令labpj=labi,表示所述預測示例集P的標簽集labpj中的
各個標簽和所述初始化示例集D的標簽集labi中的各個標簽相同,從而獲得第j個多標簽預測
的預測示例;

步驟5.8、將j+1賦值給j,并判斷j≤nump是否成立,若成立,則返回步驟5.5執行,
否則,表示完成對nump個預測示例的多標簽預測;

本發明所述的自適應多標簽預測方法的特點是:

所述步驟5中,還包括步驟5.9、將所述完成多標簽預測的預測示例集P的標簽集賦值
到所述對應的第ψ次更新示例集中,從而獲得第ψ+1次更新示例集以所述第ψ+1
次更新示例集作為新的初始化示例集進行自適應多標簽預測。

當出現新的具有相同的對象特征及相同的對象語義的預測示例時,只需從步驟4開始即
可完成對新的預測示例進行多標簽預測。

所述步驟2.9中,修改閾值的規則是:若則將減去τ2賦值給
否則,將加τ2賦值給0.1≤τ2≤0.5,75%≤τ1<100%。

與已有技術相比,本發明有益效果體現在:

1、本發明采用先粗分類再精準預測的方法,借助本發明所含的自適應性,通過多輪迭代,
使得預測標簽不斷進化,進而取得比現有的多標簽預測技術更為準確的預測結果,是一個可
以投入到實際應用的方法。

2、本發明通過初始化示例集,可根據不同已知對象特征和語義確定不同的初始化示例集,
使得本發明可廣泛應用于現有網絡平臺大部分的應用環境,從簡單的文字型數據,到音頻,
乃至圖像,皆可有較好地做出標簽預測,相較于現有技術普適性強。

3、本發明通過計算獲得內聚合度來表示示例的內聚程度,通過計算獲得差異度來表示示
例的耦合程度,并依據內聚合度和差異度求解出來的群聚度,各參數有實際含義,充分考慮
了高內聚低耦合的數據分類要求,易于理解和解釋,從而在保證了本發明有較高的預測準確
性的同時,使得本發明有較強的可移植性,可在各種條件下進行多標簽預測。

4、本發明通過內聚合度能夠準確找到各個產品領域中的領袖示例;對于微博,論壇和社
交網絡,借助此法能夠準確地找到不同話題領域中影響力最大的關鍵用戶,通過對其行為的
詳細研究,可預測到該領域可能的趨勢,并為該領域的用戶提供準確的推薦。

5、本發明通過計算示例與示例間影響力,不但可以用于多標簽預測上,也可對相同語義
的已知標簽的示例進行類比,找尋到與該示例的多標簽極為類似的示例,推薦給用戶,提高
用戶的使用體驗。

6、本發明在預測示例的多標簽確定時,采用選取與預測示例最為相似的已知示例的標簽
集作為預測示例的標簽集的方法,可以將該已知示例的用戶群推薦給新出現的預測示例;可
為新出現的產品找到其較為準確的市場定位,并為其發現潛在的用戶。

7、本發明由于采用將完成多標簽預測的預測示例加入到初始化示例集的方法,從而豐富
了現有訓練集,提高了下一輪預測的準確性,使得本發明具有自適應性的學習能力,面對新
加入的示例能進一步完善現有數據集合,伴隨已知標簽示例的增加,將進一步提高該方法預
測的準確性。

具體實施方式

本實施例中,一種自適應多標簽預測方法,是按如下步驟進行:

步驟1:獲得初始化示例集D:

步驟1.1、由num′個已知對象建立原始示例集D′={inst′1,inst′2,…,inst′a,…,inst′num′},inst′a表
示第a個已知對象所對應的原始示例;1≤a≤num′;并有inst′a={attr′a;lab′a};attr′a表示第a個
已知對象特征的屬性集;lab′a表示第a個已知對象語義的標簽集;并有
attr′a={attr′a,1,attr′a,2,…,attr′a,n};attr′a,n表示第a個已知對象的第n個屬性;n為第a個已知對象
的屬性數,lab′a={lab′a,1,lab′a,2,…,lab′a,x,…,lab′a,m};lab′a,x表示第a個已知對象的第x個標簽;m
為第a個已知對象的標簽數;1≤x≤m;并有:lab′a,x=1表示第a個已知對象語義符合第x個
標簽;lab′a,x=0表示第a個已知對象語義不符合第x個標簽;假設,已知對象為圖片,將色差,
尺寸等需要詳細描述的對象特征作為屬性集,用準確而詳盡的數字作為各個屬性的值;將風
景圖片,動物圖片等非是即否的對象語義作為標簽集,用0表示不符合該標簽,用1表示符
合該標簽;

步驟1.2、對原始示例集D′中的num′個已知對象特征的屬性集
{attr′1,attr′2,…,attr′a,…,attr′num′}分別進行歸一化處理;在歸一化處理中,以第a個已知對象特征
的屬性集attr′a為例,即是先記錄屬性集{attr′a,1,attr′a,2,…,attr′a,n}中值最大的屬性attr′a,max,再用
最大的屬性attr′a,max作為分母,與屬性集中每個屬性進行除法計算,便可獲得第a個歸一化處
理后的已知對象特征的屬性集attr″a;依此類推獲得歸一化處理后的num′個已知對象特征的屬
性集{attr″1,attr″2,…,attr″a,…,attr″num′};當歸一化后的第a個已知對象特征的屬性集arrt″a對應的
m個標簽值均為0時,刪除歸一化后的第a個已知對象所屬的原始示例;從而獲得num個示
例構成的初始化示例集D={inst1,inst2,…,insti,…,instnum};insti表示初始化后的第i個已知對
象所對應的示例;并有insti={attri;labi};attri表示初始化后的第i個示例特征的屬性集;labi
表示初始化后的第i個示例語義的標簽集;1≤i≤num;如表1所示:

表1:初始化示例集D第i個示例insti的數據表



attri,1

attri,n
labi,1

labi,m
ρi
δi
scoi
clui
insti




















步驟2:求解初始化示例集D中各示例的群聚度,從而確定初始化示例集D中的領袖示
例、局外示例和選民示例:

步驟2.1、將初始化示例集D中num個示例中的每個示例的m個標簽分別作為m維坐標,
從而獲得第i個示例insti與第k個示例instk標簽的歐式距離dik;1≤k≤num且k≠i;例如,
求解第一個示例與第二個示例標簽的歐式距離d12,第一個示例和第二個示例都有m個相同
名稱的標簽,但由于取值不一定相同,則分別表示為第一個示例的標簽集
lab1={lab1,1,lab1,2,…,lab1,m}和第二個示例的標簽集lab2={lab2,1,lab2,2,…,lab2,m},則標簽的歐式
距離d12為 d 12 = ( lab 1 , 1 - lab 2 , 1 ) 2 + ... + ( lab 1 , m - lab 2 , m ) 2 ; ]]>

步驟2.2、定義迭代次數γ;并初始化γ=1;定義第i個示例insti的所屬聚類為clui;

步驟2.3、利用式(1)獲得第γ次迭代的第i個示例insti的內聚合度從而獲得第γ次
迭代的num個示例的內聚合度并將最大的內聚合度記為

ρ i ( γ ) = Σ k = 1 n u m f ( d i k - d c ( γ ) ) - - - ( 1 ) ]]>

式(1)中,為第γ次迭代的閾值;當 d ik d c ( γ ) ]]>時, f ( d i k - d c ( γ ) ) = 1 ; ]]> d i k > d c ( γ ) ]]>時,
f ( d i k - d c ( γ ) ) = 0 ; ]]>

步驟2.4、利用式(2)或式(3)獲得第γ次迭代的第i個示例insti的差異度從而獲得第γ
次迭代的num個示例的差異度 δ ( γ ) = { δ 1 ( γ ) , δ 2 ( γ ) , ... , δ i ( γ ) , ... , δ n u m ( γ ) } : ]]>

δ i ( γ ) = Σ k = 1 n u m m a x ( d i k ) , ]]> ρ i ( γ ) = ρ max ( γ ) - - - ( 2 ) ]]>

ρ i ( γ ) ρ max ( γ ) - - - ( 3 ) ]]>

步驟2.5、對第γ次迭代的num個示例的差異度進行歸一化處理,獲得歸一化后的差
異度借助步驟2.4和步驟2.5將會使歸一化后的差異度
有較大的區分,使少數接近于1,大部分值都小于0.5,這將有助于領袖示例的選取;

步驟2.6、利用式(4)獲得第γ次迭代的第i個示例insti的群聚度從而獲得第γ次迭
代的num個示例的群聚度 sco ( γ ) = { sco 1 ( γ ) , sco 2 ( γ ) , ... , sco i ( γ ) ... , sco n u m ( γ ) } : ]]>

sco i ( γ ) = ρ i ( γ ) × δ i ( γ ) - - - ( 4 ) ]]>

步驟2.7、對第γ次迭代的num個示例的群聚度sco(γ)進行降序排列,獲得群聚度序列
并令與群聚度序列sco′(γ)相對應的內聚合度為
ρ ( γ ) = { ρ 1 ( γ ) , ρ 2 ( γ ) , ... , ρ t ( γ ) , ... , ρ n u m ( γ ) } ; ]]>表示當 sco i ( γ ) = sco t ( γ ) ]]>時的第γ次迭代的第i個示例
insti的內聚合度;1≤t≤num;

步驟2.8、初始化t=1;

步驟2.9、判斷且≥num×3%是否成立,若成立,則第γ次迭代
的閾值為有效值,并記錄t后,執行步驟2.10;否則,判斷是否成立,若成立,
則將t+1賦值給t,并重復執行步驟2.9;否則,修改閾值修改閾值的規則是:若
則將減去τ2賦值給否則,將加τ2賦值給0.1≤τ2≤0.5,
75%≤τ1<100%;將γ+1賦值給γ,并返回執行步驟2.3;判斷且
≥num×3%的條件中,1.25和3%不是固定不變的,本發明是建立在示例數目為萬級,標
簽數目在20以下,會有較優解,當示例數目和標簽數目變化時候,可以酌情進行修改,其原
則是能保證后面的步驟中僅選取群聚度遠大于其它示例的少量示例作為領袖示例;

步驟2.10、若第γ次迭代的第i個示例insti的內聚合度是否滿足若滿足,則
第i個示例insti為局外示例,且令第i個示例insti的所屬聚類clui=-1;否則,判斷
是否成立,若成立,則第i個示例insti為領袖示例,且令clui=i,否則,第i個示例insti為選
民示例;

步驟2.11、統計領袖示例的個數和選民示例的個數,并分別記為N和M;

步驟2.12、記N個領袖示例集為1≤α≤N;則
與N個領袖示例集D(l)相對應的內聚合度為表
示第α個領袖示例的內聚合度;與N個領袖示例集D(l)相對應的標簽集為
lab ( l ) = { lab 1 ( l ) , lab 2 ( l ) , ... , lab α ( l ) , ... , lab N ( l ) } ; ]]>表示第α個領袖示例的標簽集;與N個領
袖示例集D(l)相對應的所屬聚類為表示第α個領
袖示例的所屬聚類;

步驟2.13、記M個選民示例集為1≤β≤M;則
與M個選民示例集D(v)相對應的內聚合度為
表示第β個選民示例的內聚合度;與M個選民示例集D(v)相對應的標簽集為
lab ( v ) = { lab 1 ( v ) , lab 2 ( v ) , ... , lab β ( v ) , ... , lab M ( v ) } ; ]]>表示第β個選民示例的標簽集;與M個選
民示例集D(v)相對應的所屬聚類為表示第β個選
民示例的所屬聚類;

步驟3:獲得M個選民示例集D(v)的所屬聚類clu(v):

步驟3.1、定義迭代次數χ;并初始化χ=1;并定義第z個中轉示例instz;z≥0;并初
始化α=1、β=1、z=0;第z個中轉示例instz存儲結構類似于常用的堆棧結構,本發明為
了表述清晰,同時引入迭代次數χ,用來區分z相同時的中轉示例;此時M個選民示例集D(v)
相對應的所屬聚類的值皆為空;

步驟3.2、從N個領袖示例集D(l)中選取任第α個領袖示例獲得第α個領袖示例
為與第χ次迭代的第β個選民示例的標簽的歐式距離

步驟3.3、若時,則將β+1賦值給β,并判斷β≤M是否成立,若成立,重
復執行步驟3.3;否則執行步驟3.5;若時,判斷第χ次迭代的第β個選民示例
的所屬聚類是否為空,若為空,則執行步驟3.4;否則,表示第χ次迭代的第β個選民
示例的所屬聚類的值為第χ次迭代現有的領袖示例的下標,記為執行步驟
3.11;例如,第χ次迭代現有的領袖示例為inst9,則

步驟3.4、將第α個領袖示例的下標α(l)賦值給并將z+1賦值給z,令
表示將第χ次迭代的第β個選民示例中的下標βχ、標簽集內聚
合度和所屬聚類均賦值給第χ次迭代的第z個中轉示例的下標、標簽集、內
聚合度和所屬聚類;并將β+1賦值給β;判斷β≤M是否成立,若成立,則執行步驟3.3;
否則執行步驟3.5;表示一個示例等于了另一個示例,其僅表示這兩個示例對應
的值相同,即將等號右邊示例的下標、標簽集、內聚合度和所屬聚類賦值給等號左邊示例的
下標、標簽集、內聚合度和所屬聚類;

步驟3.5、若z≤0,則執行步驟3.14;否則,將χ+1賦值給χ,并將
依次賦值給對于其它與χ
相關的參數,也需將χ-1關聯的賦值給對應的χ關聯的,以保持數據的連貫和一致性,譬如
令β=1;并獲得所述第χ次迭代的第β個選民示例與第χ次迭代第z
個中轉示例的標簽的歐式距離并將z-1賦值給z;

步驟3.6、若時,則將β+1賦值給β,并判斷β≤M是否成立,若成立,重
復執行步驟3.6;否則執行步驟3.5;若時,判斷第χ次迭代的第β個選民示例
的所屬聚類是否為空,若為空,則執行步驟3.7;否則,表示第χ次迭代的第β個選民
示例的所屬聚類的值為第χ次迭代現有的領袖示例的下標,記為執行步驟
3.8;

步驟3.7、將第χ次迭代的第z個中轉示例的下標z(χ)賦值給并將z+1賦值
給z,令并將β+1賦值給β;并判斷β≤M是否成立,若成立,則重復執行
步驟3.6;否則執行步驟3.5;

步驟3.8、利用式(5)獲得第χ次迭代的第β選民示例與第χ次迭代現有的領袖示例
的影響力

gra β χ ϵ ( v ) ( β χ ) = ρ β χ ( v ) × ρ ϵ ( β χ ) d β χ ϵ ( v ) ( β χ ) - - - ( 5 ) ]]>

式(5)可推廣到計算任一兩個語義相同的示例的影響力的計算,只需要知道兩個示例的內
聚合度和兩者標簽的歐式距離,或是兩個示例的屬性聚合度和兩者屬性的歐式距離,套用公
式(5),便可獲得兩個示例間的影響力;

步驟3.9、利用式(6)獲得第χ次迭代的第β個選民示例與第χ次迭代的第z個中轉
示例的影響力

gra β χ z ( v ) ( χ ) = ρ β χ ( v ) × ρ z ( χ ) d β χ z ( v ) ( χ ) - - - ( 6 ) ]]>

步驟3.10、若則將β+1賦值給β,并執行步驟3.6;否則,令
并將z+1賦值給z,令并將β+1賦值給β,并判斷β≤M是否
成立,若成立,則執行步驟3.6;否則執行步驟3.5;

步驟3.11、利用式(7)獲得第χ次迭代的第β選民示例與第χ次迭代現有領袖示例
的影響力

gra β χ ϵ ( v ) ( β χ ) = ρ β χ ( v ) × ρ ϵ ( β χ ) d β χ ϵ ( v ) ( β χ ) - - - ( 7 ) ]]>

步驟3.12、利用式(8)獲得第χ次迭代的第β個選民示例與第α個領袖示例的
影響力

gra β χ α ( v ) ( l ) = ρ β χ ( v ) × ρ α ( l ) d β χ α ( v ) ( l ) - - - ( 8 ) ]]>

步驟3.13、若則將β+1賦值給β,并執行步驟3.3;否則,將第α個
領袖示例的下標α(l)賦值給并將z+1賦值給z,令并判斷β≤M
是否成立,若成立,則將β+1賦值給β,并執行步驟3.3;否則執行步驟3.5;

步驟3.14、將α+1賦值給α;并判斷α≤N是否成立,若成立,令β=1,并執行步驟
3.2;否則,執行步驟3.15;

步驟3.15、將第χ次迭代時M個選民示例集D(v)相對應的所屬聚類
依次賦值給M個選民示例集D(v)相對應的所屬聚類

步驟3.16、判斷是否還存在所屬聚類為空的選民示例,若存在,則設置所屬聚類為空的
選民示例的所屬聚類的值為-1;因此,選民示例的所屬聚類可取的值的數目為N+1,分別對
應N個領袖示例的所屬聚類的值以及所屬聚類為-1的情況;

步驟4;采用支持向量機對預測示例進行粗分類:

4.1、建立由nump個預測示例組成的預測示例集P={instp1,instp2,…,instpj,…,instpnump};
instpj表示第j個預測示例;1≤j≤nump;并有instpj={attrpj;labpj};arrtpj表示第j個預測
示例instpj的屬性集;labpj表示第j個預測示例instpj的標簽集;記第j個預測示例instpj的
所屬聚類為clupj;本發明中預測示例和已知示例必須是同一對象,即對象的特征和語義相同,
例如,已知示例是圖片,則預測示例也需是圖片,皆將色差,尺寸等需要詳細描述的對象特
征作為屬性集,將風景圖片,動物圖片等非是即否的對象語義作為標簽集,兩個示例集擁有
相同名稱的屬性集和標簽集,但值各不相同,為表述清晰,本發明在論述時用不同符號進行
區分;

4.2、以初始化示例集D相對應的num個所屬聚類{clu1,clu2,…,clui,…,clunum}作為訓練標
簽,以初始化示例集D中的num個已知對象的屬性集{attr1,attr2…,attri,…,attrnum}作為訓練樣
本;以預測示例集P的nump個屬性集{attrp1,attrp2…,attrpj,…,attrpnump}作為預測樣本,并用
支持向量機方法進行訓練,獲得nump個預測標簽,將nump個預測標簽分別賦值給預測示例
集P的nump個所屬聚類;從而完成對預測示例集P的粗分類;支持向量機方法通常有三個輸
入,分別為訓練標簽,訓練樣本和預測樣本,從而得到一個輸出,即預測標簽;

步驟5、對nump個預測示例進行多標簽預測;

步驟5.1、將所述初始化示例集D中num個示例和所述預測示例集P中nump個示例整合
為第ψ次更新示例集 D n e w ( ψ ) = { inst 1 , inst 2 , ... , inst i , ... , inst n u m ; instp 1 , instp 2 , ... , instp j , ... , instp n u m p } , ]]>
D n e w ( ψ ) = { inst 1 ( ψ ) , inst 2 ( ψ ) , ... , inst Ω ( ψ ) , ... , inst n u m + n u m p ( ψ ) } ; ]]>表示第Ω個第ψ次更新示例;
1≤Ω≤num+nump;ψ為更新次數,更新主要包括將現有初始化示例和預測示例整合成一個
示例集,以及將完成多標簽預測的預測示例集P的標簽集賦值到所述對應的第ψ次更新示例
集中,ψ的初始化為1,每完成一次更新后,將ψ+1賦值給ψ;

步驟5.2、所述第ψ次更新示例集中num+nump個更新示例中的的每個示例的n個屬
性分別作為n維坐標,從而獲得第Ω個第ψ次更新示例與第ξ個第ψ次更新示例
屬性的歐式距離1≤ξ≤num+nump且ξ≠Ω;

步驟5.3、利用式(9)獲得第Ω個第ψ次更新示例的屬性聚合度從而獲得第ψ
次更新的num+nump個更新示例的屬性聚合度

Γ Ω ( ψ ) = Σ ξ = 1 n u m + n u m p f ( d Ω ξ ( ψ ) - d c ( γ ) ) - - - ( 9 ) ]]>

d Ω ξ ( ψ ) d c ( γ ) ]]>時, f ( d Ω ξ ( ψ ) - d c ( γ ) ) = 1 ; ]]> d Ω ξ ( ψ ) > d c ( γ ) ]]>時, f ( d Ω ξ ( ψ ) - d c ( γ ) ) = 0 ; ]]>求解屬性聚合
度公式和內聚合度公式近似,但由標簽的歐式距離變成了屬性的歐式距離;

步驟5.4、初始化j=1;

步驟5.5、若所述預測示例集P中第j個預測示例instpj的所屬聚類為clupj與所述初始化
示例集D中第i個已知示例insti的所屬聚類為clui相同;則利用式(10)獲得第i個已知示例insti
與第j個預測示例instpj的影響力graij:

gra i j = Γ i × Γ j d i j - - - ( 10 ) ]]>

式(10)中,Γi表示已知示例insti在第ψ次更新示例集所對應更新示例的屬性聚合度,
Γj表示預測示例instpj在第ψ次更新示例集所對應更新示例的屬性聚合度,dij表示所述
第i個已知示例insti與第j個預測示例instpj屬性的歐式距離;

步驟5.6、重復步驟5.5,從而獲得第j個預測示例instpj與所述初始化示例集D其他已知
示例的影響力,并記錄最大影響力gramax;

步驟5.7、若graij=gramax,則令labpj=labi,表示所述預測示例集P的標簽集labpj中的
各個標簽和所述初始化示例集D的標簽集labi中的各個標簽相同,從而獲得第j個多標簽預測
的預測示例;

步驟5.8、將j+1賦值給j,并判斷j≤nump是否成立,若成立,則返回步驟5.5執行,
否則,表示完成對nump個預測示例的多標簽預測;

步驟5.9、將所述完成多標簽預測的預測示例集P的標簽集賦值到所述對應的第ψ次更新
示例集中,從而獲得第ψ+1次更新示例集以所述第ψ+1次更新示例集作
為新的初始化示例集進行自適應多標簽預測,從而豐富現有訓練集,提高下一輪預測的準確
性,當出現新的具有相同的對象特征及相同的對象語義的預測示例時,只需從步驟4開始即
可完成對新的預測示例進行多標簽預測。

關 鍵 詞:
自適應 標簽 預測 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:自適應多標簽預測方法.pdf
鏈接地址:http://www.wwszu.club/p-6385966.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大