鬼佬大哥大
  • / 19
  • 下載費用:30 金幣  

基于酒店點評的用戶標簽和酒店標簽匹配方法及裝置.pdf

摘要
申請專利號:

CN201510593613.5

申請日:

2015.09.17

公開號:

CN105205699A

公開日:

2015.12.30

當前法律狀態:

實審

有效性:

審中

法律詳情: 著錄事項變更IPC(主分類):G06Q 30/02變更事項:申請人變更前:北京眾薈信息技術有限公司變更后:北京眾薈信息技術股份有限公司變更事項:地址變更前:100088 北京市海淀區馬甸東路17號金澳國際大廈18層變更后:100088 北京市海淀區馬甸東路17號金澳國際大廈18層|||實質審查的生效IPC(主分類):G06Q 30/02申請日:20150917|||公開
IPC分類號: G06Q30/02(2012.01)I; G06F17/27; G06Q50/12(2012.01)I 主分類號: G06Q30/02
申請人: 北京眾薈信息技術有限公司
發明人: 林小俊; 張猛; 暴筱
地址: 100088 北京市海淀區馬甸東路17號金澳國際大廈18層
優先權:
專利代理機構: 北京獻智知識產權代理事務所(特殊普通合伙) 11434 代理人: 楊獻智
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510593613.5

授權公告號:

||||||

法律狀態公告日:

2017.02.15|||2016.08.03|||2015.12.30

法律狀態類型:

著錄事項變更|||實質審查的生效|||公開

摘要

本發明公開一種基于酒店點評的用戶標簽和酒店標簽匹配方法及裝置,本發明的方法包括:準備酒店業情感語句模板庫;準備至少三個酒店的最終酒店標簽;從互聯網獲取特定用戶針對同一酒店或不同酒店的至少兩條用戶點評;將情感語句與情感語句模板進行比對,篩選出相匹配的情感語句并識別為不同的維度,再以所識別的所有維度形成特定用戶的用戶標簽集合;分別計算每個用戶標簽的權重,其中,在特定用戶的全部用戶點評中出現的頻率越高且在所有用戶針對所有酒店的所有用戶點評中出現的頻率越低則用戶標簽權重越高;選擇權重較高的用戶標簽作為特定用戶的最終用戶標簽;以及將最終酒店標簽與特定用戶的最終用戶標簽匹配率高的酒店推薦給特定用戶。

權利要求書

權利要求書
1.  一種基于酒店點評的用戶標簽和酒店標簽匹配方法,包括:
(1)、準備酒店業情感語句模板庫,所述酒店業情感語句模板庫包括至少100個情感語句模板;
(2)、準備至少三個酒店的最終酒店標簽;
(3)、從互聯網獲取特定用戶針對同一酒店或不同酒店的至少兩條用戶點評;
(4)、將所述特定用戶的所有用戶點評的情感語句逐一與所述至少100個情感語句模板進行比對,篩選出與所述至少100個情感語句模板相匹配的情感語句,并將所篩選出的情感語句根據所表達的情感類型識別為不同的維度,再以所識別的所有維度形成所述特定用戶的用戶標簽集合;
(5)、分別計算所述特定用戶的用戶標簽集合中的每個用戶標簽的權重,其中,在所述特定用戶的全部用戶點評中出現的頻率越高且在所有用戶針對所有酒店的所有用戶點評中出現的頻率越低則用戶標簽權重越高;
(6)、從所述特定用戶的用戶標簽集合中選擇權重大于第一設定閾值的用戶標簽作為所述特定用戶的最終用戶標簽;以及
(7)、至少將最終酒店標簽與所述特定用戶的最終用戶標簽匹配率位于前三名的酒店推薦給所述特定用戶。

2.  如權利要求1所述的基于酒店點評的用戶標簽和酒店標簽匹配方法,其特征在于,所述步驟(2)中準備至少三個酒店的最終酒店標簽包括:
(2.1)、從互聯網獲取分別針對至少三個酒店的用戶點評,其中針對每個酒店包括至少三個用戶的用戶點評;
(2.2)、將針對特定酒店的所有用戶點評的情感語句逐一與所述至少100個情感語句模板進行比對,篩選出與所述至少100個情感語句模板相匹配的情感語句,并將所篩選出的情感語句根據所表達的情感類型識別為不同的維度,再以所識別的所有維度形成所述特定酒店的酒店標簽集合;
(2.3)、分別計算所述特定酒店的酒店標簽集合中的每個酒店標簽 的權重,其中,在針對同一酒店的所有用戶點評中出現的頻率越高且在針對所有酒店的所有用戶點評中出現的頻率越低則酒店標簽權重越高;
(2.4)、從所述酒店標簽集合中選擇權重大于第二設定閾值的酒店標簽作為所述特定酒店的最終酒店標簽;以及
(2.5)、重復步驟(2.2)-(2.4)直至獲得所有酒店的最終酒店標簽。

3.  如權利要求2所述的基于酒店點評的用戶標簽和酒店標簽匹配方法,其特征在于,在所述步驟(1)中,在準備酒店業情感語句模板庫之前,進一步包括構建酒店業語義詞典的步驟,所述步驟(4)中將所述特定用戶的所有用戶點評的情感語句逐一與所述至少100個情感語句模板進行比對包括:
(4.1)、將特定情感語句切分成與所述酒店業語義詞典中相應的若干個酒店業常用詞匯;
(4.2)、根據特定情感語句中每個詞匯的不同屬性分別與所述至少100個情感語句模板進行比對,從而確定與所述至少100個情感語句模板中的任一個情感語句模板是否相匹配;以及
(4.3)、重復步驟(4.1)-(4.2),直至篩選出與所述至少100個情感語句模板相匹配的所有情感語句。

4.  如權利要求3所述的基于酒店點評的用戶標簽和酒店標簽匹配方法,其特征在于,所述步驟(2.2)中將針對特定酒店的所有用戶點評的情感語句逐一與所述至少100個情感語句模板進行比對包括:
(2.2.1)、將特定情感語句切分成與所述酒店業語義詞典中相應的若干個酒店業常用詞匯;
(2.2.2)、根據特定情感語句中每個詞匯的不同屬性分別與所述至少100個情感語句模板進行比對,從而確定與所述至少100個情感語句模板中的任一個情感語句模板是否相匹配;以及
(2.2.3)、重復步驟(2.2.1)-(2.2.2),直至篩選出與所述至少100個情感語句模板相匹配的所有情感語句。

5.  如權利要求4所述的基于酒店點評的用戶標簽和酒店標簽匹配方法,其特征在于,所述步驟(3)中是通過聚焦爬蟲從點評網站獲取 用戶點評。

6.  如權利要求5所述的基于酒店點評的用戶標簽和酒店標簽匹配方法,其特征在于,所述步驟(1)中準備酒店業情感語句模板庫是通過基于用戶點評的自舉方法提取句式模版,從而獲得酒店業情感語句模板庫。

7.  如權利要求6所述的基于酒店點評的用戶標簽和酒店標簽匹配方法,其特征在于,準備所述酒店業情感語句模板庫以及構建所述酒店業語義詞典的步驟包括:
(1.1)、獲取點評數據,通過整理各個情感要素的詞形成種子詞典;
(1.2)、對點評數據的句子進行分詞處理,然后逐詞判定其語義類并用語義類標簽進行替換;
(1.3)、對標簽替換后的點評數據進行斷句,根據各語義類的名稱及各語義類包含的具體詞語生成模版;
(1.4)、將模版應用到語義類標簽替換后的點評數據中,以抽取各語義類的語義詞;
(1.5)、根據模版的重要性、推廣性和準確性,對各模版進行打分;
(1.6)、選取得分最高的部分模版,根據選取的模版及其打分計算各模版抽取的語義詞的得分,進而選取得分最高的部分語義詞對語義詞典進行擴充;以及
(1.7)、步驟(1.2)至步驟(1.6)迭代進行,直到挑選出來的語義詞不正確時迭代終止,得到最終的酒店業語義詞典,并由各模版構成酒店業情感語句模板庫。

8.  如權利要求7所述的基于酒店點評的用戶標簽和酒店標簽匹配方法,其特征在于,步驟(1.6)中所述得分最高的部分模版是得分最高的前5~10%的模版,所述得分最高的部分語義詞是得分最高的前5~10%的語義詞。

9.  一種基于酒店點評的用戶標簽和酒店標簽匹配裝置,包括:
酒店業情感語句模板庫生成模塊,所述酒店業情感語句模板庫包括至少100個情感語句模板;
最終酒店標簽生成模塊,其用于生成至少三個酒店的最終酒店標簽;
用戶點評獲取模塊,其從互聯網獲取特定用戶針對同一酒店或不同酒店的至少兩條用戶點評;
用戶標簽集合生成模塊,其將所述特定用戶的所有用戶點評的情感語句逐一與所述至少100個情感語句模板進行比對,篩選出與所述至少100個情感語句模板相匹配的情感語句,并將所篩選出的情感語句根據所表達的情感類型識別為不同的維度,再以所識別的所有維度形成所述特定用戶的用戶標簽集合;
用戶標簽權重計算模塊,其分別計算所述特定用戶的用戶標簽集合中的每個用戶標簽的權重,其中,在所述特定用戶的全部用戶點評中出現的頻率越高且在所有用戶針對所有酒店的所有用戶點評中出現的頻率越低則用戶標簽權重越高;
最終用戶標簽生成模塊,其從所述特定用戶的用戶標簽集合中選擇權重大于第一設定閾值的用戶標簽作為所述特定用戶的最終用戶標簽;以及
酒店推薦模塊,其至少將最終酒店標簽與所述特定用戶的最終用戶標簽匹配率位于前三名的酒店推薦給所述特定用戶。

10.  如權利要求9所述的基于酒店點評的用戶標簽和酒店標簽匹配裝置,其特征在于,所述最終酒店標簽生成模塊通過所述用戶點評獲取模塊從互聯網獲取分別針對至少三個酒店的用戶點評,其中針對每個酒店包括至少三個用戶的用戶點評;
所述最終酒店標簽生成模塊還包括:
酒店標簽集合生成子模塊,其將針對特定酒店的所有用戶點評的情感語句逐一與所述至少100個情感語句模板進行比對,篩選出與所述至少100個情感語句模板相匹配的情感語句,并將所篩選出的情感語句根據所表達的情感類型識別為不同的維度,再以所識別的所有維度形成所述特定酒店的酒店標簽集合;以及
酒店標簽權重計算子模塊,其分別計算所述特定酒店的酒店標簽集合中的每個酒店標簽的權重,其中,在針對同一酒店的所有用戶點評中 出現的頻率越高且在針對所有酒店的所有用戶點評中出現的頻率越低則酒店標簽權重越高;
其中,所述最終酒店標簽生成模塊從所述酒店標簽集合中選擇權重大于第二設定閾值的酒店標簽作為所述特定酒店的最終酒店標簽。

說明書

說明書基于酒店點評的用戶標簽和酒店標簽匹配方法及裝置
技術領域
本發明涉及一種互聯網信息處理方法,特別涉及一種用戶畫像生成方法及裝置。
背景技術
時代的變遷,不可避免會帶來諸多社會變化。在互聯網逐漸步入大數據時代后,不可避免的為企業及消費者行為帶來一系列改變與重塑。互聯網唯快不破的節奏,打亂了原有商業演變的邏輯,使得商業的參與方不得不面臨著前所未有的變革,加速適應時代的變化。如何利用大數據挖掘潛在的商業價值,如何在企業中實實在在的應用大數據技術。伴隨著大數據應用的討論、創新,個性化技術成為了一個重要落地點。相比傳統的線下會員管理、問卷調查、購物籃分析,大數據第一次使得企業能夠通過互聯網便利地獲取用戶更為廣泛的反饋信息,為進一步精準、快速地分析用戶行為習慣、消費習慣等重要商業信息,提供了足夠的數據基礎。伴隨著對人的了解逐步深入,“用戶畫像”的概念應運而生,它完美地抽象出一個用戶的信息全貌,可以看作企業應用大數據的根基。
用戶畫像是真實用戶的虛擬代表,是在深刻理解真實數據的基礎上得出的一個虛擬用戶。企業通過收集與分析消費者社會屬性、生活習慣、消費行為、觀點差異等主要信息的數據之后,將他們區分為不同的類型,然后每種類型中抽取出典型特征,賦予一個名字、一張照片、一些人口統計學要素、場景等描述,就形成了一個用戶畫像,這是用戶的商業全貌,可以看作是企業應用大數據技術的基本方式。用戶畫像為企業提供了足夠的信息基礎,能夠幫助企業快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。
大數據處理,離不開計算機的運算,用戶畫像可以用標簽集合來表 示,標簽是某一種用戶特征的符號表示,用戶信息標簽化提供了一種便捷的方式,使得計算機能夠程序化處理與人相關的信息,甚至通過算法、模型能夠“理解”人。
一個標簽通常是預先定義的高度精煉的特征標識,如年齡段標簽:25~35歲,地域標簽:北京,標簽呈現出兩個重要特征:(1)語義化,人能很方便地理解每個標簽含義,這也使得用戶畫像模型具備實際意義,能夠較好的滿足業務需求,如判斷用戶偏好;(2)短文本,每個標簽通常只表示一種含義,標簽本身無需再做過多文本分析等預處理工作,這為利用機器提取標準化信息提供了便利。
用戶畫像標簽具體來說包括兩方面:標簽及其權重。標簽,表征了內容,用戶對該內容有興趣、偏好、需求等等。權重,表征了指數,用戶的興趣、偏好指數,也可能表征用戶的需求度,可以簡單的理解為置信度。
為用戶畫像的焦點工作就是為用戶打“標簽”,而一個標簽通常是人為規定的高度精煉的特征標識,如年齡、性別、地域、用戶偏好等,最后將用戶的所有標簽綜合來看,基本就可以勾勒出該用戶的立體“畫像”了。
具體來講,當為用戶畫像時,需要收集數據、分析標簽兩個步驟。
首先,收集到用戶所有的相關數據并將用戶數據劃分為靜態信息數據、動態信息數據兩大類,靜態數據就是用戶相對穩定的信息,如性別、年齡、地域、職業等,動態數據就是用戶不停變化的行為信息,如瀏覽網頁、搜索商品、發表點評、接觸渠道等。
其次,通過剖析數據為用戶貼上相應的標簽及指數,標簽代表用戶對該內容有興趣、偏好、需求等,指數代表用戶的興趣程度、需求程度、購買概率等。
如中國專利申請公開第104750731A號揭示的一種獲取完整用戶畫像的方法,包括:獲取殘缺的用戶畫像矩陣,以及隨機生成用戶參數矩陣P和標簽矩陣Q;計算第一部分用戶的畫像誤差,更新用戶參數矩陣和標簽參數矩陣,其中,選擇的第一部分用戶的第一變化差值大于第一剩余用戶的第一變化差值,第一剩余用戶為多個用戶中的除第一部分用戶之外的用戶,第一變化差值為用戶第r-1次更新的第一預測值與用戶 第r-2次更新的第一預測值之間的差值;在第R次更新用戶參數矩陣P和標簽參數矩陣Q之后,根據矩陣分解的結果,獲取完整的用戶畫像矩陣。
又如中國專利申請公開第104268292A號揭示的一種畫像系統的標簽詞庫更新方法,其包括:獲取用戶的畫像數據,所述畫像數據包括用于描述所述用戶的標簽和所述用戶發表的原始文本;當標簽的數量與原始文本的數量的比值小于預設的第一閾值時,對所述用戶發表的所有原始文本進行分詞處理,以得到多個標簽候選詞,并將標簽候選詞發送至推薦系統;推薦系統計算每一個標簽候選詞與預設的詞向量模型文件中每一個詞的向量距離,將存在向量距離大于預設的第二閾值的標簽候選詞加入到標簽詞庫中,將不存在向量距離大于第二閾值的標簽候選詞刪除。
再如中國專利申請公開第103577549A號揭示的一種基于微博標簽的人群畫像系統和方法,包含微博標簽推薦和標簽主題聚類兩大模塊,其中第一模塊中采用一個涵蓋三個步驟的標簽推薦算法。第一步為同質性標簽推薦,第二步為共現性標簽擴展;第三步則是以中文知識圖譜為基礎建立語義網絡,利用網絡拓撲特性來度量標簽之間的語義相似度,從而去除語義相同或相似的標簽,保證用來刻畫用戶的標簽精煉性。
然而,上述三篇專利文獻公開的用戶畫像技術的應用領域均不屬于本發明所涉及的酒店行業。
在酒店行業中,目前的用戶畫像標簽化分析的研究和應用主要集中在用戶屬性和用戶行為等數據上,用戶屬性數據包括年齡、性別、地域等,用戶行為數據包括用戶在官網或者移動應用端的訪問歷史、點擊歷史、消費歷史等數據,基于點評數據的研究和應用較少。這方面的主要問題在于點評文本的分析理解很難,需要借助自然語言處理等技術,將非結構化的數據轉化為結構化的數據,常見的用戶標簽分析算法才可以加以應用。
因此,提供一種基于酒店點評的用戶標簽和酒店標簽匹配方法成為業內急需解決的問題。
發明內容
本發明的目的是提供一種基于酒店點評的用戶標簽和酒店標簽匹配方法及裝置,其通過標簽為酒店和用戶建模,從而更好地在酒店和用戶之間建立關聯。
常見的用戶點評分析方法都是基于結構化數據,如用戶屬性數據,包括年齡、性別、地域等,或者用戶行為數據包括用戶在官網或者移動應用端的訪問歷史、點擊歷史、消費歷史等。本發明針對研究和應用較少的酒店點評數據,不僅能分析出用戶對酒店的評價是好評還是差評,還可以挖掘出維度,基于此構建酒店和用戶的標簽。
本發明首先通過聚焦爬蟲從各大主流點評(OnlineTravelAgent,OTA)網站獲取在線點評數據。然后針對大規模點評,通過自動/半自動方式整理酒店業情感詞庫以及領域知識庫。最后,針對點評中的每個句子,進行分詞、詞性標注、短語結構句法分析等自然語言處理技術等分析,在此基礎上提取關鍵詞或關鍵句式作為特征,通過最大熵分類器實現情感分類。對于表達情感的句子,進一步根據領域關鍵詞及知識庫推理得到維度。每個維度都反映了人們觀察、認識和描述酒店或用戶的一個角度。
本發明通過維度詳細描述酒店業酒店和用戶雙方關注的焦點,并以此作為標簽集。用戶標簽反映了用戶在意的方面,而酒店標簽反映了酒店擅長的方面。以向用戶推薦酒店這樣的場景為例,當用戶在意的標簽與酒店擅長的標簽越相似,或者匹配程度越高,則越適合推薦給用戶。有了標簽集合,下一步就是針對某個用戶的所有點評或者某家酒店的所有點評,計算標簽權重。權重計算主要基于標簽在點評中出現的頻次。酒店標簽與用戶標簽的差異在于,為了反映酒店某方面的擅長程度,需要考慮標簽對應點評點情感極性。在某個標簽上,好的評價越多,則認為酒店這方面越擅長,做得越好。
本發明中所指的維度是指能夠表達對酒店某一方面評價的語句情感類型,比如酒店的衛生級別、交通便利度、周邊環境指數、房間空間大小等等方面,具體可以包括若干個維度,例如維度1表示衛生級別為A級;……維度12表示交通便利度為B級;……維度53表示周邊 環境指數為C級;……維度104表示房間空間大小為D級等等。
本發明中所指的詞匯的不同屬性是指將詞匯分為評價對象詞、評價屬性詞以及情感詞等屬性。
根據本發明的一個方面,提供一種基于酒店點評的用戶標簽和酒店標簽匹配方法,包括:(1)、準備酒店業情感語句模板庫,酒店業情感語句模板庫包括至少100個情感語句模板;(2)、準備至少三個酒店的最終酒店標簽;(3)、從互聯網獲取特定用戶針對同一酒店或不同酒店的至少兩條用戶點評;(4)、將特定用戶的所有用戶點評的情感語句逐一與至少100個情感語句模板進行比對,篩選出與至少100個情感語句模板相匹配的情感語句,并將所篩選出的情感語句根據所表達的情感類型識別為不同的維度,再以所識別的所有維度形成特定用戶的用戶標簽集合;(5)、分別計算特定用戶的用戶標簽集合中的每個用戶標簽的權重,其中,在特定用戶的全部用戶點評中出現的頻率越高且在所有用戶針對所有酒店的所有用戶點評中出現的頻率越低則用戶標簽權重越高;(6)、從特定用戶的用戶標簽集合中選擇權重大于第一設定閾值的用戶標簽作為特定用戶的最終用戶標簽;以及(7)、至少將最終酒店標簽與特定用戶的最終用戶標簽匹配率位于前三名的酒店推薦給特定用戶。
其中,根據具體使用條件,準備至少三個酒店的最終酒店標簽可為準備至少10個、至少100個或者至少500個最終酒店標簽。
可選擇地,可以事先通過其它裝置或通過人工從點評網站獲取點評數據備用。
可選擇地,可以事先通過其它裝置或通過人工整理出酒店業語義詞典備用。
可選擇地,可以事先通過其它裝置或通過人工整理出酒店業情感語句模板庫備用。
可選擇地,可以事先通過其它裝置或通過人工整理出種子語義詞典備用。
可選擇地,步驟(2)中準備至少三個酒店的最終酒店標簽包括:(2.1)、從互聯網獲取分別針對至少三個酒店的用戶點評,其中針對每個酒店包括至少三個用戶的用戶點評;(2.2)、將針對特定酒店的所有用 戶點評的情感語句逐一與至少100個情感語句模板進行比對,篩選出與至少100個情感語句模板相匹配的情感語句,并將所篩選出的情感語句根據所表達的情感類型識別為不同的維度,再以所識別的所有維度形成特定酒店的酒店標簽集合;(2.3)、分別計算特定酒店的酒店標簽集合中的每個酒店標簽的權重,其中,在針對同一酒店的所有用戶點評中出現的頻率越高且在針對所有酒店的所有用戶點評中出現的頻率越低則酒店標簽權重越高;(2.4)、從酒店標簽集合中選擇權重大于第二設定閾值的酒店標簽作為特定酒店的最終酒店標簽;以及(2.5)、重復步驟(2.2)-(2.4)直至獲得所有酒店的最終酒店標簽。
可選擇地,步驟(1)中準備酒店業情感語句模板庫可包括從互聯網獲取的至少10000條酒店用戶點評中根據語句出現的頻率高低篩選出至少100個情感語句作為情感語句模板。
可選擇地,進一步包括根據詞匯出現的頻率高低從至少10000條酒店用戶點評中篩選出至少1000個酒店業常用詞匯用以構建酒店業語義詞典。
可選擇地,在步驟(1)中,在準備酒店業情感語句模板庫之前,進一步包括構建酒店業語義詞典的步驟,步驟(4)中將特定用戶的所有用戶點評的情感語句逐一與至少100個情感語句模板進行比對包括:(4.1)、將特定情感語句切分成與酒店業語義詞典中相應的若干個酒店業常用詞匯;(4.2)、根據特定情感語句中每個詞匯的不同屬性分別與至少100個情感語句模板進行比對,從而確定與至少100個情感語句模板中的任一個情感語句模板是否相匹配;以及(4.3)、重復步驟(4.1)-(4.2),直至篩選出與至少100個情感語句模板相匹配的所有情感語句。
可選擇地,步驟(2.2)中將針對特定酒店的所有用戶點評的情感語句逐一與至少100個情感語句模板進行比對包括:(2.2.1)、將特定情感語句切分成與酒店業語義詞典中相應的若干個酒店業常用詞匯;(2.2.2)、根據特定情感語句中每個詞匯的不同屬性分別與至少100個情感語句模板進行比對,從而確定與至少100個情感語句模板中的任一個情感語句模板是否相匹配;以及(2.2.3)、重復步驟(2.2.1)-(2.2.2),直至篩選出與至少100個情感語句模板相匹配的所有情感語句。
可選擇地,步驟(3)中可以通過聚焦爬蟲從點評網站獲取用戶點 評。
可選擇地,步驟(1)中準備酒店業情感語句模板庫可以通過基于用戶點評的自舉方法提取句式模版,從而獲得酒店業情感語句模板庫。
可選擇地,準備酒店業情感語句模板庫以及構建酒店業語義詞典的步驟包括:(1.1)、獲取點評數據,通過整理各個情感要素的詞形成種子詞典;(1.2)、對點評數據的句子進行分詞處理,然后逐詞判定其語義類并用語義類標簽進行替換;(1.3)、對標簽替換后的點評數據進行斷句,根據各語義類的名稱及各語義類包含的具體詞語生成模版;(1.4)、將模版應用到語義類標簽替換后的點評數據中,以抽取各語義類的語義詞;(1.5)、根據模版的重要性、推廣性和準確性,對各模版進行打分;(1.6)、選取得分最高的部分模版,根據選取的模版及其打分計算各模版抽取的語義詞的得分,進而選取得分最高的部分語義詞對語義詞典進行擴充;以及(1.7)、步驟(1.2)至步驟(1.6)迭代進行,直到挑選出來的語義詞不正確時迭代終止,得到最終的酒店業語義詞典,并由各模版構成酒店業情感語句模板庫。
可選擇地,步驟(1.1)通過聚焦爬蟲從點評網站獲取在線點評數據,并通過人工查看少量點評,整理各個語義類的詞,形成種子詞典。
可選擇地,步驟(1.2)首先采用基于詞典的最大匹配分詞方法進行分詞,然后針對分詞有歧義的部分采用序列標注的分詞方法得到正確的分詞結果;所述序列標注的分詞方法將詞的切分問題轉換為字的分類問題,每個字根據其在詞中的不同位置,賦予不同的位置類別標記,基于這樣的標記序列確定句子的切分方式。
可選擇地,不同的位置類別標記,包括詞首、詞中、詞尾和單字詞,并采用條件隨機場模型實現序列標注任務。
可選擇地,步驟(1.2)中語義類包括評價對象詞、評價屬性詞、情感詞、程度副詞、普通副詞、否定詞、插入詞。
可選擇地,步驟(1.3)根據“。”、“!”、“?”3個標點符號進行斷句,并限定模版的最小長度為3個詞,最大長度為7個詞。
可選擇地,步驟(1.4)抽取各語義類的語義詞時,當某個點評片段對應的模版與步驟(1.3)所得模版的差異只有一個詞時,將該詞作為相 應語義類的實例詞。
可選擇地,步驟(1.5)對各模版進行打分的方法是:
1)對模版重要性和推廣性打分S(pati)的計算公式如下:

其中,|pati|是模版pati的長度,以詞數計算,f(pati)表示模版pati的頻次,C(pati)表示嵌套pati的模版集合;
2)對模版準確性打分P(pati)的計算公式如下:
P(pati)=Σt∈SemLex,t∈T(pati)f(t)Σt∈T(pati)f(t),]]>
其中,T(pati)表示模版pati抽取的語義詞集合,f(t)表示語義詞t的頻次,SemLex為種子語義詞典;
3)采用Sigmoid函數將S(pati)歸一化到(0,1),進而融合兩方面的打分得到F(pati),計算公式如下:
F(pati)=α*log211+e-S(pati)+(1-α)*log2P(pati),]]>
其中α為重要性和推廣性打分S(pati)的權重,取值范圍為[0,1]。
可選擇地,步驟(1.6)所述得分最高的部分模版是得分最高的前5~10%的模版,所述得分最高的部分語義詞是得分最高的前5~10%的語義詞。
可選擇地,在步驟(1.7)之后,由人工進行確定語義詞典中情感詞 的極性,以及情感詞與評價對象詞、評價屬性詞的搭配極性;人工確定過程中,將其所屬模版對應的點評片段作為判定的依據。
可選擇地,本發明中對點評進行情感分析的步驟包括:獲取點評數據,對其進行規范化處理;對規范化處理后的點評數據的句子進行分詞處理;對分詞后的句子進行要素分析,識別出影響文本情感傾向性檢測分析的各類詞語;根據句式模版庫對進行要素分析后的點評數據進行句式模版匹配;確定點評數據的句子中指代語對應的先行語,并恢復省略的主語;將出現評價對象詞、評價屬性詞或情感詞的句子作為候選情感句,采用最大熵模型對候選情感句的句子極性進行判別,得到句子的情感傾向性。
可選擇地,規范化處理是采用基于規則的方法處理點評文本中的拼寫錯誤,所述規則是“包含錯別字的字串或詞串”到“相應正確字串或詞串”的映射;所述規則通過兩種方法獲取:一是根據現有知識,即前人總結的常見拼寫錯誤;二是根據每個字或詞的上下文的抽取相似字或詞,通過人工校驗確定正確的字串或詞串。
可選擇地,首先采用基于詞典的最大匹配分詞方法進行分詞,然后針對分詞有歧義的部分采用序列標注的分詞方法得到正確的分詞結果;所述序列標注的分詞方法將詞的切分問題轉換為字的分類問題,每個字根據其在詞中的不同位置,賦予不同的位置類別標記,基于這樣的標記序列確定句子的切分方式。
可選擇地,不同的位置類別標記,包括詞首、詞中、詞尾和單字詞,并采用條件隨機場模型實現序列標注任務。
可選擇地,要素包括點評數據中的評價對象詞、評價屬性詞、情感詞、程度副詞、普通副詞、否定詞、插入詞,以及關于城市、景點的詞語,在將句子中的要素識別出來后,標記上相應的類別標簽。
可選擇地,通過基于點評的自舉方法提取句式模版,從而建立句式模版庫。
可選擇地,如果當前句中沒有評價對象詞或評價屬性詞,則選擇上一句最后提及的評價對象或評價屬性詞引入到當前句;如果當前句中只有評價屬性詞,則當上一句出現評價對象時將其引入到當前句。
可選擇地,最大熵模型通過建立條件概率模型預測不同情感類別并 估計其概率,情感類別包括-1、0、1三類,分別表示差評、無情感、好評。
根據本發明的另一方面,提供一種基于酒店點評的用戶標簽和酒店標簽匹配裝置,包括:酒店業情感語句模板庫生成模塊,酒店業情感語句模板庫包括至少100個情感語句模板;最終酒店標簽生成模塊,其用于生成至少三個酒店的最終酒店標簽;用戶點評獲取模塊,其從互聯網獲取特定用戶針對同一酒店或不同酒店的至少兩條用戶點評;用戶標簽集合生成模塊,其將特定用戶的所有用戶點評的情感語句逐一與至少100個情感語句模板進行比對,篩選出與至少100個情感語句模板相匹配的情感語句,并將所篩選出的情感語句根據所表達的情感類型識別為不同的維度,再以所識別的所有維度形成特定用戶的用戶標簽集合;用戶標簽權重計算模塊,其分別計算特定用戶的用戶標簽集合中的每個用戶標簽的權重,其中,在特定用戶的全部用戶點評中出現的頻率越高且在所有用戶針對所有酒店的所有用戶點評中出現的頻率越低則用戶標簽權重越高;最終用戶標簽生成模塊,其從特定用戶的用戶標簽集合中選擇權重大于第一設定閾值的用戶標簽作為特定用戶的最終用戶標簽;以及酒店推薦模塊,其至少將最終酒店標簽與特定用戶的最終用戶標簽匹配率位于前三名的酒店推薦給特定用戶。
可選擇地,最終酒店標簽生成模塊可通過用戶點評獲取模塊從互聯網獲取分別針對至少三個酒店的用戶點評,其中針對每個酒店包括至少三個用戶的用戶點評;最終酒店標簽生成模塊還可包括:酒店標簽集合生成子模塊,其將針對特定酒店的所有用戶點評的情感語句逐一與至少100個情感語句模板進行比對,篩選出與至少100個情感語句模板相匹配的情感語句,并將所篩選出的情感語句根據所表達的情感類型識別為不同的維度,再以所識別的所有維度形成特定酒店的酒店標簽集合;以及酒店標簽權重計算子模塊,其分別計算特定酒店的酒店標簽集合中的每個酒店標簽的權重,其中,在針對同一酒店的所有用戶點評中出現的頻率越高且在針對所有酒店的所有用戶點評中出現的頻率越低則酒店標簽權重越高;其中,最終酒店標簽生成模塊從酒店標簽集合中選擇權重大于第二設定閾值的酒店標簽作為特定酒店的最終酒店標簽。
可選擇地,酒店業情感語句模板庫生成模塊可通過用戶點評獲取模塊從互聯網獲取至少10000條酒店用戶點評并根據語句出現的頻率高低 從中篩選出至少100個情感語句作為情感語句模板。
可選擇地,可進一步包括酒店業語義詞典生成模塊,其根據詞匯出現的頻率高低從至少10000條酒店用戶點評中篩選出至少1000個酒店業常用詞匯用以構建酒店業語義詞典。
可選擇地,第一設定閾值或第二設定閾值可在0~1范圍內任意選擇。比如,第一設定閾值選為0.5,第二設定閾值選為0.3。
作為一種替代方案,對于酒店業語義詞典和句式模板庫的構建,本發明可采用基于Bootstrapping的方法。
自舉(Bootstrapping),即自擴展或自舉,是一種半監督的機器學習方法,可以用于同時抽取語義詞典和模板。這種方法的思想基于這樣的觀察:抽取模板可以用于抽取新的實例,反過來這些實例又可以用于抽取新的模板。這種方法的優勢在于不需要標注的訓練語料,僅僅需要少數種子。首先通過人工干預得到初始化的種子詞語,利用種子詞語獲得模板,進而通過模板獲得種子詞語,如此迭代進行。在每一輪迭代中,都將產生新的標注數據,最優的詞會添加到相應到語義詞典中,最優的模版也會添加到模版庫中,用這些新的標注數據重新學習模型,從而又可以產生新的數據,如此循環往復,直到最終收斂結束,從而獲得更多的種子詞語和模板。這就是最基本的Bootstrapping算法(或過程)。
語義詞典的語義類包括評價對象詞、評價屬性詞、情感詞、程度副詞、普通副詞、否定詞、插入詞等,每個語義類都包括若干詞語,模版就是由語義類名稱或具體詞語組成都序列。
下面是具體的實施步驟:
步驟1:數據準備。通過聚焦爬蟲從攜程等主流點評網站獲取在線點評數據。
步驟2:種子詞典構建。人工查看少量(如500條)點評,整理各個語義類的詞,語義詞典記為SemLex。
步驟3:點評分詞。中文分詞是中文自然語言處理的基礎步驟,本發明分詞采用詞典分詞和統計分詞融合的方法。首先采用基于詞典的最大匹配分詞方法,針對分詞有歧義的部分再采用序列標注的分詞方法。
基于詞典的最大匹配分詞方法,給定詞典,對于待分詞的漢字序列, 依次尋找匹配的最長詞典詞,無匹配者則作為單字詞處理,直至該漢字序列處理完畢。按照對漢字序列掃描方向的不同,該方法又可以分為:正向最大匹配(從左向右匹配)和逆向最大匹配(從右向左匹配)。例如,對于序列“當原子結合成分子時”,正向最大匹配結果為“當|原子|結合|成|分子|時”,而逆向最大匹配結果為“當|原子|結合|成分|子時”。顯然,正向最大匹配和逆向最大匹配都不能很好地處理切分歧義問題。正向最大匹配和逆向最大匹配也可以結合形成雙向最大匹配,雙向匹配時正向和逆向匹配不一致的地方,往往是潛在歧義的地方。有歧義往往需要根據具體上下文確認分詞結果。有監督的序列標注方法能夠充分的挖掘上下文的豐富特征,因此有歧義的情況下本發明引入序列標注方法消除歧義。該方法將詞的切分問題轉換為字的分類問題,每個字根據其在詞中的不同位置,賦予不同的位置類別標記,比如詞首、詞中、詞尾和單字詞。基于這樣的標記序列,很容易確定句子的切分方式。其中,B(Begin)、M(Middle)、E(End)、S(Single)分別表示詞首、詞中、詞尾、單字詞。有了字的標記序列,符合正則表達式“S”或“B(M)*E”的字序列表示一個詞,從而很容易地完成句子切分。為了實現序列標注任務,分發明采用條件隨機場模型(ConditionalRandomFields,CRF),該模型在自然語言處理中得到廣泛應用,并取得了很大成功。具體特征包括:前一個字、當前字、后一個字、前一個字與當前字、當前字與后一個字。條件隨機場模型利用提取的這些特征,預測出的每個字的類別標記。
最大匹配方法的詞典以及有監督的條件隨機場模型的訓練學習語料都來自本發明人工標注的10萬條酒店點評。
步驟4:語義類標簽替換。對分詞后的點評逐詞判定其語義類并用語義類標簽替換,如“餐廳|的|價格|很|高”,替換為“Obj|的|Attr|Dgr|Sent”,對于點評起始和結束位置分別添加“Start”和“End”標簽,點評中除了“。”、“!”、“?”之外的標點符號也采用“Punc”標簽替換。
步驟5:模版生成。根據“。”、“!”、“?”3個標點符號斷句,限定模版最小長度3個詞,最大長度7個詞,掃描標簽替換后的點評,生成模版。
步驟6:模版打分。本發明從兩方面打分,一方面通過頻次衡量模 版的重要性和推廣性,另一方面通過在語義詞典中的命中率衡量模版的準確性。
pati重要性和推廣性打分S(pati)的計算公式如下:

其中,|pati|是模版pati的長度,以詞數計算,f(pati)表示模版pati的頻次,C(pati)表示嵌套pati的模版集合。
pati準確性打分P(pati)的計算公式如下:
P(pati)=Σt∈SemLex,t∈T(pati)f(t)Σt∈T(pati)f(t)]]>
其中,T(pati)表示模版pati抽取的語義詞集合,f(t)表示語義詞的頻次。
采用Sigmoid函數將S(pati)歸一化到(0,1),進而融合兩方面的打分得到F(pati),計算公式如下:
F(pati)=α*log211+e-S(pati)+(1-α)*log2P(pati)]]>
α=0.4,本發明更注重模版的準確性。
步驟7:模版挑選。根據F(pati)選取得分最高的前5%。
步驟8:語義詞抽取。將挑選出來的模版應用到語義類標簽替換后到點評中。當某個點評片段與挑選模版只有一個詞有差異時,將該詞作為相應語義類的實例詞。
步驟9:語義詞打分。
P(tj)=Σk,tj∈T(patk)P(patk)]]>
步驟10:語義詞典擴充。選取得分最高的前5%。
步驟4到步驟10迭代進行。迭代終止條件。挑選出來的語義詞明顯不正確時終止。
步驟11:極性確定。對于情感詞的極性,以及情感詞與評價對象詞、評價屬性詞的搭配極性,由人工完成。人工確定過程中,將其所屬模版對應的點評片段作為判定的依據。
結果表明,本發明在準確率和召回率上都取得了不錯的性能。產生高質量的語義詞典和句式模板庫。
作為另一種替代方案,本發明的情感語句模板構建及語句比對分析方法如下。
本發明首先通過聚焦爬蟲從各大主流點評網站獲取在線點評數據。然后針對大規模點評,通過半自動方式整理語義詞典以及句式庫。最后,針對點評中的每個句子,進行分詞等處理和分析,在此基礎上提取關鍵詞或關鍵句式作為特征,通過最大熵分類器實現情感分類。包括如下步驟:
步驟1:文本規范化。
互聯網點評文本常會出現拼寫錯誤,對于這些問題,我們采用基于規則的方法處理。這些規則是“包含錯別字的字串或詞串”到“相應正確字串或詞串”的映射。這種規則通過兩種方法獲取:一是根據現有知識,即前人總結的常見拼寫錯誤;二是根據每個字或詞的上下文的抽取相似字或詞,人工校驗確定。這種方法簡單,有效。系統這個模塊的性能依賴于拼寫錯誤糾正規則的數量,在系統運維的過程中可以不斷總結,豐富規則庫。
中文還存在標點符號全半角問題,根據符號全半角映射關系,將標點符號統一標示為半角符號。
步驟2:點評分詞。
點評分詞。中文分詞是中文自然語言處理的基礎步驟,本發明分詞采用詞典分詞和統計分詞融合的方法。首先采用基于詞典的最大匹配分詞方法,針對分詞有歧義的部分再采用序列標注的分詞方法。
基于詞典的最大匹配分詞方法,給定詞典,對于待分詞的漢字序列,依次尋找匹配的最長詞典詞,無匹配者則作為單字詞處理,直至該漢字序列處理完畢。按照對漢字序列掃描方向的不同,該方法又可以分為:正向最大匹配(從左向右匹配)和逆向最大匹配(從右向左匹配)。例如,對于序列“當原子結合成分子時”,正向最大匹配結果為“當|原子|結合|成|分子|時”,而逆向最大匹配結果為“當|原子|結合|成分|子時”。顯然,正向最大匹配和逆向最大匹配都不能很好地處理切分歧義問題。正向最大匹配和逆向最大匹配也可以結合形成雙向最大匹配,雙向匹配時正向和逆向匹配不一致的地方,往往是潛在歧義的地方。有歧義往往需要根據具體上下文確認分詞結果。有監督的序列標注方法能夠充分的挖掘上下文的豐富特征,因此有歧義的情況下本發明引入序列標注方法消除歧義。該方法將詞的切分問題轉換為字的分類問題,每個字根據其在詞中的不同位置,賦予不同的位置類別標記,比如詞首、詞中、詞尾和單字詞。基于這樣的標記序列,很容易確定句子的切分方式。其中,B(Begin)、M(Middle)、E(End)、S(Single)分別表示詞首、詞中、詞尾、單字詞。有了字的標記序列,符合正則表達式“S”或“B(M)*E”的字序列表示一個詞,從而很容易地完成句子切分。為了實現序列標注任務,分發明采用條件隨機場模型(ConditionalRandomFields,CRF),該模型在自然語言處理中得到廣泛應用,并取得了很大成功。具體特征包括:前一個字、當前字、后一個字、前一個字與當前字、當前字與后一個字。條件隨機場模型利用提取的這些特征,預測出的每個字的類別標記。
最大匹配方法的詞典以及有監督的條件隨機場模型的訓練學習語料都來自本發明人工標注的10萬條酒店點評。
步驟3:要素分析。
要素,指的是影響文本情感分析的重要因素,既包括上述的情感信息要素,如點評中的評價對象詞、評價屬性詞、情感詞、程度副詞、普通副詞、否定詞、插入詞等,又包括城市、景點等多個類別的詞語。要素分析是將句子中的要素識別出來,并標記上其相應的類別標簽。
步驟4:句式匹配。
對句子經過要素分析后得到句子語義類別化形式,即句式,句式反映的是其中的詞或要素共同的上下文,所以具有一定的消歧能力。句式匹配過程中,已有的句式庫起著關鍵作用,它反映了領域中表達情感的常見句式。句式庫是本發明的核心資源,反映了點評中情感表達的常見句式。本發明通過基于點評的自舉(Bootstrapping)方法提取抽句式。
步驟5:指代消解。
指代和省略是常見的語言現象。指代常表示共指,即兩種表述均指稱相同對象。指代有多種類型,我們主要針對人稱代詞、指示代詞作為指代語的情況。省略可以視為零指代語的情況,所以我們將指代和省略都看成廣義的“指代”,指代消解指的是發現指代語對應的先行語,或恢復省略的主語。如果當前句中沒有評價對象詞或評價屬性詞,選擇上一句最后提及的評價對象或評價屬性詞引入到當前句。如果當前句中只有評價屬性詞,當上一句出現評價對象時引入到當前句。
步驟6:情感分析。
將出現評價對象詞、評價屬性詞或情感詞的句子作為候選情感句。針對候選情感句,采用最大熵(MaximumEntropy)模型,融合豐富的上下文特征,對句子極性進行判別,得到句子的情感傾向性。在分類任務中,判別式模型往往要優于產生式模型。產生式模型估計的是聯合概率分布,在機器學習中用于對數據直接建模,或者借助貝葉斯規則作為得到條件概率的中間步驟。而判別式模型直接對條件概率建模,使得模型的訓練和預測保持一致,從而更好地在類別之間進行區分。在判別式模型中,最大熵模型在自然處理領域得到廣泛應用。對于給定上下文信息x∈X預測類別y∈Y這樣的分類問題,最大熵模型建立條件概率模型P(y|x)預測不同類別y∈Y并估計其概率。類別包括-1(差評)、0(無情感)、1(好評)三類。特征包括評價對象詞、評價屬性詞、情感詞,以及它們的搭配,還有否定詞、句式等特征。
本發明的有益效果是:本發明的方案可以有效利用酒店點評數據形成用戶畫像,并根據用戶畫像將最符合用戶需求的酒店推薦給特定用戶,這能夠顯著地節省用戶在互聯網上搜索酒店的時間和精力,還能夠幫助酒店發現/克服自身的不足并進一步提高/優化自身的特色。
附圖說明
圖1示出了本發明基于酒店點評的用戶標簽和酒店標簽匹配方法的流程示意圖。
具體實施方式
下面通過參考附圖和實施例對本發明作進一步詳細闡述,但這些闡述并不對本發明做任何形式的限定。除非另有說明,否則本文所用的所有科學和技術術語具有本發明所屬和相關技術領域的一般技術人員通常理解的含義。
請參照圖1,根據本發明的一種非限制性實施方式,提供一種基于酒店點評的用戶標簽和酒店標簽匹配方法,具體包括以下步驟。
在步驟S1中,從互聯網獲取約50000條酒店用戶點評,并根據詞匯出現的頻率高低從中篩選出約5000個酒店業常用詞匯用以構建酒店業語義詞典。
在步驟S2中,準備酒店業情感語句模板庫,包括從互聯網獲取的約50000條酒店用戶點評中根據語句出現的頻率高低篩選出約500個情感語句作為情感語句模板。
在步驟S3中,準備約200個酒店的最終酒店標簽,具體包括:從以上獲得的約50000條酒店中篩選出分別針對約200個酒店的用戶點評,其中針對每個酒店包括約100個用戶的用戶點評;將針對特定酒店的所有用戶點評的情感語句逐一與約500個情感語句模板進行比對,篩選出與約500個情感語句模板相匹配的情感語句,并將所篩選出的情感語句根據所表達的情感類型識別為不同的維度,再以所識別的所有維度形成特定酒店的酒店標簽集合,比如,一號酒店的酒店標簽集合包括:維度1(衛生級別為A級)、維度11(交通便利度為A級)、維度51(周邊環境指數為A級)、維度101(房間空間大小為A級)等;二號酒店的酒店標簽集合包括:維度2(衛生級別為B級)、維度12(交通便利度為B級)、維度52(周邊環境指數為B級)、維度102(房間空間大小為B級)等;三號酒店的酒店標簽集合包括:維度3(衛生級別為C級)、維度13(交通便利 度為C級)、維度53(周邊環境指數為C級)、維度103(房間空間大小為C級)等;分別計算特定酒店的酒店標簽集合中的每個酒店標簽的權重,其中,在針對同一酒店的所有用戶點評中出現的頻率越高且在針對所有酒店的所有用戶點評中出現的頻率越低則酒店標簽權重越高;從酒店標簽集合中選擇權重大于第二設定閾值的酒店標簽作為特定酒店的最終酒店標簽,其中,第二設定閾值選為0.4。重復本步驟直至獲得所有酒店的最終酒店標簽。其中,將針對特定酒店的所有用戶點評的情感語句逐一與約500個情感語句模板進行比對過程具體可包括:將特定情感語句切分成與酒店業語義詞典中相應的若干個酒店業常用詞匯;根據特定情感語句中每個詞匯的不同屬性分別與500個情感語句模板進行比對,從而確定與500個情感語句模板中的任一個情感語句模板是否相匹配;以及重復該過程直至篩選出與500個情感語句模板相匹配的所有情感語句。
在步驟S4中,從互聯網獲得特定用戶針對三個酒店的三次用戶點評。
在步驟S5中,將特定用戶的所有用戶點評的情感語句逐一與約500個情感語句模板進行比對,篩選出與約500個情感語句模板相匹配的情感語句,并將所篩選出的情感語句根據所表達的情感類型識別為不同的維度,再以所識別的所有維度形成特定用戶的用戶標簽集合,比如,特定客戶的用戶標簽集合包括:維度1(衛生級別為A級)、維度12(交通便利度為B級)、維度51(周邊環境指數為A級)、維度103(房間空間大小為C級)等。其中,將特定用戶的所有用戶點評的情感語句逐一與約500個情感語句模板進行比對過程具體包括:將特定情感語句切分成與酒店業語義詞典中相應的若干個酒店業常用詞匯;根據特定情感語句中每個詞匯的不同屬性分別與500個情感語句模板進行比對,從而確定與500個情感語句模板中的任一個情感語句模板是否相匹配;以及重復該過程直至篩選出與500個情感語句模板相匹配的所有情感語句。
在步驟S6中,分別計算特定用戶的用戶標簽集合中的每個用戶標簽的權重,其中,在特定用戶的全部用戶點評中出現的頻率越高且在所有用戶針對所有酒店的所有用戶點評中出現的頻率越低則用戶標簽權重越高。
在步驟S7中,從特定用戶的用戶標簽集合中選擇權重大于第一設定閾值的用戶標簽作為特定用戶的最終用戶標簽,其中,第一設定閾 值選為0.6。
在步驟S8中,將最終酒店標簽與特定用戶的最終用戶標簽匹配率最高的酒店推薦給特定用戶,比如,在該非限制性實施方式中,將一號酒店推薦給該特定用戶。
根據本發明的另一種非限制性實施方式,提供一種基于酒店點評的用戶標簽和酒店標簽匹配裝置,包括:酒店業情感語句模板庫生成模塊,酒店業情感語句模板庫包括1000個情感語句模板;最終酒店標簽生成模塊,其用于生成500個酒店的最終酒店標簽;用戶點評獲取模塊,其從互聯網獲取特定用戶針對不同酒店的五次用戶點評;用戶標簽集合生成模塊,其將特定用戶的所有用戶點評的情感語句逐一與1000個情感語句模板進行比對,篩選出與1000個情感語句模板相匹配的情感語句,并將所篩選出的情感語句根據所表達的情感類型識別為不同的維度,再以所識別的所有維度形成特定用戶的用戶標簽集合;用戶標簽權重計算模塊,其分別計算特定用戶的用戶標簽集合中的每個用戶標簽的權重,其中,在特定用戶的全部用戶點評中出現的頻率越高且在所有用戶針對所有酒店的所有用戶點評中出現的頻率越低則用戶標簽權重越高;最終用戶標簽生成模塊,其從特定用戶的用戶標簽集合中選擇權重大于第一設定閾值的用戶標簽作為特定用戶的最終用戶標簽;以及酒店推薦模塊,其將最終酒店標簽與特定用戶的最終用戶標簽匹配率位于前十名的酒店推薦給特定用戶。
最終酒店標簽生成模塊通過用戶點評獲取模塊從互聯網獲取分別針對500個酒店的用戶點評,其中針對每個酒店包括200個用戶的用戶點評;最終酒店標簽生成模塊還包括:酒店標簽集合生成子模塊,其將針對特定酒店的所有用戶點評的情感語句逐一與1000個情感語句模板進行比對,篩選出與1000個情感語句模板相匹配的情感語句,并將所篩選出的情感語句根據所表達的情感類型識別為不同的維度,再以所識別的所有維度形成特定酒店的酒店標簽集合;以及酒店標簽權重計算子模塊,其分別計算特定酒店的酒店標簽集合中的每個酒店標簽的權重,其中,在針對同一酒店的所有用戶點評中出現的頻率越高且在針對所有酒店的所有用戶點評中出現的頻率越低則酒店標簽權重越高;其中,最終酒店標簽生成模塊從酒店標簽集合中選擇權重大于第二設定閾值的酒店標簽作為特定酒店的最終酒店標簽。
酒店業情感語句模板庫生成模塊通過用戶點評獲取模塊從互聯網獲取100000條酒店用戶點評并根據語句出現的頻率高低從中篩選出1000個情感語句作為情感語句模板。
本發明的裝置進一步包括酒店業語義詞典生成模塊,其根據詞匯出現的頻率高低從100000條酒店用戶點評中篩選出10000個酒店業常用詞匯用以構建酒店業語義詞典。
下面結合具體實施例對本發明作出進一步詳細闡述,但實施例不應理解為對本發明保護范圍的限制。
一種基于酒店點評的用戶標簽和酒店標簽匹配方法,其包括如下步驟:
步驟1:通過聚焦爬蟲從攜程等主流點評網站獲取在線點評數據;
步驟2:過濾垃圾點評,垃圾點評包括無意義語句;
步驟3:構建酒店業語義詞典和句式模板庫;
步驟4:對點評進行情感分析。
步驟5:標簽分析。
針對點評中每個表達情感的句子,挖掘其表達的觀點,通過標簽來表達。
步驟6:按照標簽聚合點評片段,根據TF-IDF算法計算不同用戶不同標簽的權重。TF-IDF(TermFrequency-InverseDocumentFrequency)是一種統計方法,用來評估詞語對文件的重要程度,在信息檢索和文本特征選擇及計算等領域被廣泛應用。TF-IDF的主要思想是:如果某個詞語在一篇文檔中出現很頻繁,并且在其他文檔中很少出現,則認為該詞語具有很好的類別區分能力,適合用來表征該文檔。
TF-IDF實際是TF和IDF的乘積。TF表示詞語頻率(TermFrequency),是某一個給定詞語在文檔中出現的頻率,是對詞語頻次的歸一化,以防止偏向詞語多的文檔。計算公式如下:
tfi,j=ni,jΣknk,j]]>
其中,tfi,j表示詞語i在文檔j中的頻率,ni,j表示詞語i在文檔j中的頻次,Σknk,j表示文檔中所有詞語的頻次之和。
IDF表示逆向文檔頻率(InverseDocumentFrequency),是一個詞語普遍重要性的度量,計算公式如下:
idfi=log|D||{j:ti∈dj}|]]>
其中,idfi表示詞語i在語料庫中的逆向文檔頻率,|D|表示語料庫中的文檔總數,|{j:ti∈dj}|表示包含詞語i的文檔數目。如果詞語不在語料庫中,就會導致分母為零,因此一般情況下分母使用|{j:ti∈dj}|+1。
有了TF和IDF,然后再計算得到TFIDF,計算公式如下:
tfidfi,j=tfi,j×idfi
某一特定文檔內的高頻率詞語,以及該詞語在整個文檔集合中的低文檔頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。
步驟7:針對不同酒店和不同用戶,根據其TF-IDF和預先設定的閾值挑選,從而得到最終的酒店標簽和用戶標簽。
盡管在此已詳細描述本發明的優選實施方式,但要理解的是本發明并不局限于這里詳細描述和示出的具體構造,在不偏離本發明的實質和范圍的情況下可由本領域的技術人員實現其它的變型和變體。

關 鍵 詞:
基于 酒店 點評 用戶 標簽 匹配 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:基于酒店點評的用戶標簽和酒店標簽匹配方法及裝置.pdf
鏈接地址:http://www.wwszu.club/p-6405417.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大