WEB文本情感傾向性分析研究綜述

作者：新疆大學(xué)信息科學(xué)與工程學(xué)院-周俊臣來(lái)源：《計(jì)算機(jī)光盤(pán)軟件與應(yīng)用》日期：2014-05-22人氣：1874

文本情感分類(lèi)是分析和處理帶有情感色彩的主觀性文本，歸納總結(jié)并推理出主觀文本的情感傾向性。文本情感分類(lèi)的主要目的是能讓計(jì)算機(jī)自動(dòng)識(shí)別主觀性文本的情感傾向性及其強(qiáng)度，因此引申出了它的研究點(diǎn)[1]：文本的主客觀分類(lèi)；文本的情感傾向性分析；文本的情感強(qiáng)度分類(lèi)。前者容易理解,就是內(nèi)容描述的主客觀性分類(lèi),而后兩者則為褒貶性?xún)A向與情感表述強(qiáng)弱程度的分類(lèi)判別。文本情感傾向性分析實(shí)質(zhì)上是將文本分為積極、否定或者中性情感，通過(guò)分析、分類(lèi)和歸納大量主觀性文本的情感傾向，提取出人們對(duì)事物的總體看法。

本文就是針對(duì)以往的文本情感分類(lèi)工作，考慮國(guó)內(nèi)外最新進(jìn)展,對(duì)文本主客觀分類(lèi)和傾向性分析研究現(xiàn)狀進(jìn)行概括和展望。

1 主客觀性文本分析

通常的文本中，存在大量的客觀性文本和主觀性文本?？陀^性文本是一種對(duì)個(gè)人、事物或事件不帶有感情色彩的一種客觀性描述；主觀性文本主要描述人、群體或者組織對(duì)事物、人物、事件等的想法或看法。主觀性文本是文本情感傾向分析的主要對(duì)象，因此，對(duì)文本事先進(jìn)行主客觀文本識(shí)別非常重要，能夠有效地縮小分析范圍，提高分析速度和精確度。

在主觀句識(shí)別中，較簡(jiǎn)單的方法是通過(guò)對(duì)各種形容詞的分析、識(shí)別，來(lái)判斷句子的主客觀性，這可以看作識(shí)別主觀性句子最基本的思路，但往往還不夠。對(duì)于主客觀句子識(shí)別，比較常用的辦法就是結(jié)合詞性標(biāo)注，利用貝葉斯分類(lèi)器進(jìn)行分

類(lèi)，除此類(lèi)方法外，有人提出了基于半監(jiān)督自訓(xùn)練的句子主觀性分類(lèi)，嘗試決策樹(shù)模型作為選擇度量方法，并結(jié)合樸素貝葉斯分類(lèi)器，在 MPQA 語(yǔ)料庫(kù)中進(jìn)行試驗(yàn)，取得了不錯(cuò)的效果。

姚天昉等人從一些特殊的特征角度考察了主客觀文本，如標(biāo)點(diǎn)符號(hào)、人稱(chēng)代詞、數(shù)字等，從而總結(jié)出七條主觀線(xiàn)索。文獻(xiàn)[2]在此基礎(chǔ)上分別采用主觀線(xiàn)索和主觀模式的方法來(lái)提取主觀句子，最后又將兩種方法相結(jié)合來(lái)提取主觀句子。并針對(duì)相同測(cè)試語(yǔ)料進(jìn)行對(duì)比，結(jié)果表明，主觀線(xiàn)索與主觀模式相結(jié)合的方法是合理有效的。[3]通過(guò)分析微博文本的表述特點(diǎn)，提取一些主客觀線(xiàn)索特征，以特征詞和主客觀線(xiàn)索做語(yǔ)義特征，2-POS模式為語(yǔ)法特征，采用樸素貝葉斯練的分類(lèi)器分別研究它們對(duì)分類(lèi)結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明，特征選取上，同時(shí)考慮語(yǔ)義特征和語(yǔ)法結(jié)構(gòu)特征的分類(lèi)效果比僅考慮一種特征時(shí)要好。

總之，主觀性文本識(shí)別主要以情感詞為主，利用各種文本特征表示方法和分類(lèi)器進(jìn)行分類(lèi)識(shí)別，該方法關(guān)鍵在于分類(lèi)器和特征的選取。

2 文本情感傾向性分析方法

文本情感傾向性分析，就是對(duì)說(shuō)話(huà)人的態(tài)度(或稱(chēng)觀點(diǎn)、情感、語(yǔ)氣)進(jìn)行分析，也就是對(duì)文本中的主觀性信息進(jìn)行分析。文本情感傾向分析的研究大致可以分成四個(gè)級(jí)別:詞語(yǔ)級(jí)、短語(yǔ)級(jí)、句子級(jí)、篇章級(jí)。下面就對(duì)其各部分進(jìn)行總結(jié)。

2.1 詞語(yǔ)情感傾向性分析

詞語(yǔ)級(jí)感分析的研究對(duì)象主要是帶有情感色彩的詞語(yǔ)，以動(dòng)詞、副詞和形容詞為主。其中，除部分詞語(yǔ)的褒貶性可以通過(guò)查詞典的方式得到之外，其余詞語(yǔ)的傾向性都無(wú)法直接獲得。目前主要有以下幾種方法：

1. 基于情感詞典的方法。這種方法的主要思想是：選定一組己知極性的詞語(yǔ)并將其作為種子集合，對(duì)于一個(gè)情感傾向未知的新詞，找到與該詞語(yǔ)義相近、并且在種子集合中出現(xiàn)的若干個(gè)詞，根據(jù)這幾個(gè)種子詞的極性，對(duì)未知詞的情感傾向進(jìn)行推斷。這種方法對(duì)種子詞數(shù)量的依賴(lài)比較明顯。L. Bing在前人研究的基礎(chǔ)上,人工構(gòu)建一個(gè)包括30個(gè)形容詞的集合,再利用WordNet中形容詞的同義和反義集合來(lái)預(yù)測(cè)集合中形容詞的情感傾向，準(zhǔn)確率高達(dá)84%。[4]提出了基于馬爾科夫隨機(jī)游走模型的情感詞分析方法。該方法也是先建立一個(gè)種子集合，然后通過(guò)語(yǔ)義相似構(gòu)建候選詞和種子詞網(wǎng)絡(luò)，最后通過(guò)馬爾科夫隨機(jī)游走模型判斷候選詞的情感極性，此方法適用于那些半監(jiān)督或無(wú)監(jiān)督的訓(xùn)練集，與前面方法相比此方法不需要太多種子詞并且能迅速判斷情感。

2. 無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法。這種方法與第一種方法類(lèi)似,也是假設(shè)己經(jīng)有一些已知極性的詞語(yǔ)作為種子詞,不同的是,第一種方法是以詞典信息為依據(jù)判斷,而這種方法是根據(jù)詞語(yǔ)在語(yǔ)料庫(kù)中的共現(xiàn)情況判斷其聯(lián)系緊密程度。基于此思想，采用逐點(diǎn)分析方法SO-PMI，其理論假設(shè)是根據(jù)自然語(yǔ)言文本里的一個(gè)現(xiàn)象：語(yǔ)義傾向性越相似的兩個(gè)詞，在同一篇文檔中共現(xiàn)的概率越大。由于該假設(shè)是基于英文之上，不能直接用于中文的情感計(jì)算，文獻(xiàn)[5]在對(duì)中文文本特點(diǎn)分析的基礎(chǔ)上，結(jié)合語(yǔ)義和數(shù)據(jù)挖掘的相關(guān)理論，對(duì)逐點(diǎn)分析方法SO-PMI進(jìn)行了改進(jìn)，提出了一種新型的情感傾向計(jì)算模型，判別準(zhǔn)確率可達(dá)80%以上。

3. 基于語(yǔ)料庫(kù)的學(xué)習(xí)方法。該方法首先對(duì)情感傾向分析語(yǔ)料庫(kù)進(jìn)行手工標(biāo)注。在這些標(biāo)注語(yǔ)料的基礎(chǔ)上,利用詞與詞的統(tǒng)計(jì)特征、共現(xiàn)關(guān)系、搭配關(guān)系或者語(yǔ)義關(guān)系, 判斷詞語(yǔ)的情感傾向性。這類(lèi)方法的優(yōu)點(diǎn)是能簡(jiǎn)單明了的分析情感，缺陷是需要大量的人工標(biāo)注，人工干涉語(yǔ)料因素很大。

4. 利用詞語(yǔ)之間的關(guān)聯(lián)詞及依存關(guān)系。關(guān)聯(lián)詞可分為3種類(lèi)型:遞進(jìn)、并列和轉(zhuǎn)折，利用關(guān)聯(lián)詞判斷其前后詞的情感傾向。A. Gammerma借助于DeParser對(duì)句子進(jìn)行句法分析,得到詞與詞之間的依存關(guān)系及候選詞的否定詞和強(qiáng)調(diào)詞,以此來(lái)修正候選詞的原極性。

2.2 短語(yǔ)情感傾向性分析

短語(yǔ)情感傾向性分析是建立在詞語(yǔ)情感傾向性分析基礎(chǔ)上的，短語(yǔ)是詞和詞按照一定方式組合起來(lái)的語(yǔ)言單位，它的意義不僅包括內(nèi)部各詞的語(yǔ)義，還有各詞之間的組合方式，因此根據(jù)短語(yǔ)內(nèi)部各詞的語(yǔ)義和詞之間的結(jié)構(gòu)信息來(lái)確定短語(yǔ)的傾向性。

在文本情感分類(lèi)領(lǐng)域，最早使用短語(yǔ)模式的是Turney，他使用PMI-IR的方法計(jì)算待分析的短語(yǔ)與兩個(gè)類(lèi)別的基準(zhǔn)詞的相似度來(lái)計(jì)算短語(yǔ)的傾向性。在選擇短語(yǔ)模式時(shí)，H. Takamura建立潛在變量模型對(duì)“名詞+形容詞”模式的短語(yǔ)進(jìn)行傾向分類(lèi)，同時(shí)說(shuō)明短語(yǔ)的情感不是對(duì)詞的情感的簡(jiǎn)單累計(jì)，該模型對(duì)短語(yǔ)的分類(lèi)準(zhǔn)確率達(dá)82%。而[6]從語(yǔ)法及語(yǔ)義的角度對(duì)詞語(yǔ)的動(dòng)態(tài)詞匯層面進(jìn)行分析，從而確定短語(yǔ)模式，同時(shí)在研究文本情感時(shí)，提出了基于短語(yǔ)模式的文本情感傾向識(shí)別算法，實(shí)現(xiàn)文本的情感分類(lèi)。在特征提取上，C. Whitelaw 等從文本中提取諸如"very good"和"not terrible funny"之類(lèi)的形容詞和修飾短語(yǔ)的特征評(píng)價(jià)組，并對(duì)其進(jìn)行分析獲取其傾向性。而Faye Baron和 Graeme Hirst將抽取與傾向性比較強(qiáng)的詞匯的搭配作為傾向性分析的特征，以提高文本情感分類(lèi)的效率。

此外，文獻(xiàn)[7]采用“情感傾向定義”權(quán)重優(yōu)先的計(jì)算方法獲得短語(yǔ)中各詞的語(yǔ)義傾向度，然后分析短語(yǔ)中各詞組合方式的特點(diǎn)，提出中心詞概念對(duì)各詞的傾向性進(jìn)行計(jì)算并識(shí)別短語(yǔ)的傾向性，這種方法對(duì)短語(yǔ)的情感傾向識(shí)別效果較好。

2.3 句子情感傾向性分析

句子情感傾向性分析的對(duì)象是上下文中的語(yǔ)句，主要任務(wù)就是對(duì)語(yǔ)句中的主觀信息進(jìn)行分析和提取,得到與情感傾向性相關(guān)的要素，并利用這些要素進(jìn)行傾向性分析，本文第二部分已經(jīng)介紹過(guò)主客觀句分類(lèi)的相關(guān)方法。

基于無(wú)監(jiān)督的句子級(jí)情感分析，主要通過(guò)詞匯之間的極性確定句子情感極性，其基本思想：利用同義詞-反義詞關(guān)系，得到情感詞匯及其情感傾向，然后由句子中占優(yōu)勢(shì)的情感詞匯的情感傾向決定該句子的極性。在該思想基礎(chǔ)上，文獻(xiàn)[8]提出了一種基于漢語(yǔ)情感詞詞表的加權(quán)線(xiàn)性組合的句子情感分類(lèi)方法。該方法通過(guò)已有的五種資源構(gòu)建了中文情感詞詞表，并采用加權(quán)線(xiàn)性組合的句子情感分類(lèi)方法對(duì)句子進(jìn)行情感類(lèi)別判斷。同樣，文獻(xiàn)[9]提出了一種基于情感詞語(yǔ)義加權(quán)的句子情感傾向性分析方法，該方法采用遺傳學(xué)基因的思想。首先確定情感詞的靜態(tài)顯性，界定情感詞的轄域，然后構(gòu)建情感詞分析器，在情感詞轄域內(nèi)針對(duì)可以影響情感詞情感傾向性的各種類(lèi)型的因素進(jìn)行分析，得出最終的情感詞情感傾向，進(jìn)而采用相應(yīng)句式的分析方法得出整個(gè)句子的情感傾向性。

基于有監(jiān)督的句子級(jí)情感分析，首先提取候選句子的情感特征，其包括情感詞、詞序列和句型等，然后訓(xùn)練情感句分類(lèi)模型，最后預(yù)測(cè)候選句的極性。Wang等選取形容詞和副詞作為特征，提出了基于啟發(fā)式規(guī)則與貝葉斯分類(lèi)技術(shù)相融合的分析句子情感傾向性方法，大大提高了分類(lèi)效果。Kim在n-grams模型的基礎(chǔ)上引入位置和評(píng)價(jià)詞兩個(gè)重要特征進(jìn)行句子級(jí)別的情感傾向性分析。D. Davidov等以詞、語(yǔ)言模型、標(biāo)點(diǎn)符號(hào)和固定搭配為情感特征，采用K最鄰近法分析句子的情感極性，但這也造成了句子情感特征稀疏嚴(yán)重的問(wèn)題。學(xué)者們通過(guò)對(duì)有監(jiān)督學(xué)習(xí)方法的研究發(fā)現(xiàn)：關(guān)鍵特征、特征選取、特征融合選擇的好壞，是決定其分類(lèi)效果的關(guān)鍵因素。

對(duì)于分類(lèi)方法選擇上，文獻(xiàn)[10]將基于規(guī)則的情感分類(lèi)方法、有監(jiān)督的分類(lèi)方法和機(jī)器學(xué)習(xí)的分類(lèi)方法結(jié)合起來(lái)，產(chǎn)生一種新的混合型分類(lèi)方法，實(shí)驗(yàn)結(jié)果顯示，該方法比單一分類(lèi)方法能夠提高分類(lèi)效率。D. J Rodríguez提出了一種新的半監(jiān)督多維情感分類(lèi)器，這種方法與原先NB和SVM方法不J同之處在于能將不同的目標(biāo)變量聯(lián)接到相同的分類(lèi)工作中，以便利用它們之間的潛在的統(tǒng)計(jì)關(guān)系，而NB和SVM僅是一維分類(lèi)器只能預(yù)測(cè)單目標(biāo)變量。此外，為了能在上下文中利用大量無(wú)標(biāo)記的信息，他們將多維分類(lèi)框架模型應(yīng)用到半監(jiān)督領(lǐng)域，實(shí)驗(yàn)結(jié)果表明半監(jiān)督多維分類(lèi)方法勝過(guò)一般的分類(lèi)方法，并且還能提高識(shí)別率。

2.4 篇章情感傾向性分析

篇章情感傾向性分析是對(duì)文檔中關(guān)于某一主題的觀點(diǎn)、看法進(jìn)行情感傾向性判斷。目前，基于傳統(tǒng)機(jī)器學(xué)習(xí)算法的篇章情感傾向性分析研究是當(dāng)前文本挖掘領(lǐng)域中的一個(gè)研究熱點(diǎn)。

基于無(wú)監(jiān)督的篇章級(jí)情感分析與句子級(jí)情感分析相似，都是根據(jù)詞匯之間的極性確定情感極性。例如M. Taboada等提出基于詞典的篇章情感分析模型，即情感極性計(jì)算器。該模型使用標(biāo)注了情感極性的詞典，并且結(jié)合副詞和否定詞分析詞匯的情感極性。A. L Maas等提出將詞匯之間語(yǔ)義相似信息同詞匯情感信息相結(jié)合的方法，利用連續(xù)的和多維的情感信息分析篇章情感。

基于有監(jiān)督的篇章級(jí)情感分析模型，在特征選擇和提取方面，A. Abbasi等首先利用信息增益抽取部分特征組成特征集合，然后利用遺傳算法從該特征集合中選取最有用的特征，最后訓(xùn)練SVM模型并預(yù)測(cè)篇章情感傾向。同時(shí)，A. Abbasi等還針對(duì)整合n元特征時(shí)噪聲、不相關(guān)和冗余屬性的問(wèn)題，提出基于規(guī)則的多變量特征選擇模型，即特征關(guān)系網(wǎng)絡(luò)。該模型考慮了語(yǔ)義信息并且利用了n元特征之間的語(yǔ)法關(guān)系，可以整合異構(gòu)的n元特征來(lái)提高情感分類(lèi)精度。

C. Lin主要專(zhuān)注于一般領(lǐng)域的文檔級(jí)的情感分類(lèi)，利用基于弱監(jiān)督的JST模型將主題詞檢測(cè)和情感主題詞分析方法聯(lián)系在一起。該模型是對(duì)狄利克雷模型（LDA）的一種擴(kuò)展，原先的LDA框架是三層結(jié)構(gòu)，文檔與主題相關(guān)，主題與詞相關(guān)；而在JST中其在文檔和主題之間構(gòu)建一個(gè)額外的情緒層，就是將情感標(biāo)注與文檔相結(jié)合，主題與情感標(biāo)注相結(jié)合，詞與情感標(biāo)注和主題同時(shí)相結(jié)合。針對(duì)領(lǐng)域適應(yīng)問(wèn)題上，吳瓊等提出一個(gè)算法,其將文本的情感傾向性與圖排序算法結(jié)合起來(lái)進(jìn)行跨領(lǐng)域傾向性分析,該算法在圖排序算法基礎(chǔ)上,利用訓(xùn)練域文本的準(zhǔn)確標(biāo)簽與測(cè)試域文本的偽標(biāo)簽來(lái)迭代進(jìn)行傾向性分析。S. M Usha 認(rèn)為情感分析的目標(biāo)就是要確定文本具有的情感，大部分情況下，分類(lèi)器能對(duì)單一領(lǐng)域進(jìn)行訓(xùn)練而對(duì)多領(lǐng)域的訓(xùn)練性能卻不好，對(duì)情感和主題檢測(cè)的現(xiàn)有方法也存在這樣的問(wèn)題，情感是隨著主題而變化的。他們提出一種CST模型來(lái)同時(shí)檢測(cè)文本的情感和主題，這種模型是基于Gibbs樣本采樣算法，不像有監(jiān)督的情感分類(lèi)模型，在某一領(lǐng)域的情感分類(lèi)效果好而轉(zhuǎn)換到其他領(lǐng)域進(jìn)行分類(lèi)時(shí)，分類(lèi)效果并不理想。CST模型具有很好移植性，CST模型與半監(jiān)督分類(lèi)器相比具有更好的分類(lèi)性能。

3 總結(jié)

本文從詞語(yǔ)級(jí)別的特征，到短語(yǔ)級(jí)特征，到句子級(jí)的特征，再到文本篇章級(jí)別的特征，介紹了近年來(lái)在文本情感傾向分析中人們提出了不同的方法，這些方法思想上有些是彼此相聯(lián)的。但在這些方法中，還沒(méi)有哪一種能夠完美地解決文本情感傾向識(shí)別這一問(wèn)題。所以今后還應(yīng)進(jìn)一步深入研究具體問(wèn)題，將問(wèn)題細(xì)化、具體化，繼續(xù)尋找更有針對(duì)性、更簡(jiǎn)捷方便的識(shí)別方法。我認(rèn)為在如下幾個(gè)方面值得考慮：

上下文對(duì)文本情感傾向性分析的影響。相同的詞語(yǔ)、句子處于不同的語(yǔ)境下會(huì)有不同的傾向性極性，針對(duì)此要深入分析上下文，研究語(yǔ)法、句法等相關(guān)作用。

語(yǔ)義理解。文本情感傾向性分析本質(zhì)上也屬于自然語(yǔ)言處理的范疇，需要對(duì)文本內(nèi)容進(jìn)行深入理解，如何引入更多的語(yǔ)言知識(shí)和認(rèn)知知識(shí)也是值得考慮的方向。

多領(lǐng)域文本情感傾向性分析。在特征分析及分類(lèi)器的使用上，如何使單一領(lǐng)域的分類(lèi)方法能在其它領(lǐng)域使用上有相同的效果，這也是值得研究的。

關(guān)鍵字：論文篇計(jì)算機(jī)論文論文代發(fā)

上一篇：音樂(lè)欣賞在音樂(lè)教學(xué)中的重要性
下一篇：大學(xué)生職業(yè)生涯規(guī)劃教育與就業(yè)的關(guān)系研究

WEB文本情感傾向性分析研究綜述

欄目分類(lèi)