本文是一篇電子商務(wù)論文,本研究以新浪微博平臺為代表進(jìn)行研究,暫未嘗試對其他社交網(wǎng)絡(luò)平臺輿情進(jìn)行情感分析模型的實驗及應(yīng)用,現(xiàn)如今如貼吧、微信公眾號等平臺同樣具有言論自由、傳播廣泛等特點,若嚴(yán)重公共安全事件發(fā)生或不法分子惡意煽動,這些平臺的的輿情泛濫問題同樣嚴(yán)峻。
1 緒論
1.1 研究背景
隨著互聯(lián)網(wǎng)的飛速發(fā)展與web2.0技術(shù)的普及,社交網(wǎng)絡(luò)應(yīng)用平臺以驚人的速度席卷全球,并憑借其開放性、交互性與社會參與性滲透到大眾生活的方方面面。新浪微博作為國內(nèi)社交網(wǎng)絡(luò)應(yīng)用平臺的佼佼者,基于公共平臺架構(gòu),提供便捷且具有創(chuàng)新性的方式使得用戶可以實時公開的發(fā)布信息,并通過裂變傳播方式讓用戶與世界緊密相連[1]。
新浪微博是基于用戶關(guān)系的社交媒體應(yīng)用,用戶可以通過電腦PC端、手機(jī)客戶端等多種終端接入,以文本、圖片等多種表達(dá)形式實現(xiàn)信息的即時分享、互動與傳播。新浪微博作為繼門戶、搜索之后的互聯(lián)網(wǎng)新入口,改變了信息的傳播方式并實現(xiàn)了信息的即時分享。自2009年8月上線以來,新浪微博就以其低門檻、便捷性獲取了大批用戶并保持持續(xù)增長態(tài)勢?!兜?5次中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計報告》[2]的數(shù)據(jù)顯示,截止2020年4月,微博月活躍用戶達(dá)5.16億,日活躍用戶達(dá)到2.22億。作為國內(nèi)目前最大的中文社區(qū)平臺,微博已成為公眾即時獲取信息、自由發(fā)布情感觀點與訴求以及便捷傳遞信息的主要途徑,然而這樣便捷的言論環(huán)境也為輿情的迅速爆發(fā)和不良泛濫埋下隱患,同時微博龐大的用戶群體和海量的言論信息為平臺管理提出了更大的挑戰(zhàn)。
輿情泛濫現(xiàn)象古已有之,其中不乏某些組織刻意通過極端情緒性言論帶動輿論節(jié)奏以達(dá)成某種私有目的或利益,由于信息的不對稱性和相關(guān)言論的情緒煽動性,往往會在群眾中產(chǎn)生極大的影響力。同樣的,微博用戶類型形形色色,公眾發(fā)布的言論情緒極端化、碎片化程度高且信息量龐大,輿情態(tài)勢會乘著平臺發(fā)布言論的相對匿名性和裂變式傳播的便捷乘風(fēng)破浪,普通民眾常常會盲目加入這股輿論風(fēng)暴從而使得局面更加難以控制,其產(chǎn)生的負(fù)面影響力也會進(jìn)一步擴(kuò)大。特別是事關(guān)公眾人身安全的破壞性突發(fā)事件,如洪水、干旱、瘟疫、地震等,往往在發(fā)布伊始就能觸發(fā)爆發(fā)點,并迅速聚焦公眾視野和輿論熱點,如2018年紅黃藍(lán)幼兒園虐童事件衍生出諸多子事件,從開始矛頭指向幼兒園,到攝像證據(jù)被刪,到最后幕后操手做空紅黃藍(lán)股票。
1.2 研究意義
輿情自古以來均是政府進(jìn)行決策的重要依據(jù),特別是危害性極強的公共安全事件相關(guān)輿情。微博作為民意發(fā)布的集中地,具有較好的研究代表性,文本面向公共安全突發(fā)事件的微博評論情感傾向性分析,目前在公共安全事件發(fā)生時,微博輿情爆發(fā)并在演化中陷入負(fù)反饋惡性循環(huán)的問題仍然嚴(yán)峻。因此,從公共安全事件微博中獲取每類事件以及子事件屬性的評價情感傾向,根據(jù)輿情情況針對性的處理等工作,可進(jìn)一步保證微博輿情環(huán)境的穩(wěn)定,維護(hù)民眾和諧生活與國家的安定,具有重要的學(xué)術(shù)理論意義與社會實踐意義。
在學(xué)術(shù)理論層面上,諸多學(xué)者已經(jīng)在微博情感分析研究中取得了豐碩的成果,他們對與微博情感相關(guān)的內(nèi)容特點進(jìn)行了全面的闡釋,但對與之相關(guān)的領(lǐng)域輿情特點、用戶畫像特點的研究十分有限。本文認(rèn)為這兩類特點對于更具針對性、準(zhǔn)確性的識別情感較為重要,因此系統(tǒng)了梳理和分析了影響模型情感判斷的三大特征,首先結(jié)合公共安全領(lǐng)域輿情特征,構(gòu)建了微博評論情感分析模型,彌補了領(lǐng)域研究空白,其次對發(fā)表評論用戶的畫像特征對情感分析的影響度進(jìn)行了初步的研究探索,并獲取了對情感判別重要度排序,豐富了評論用戶畫像特征的選擇使用研究,最后從領(lǐng)域特征、微博評論內(nèi)容特征和評論用戶畫像特征三方面、深層和淺層兩個層次構(gòu)建了公共安全微博情感特征體系,為后續(xù)研究提供特征構(gòu)建與微博情感分析的方法思路。
2 相關(guān)理論及技術(shù)
2.1 公共安全領(lǐng)域界定
公共安全,是指社會和公民個人從事和進(jìn)行正常的生活、工作、學(xué)習(xí)、娛樂和交往所需要的穩(wěn)定的外部環(huán)境和秩序。所謂公共安全管理,則是指國家行政機(jī)關(guān)為了維護(hù)社會的公共安全各秩序,保障公民的合法權(quán)益,以及社會各項活動的正常進(jìn)行而做出的各種行政活動的總和。公共安全事件包括:自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件、社會安全事件等。[31]本研究以影響力重大的新冠肺炎公共衛(wèi)生事件為例進(jìn)行實驗,其結(jié)果具有重要的代表性以及可遷移性,在公共安全領(lǐng)域情感分析理論研究與實際應(yīng)用中具有方法及思路借鑒意義。
2.2 情感分析內(nèi)涵
情感分析,又稱為情感分類、意見挖掘或者傾向性分析。簡單而言,是對帶有情感傾向的主觀性文本進(jìn)行分析、挖掘、歸納和推理。在本文中是指通過對微博文本的分析處理獲得發(fā)布者對某個對象的情感傾向、觀點及意見,這個對象可以是產(chǎn)品、事件或者概念等[32]。
情感分析的研究歷史不是太長,該研究領(lǐng)域的發(fā)展和快速起步得益于網(wǎng)絡(luò)社交媒體應(yīng)用的風(fēng)靡,例如線上商品評論、電影服務(wù)評論,貼吧論壇討論,微博微信的快速發(fā)展,因為這是人類歷史上首次通過該方式記錄存儲如此海量信息,對各行各業(yè)的發(fā)展具有重大價值。自二十世紀(jì)初以來,情感分析逐漸成長為自然語言處理(Nature Language Process,簡稱NLP)中最活躍的研究領(lǐng)域之一,也是在數(shù)據(jù)挖掘、文本處理和信息檢索方面有廣泛的研究。
3 公共安全微博評論情感分析模型 ..................................... 20
3.1 公共安全微博評論情感分析模型架構(gòu) ............................ 20
3.2 數(shù)據(jù)采集與預(yù)處理 ................................... 21
4 實驗評估及結(jié)果分析 ............................................ 30
4.1 實驗數(shù)據(jù)集說明 ..................................... 30
4.1.1 微博評論及特征數(shù)據(jù)集獲取 ..................................... 30
4.1.2 數(shù)據(jù)特征預(yù)處理 ......................................... 31
5 總結(jié)與展望 ........................................ 44
5.1 本文研究總結(jié) ................................. 44
5.2 研究不足及展望 .......................... 45
4 實驗評估及結(jié)果分析
4.1 實驗數(shù)據(jù)集說明
4.1.1 微博評論及特征數(shù)據(jù)集獲取
實驗數(shù)據(jù)集的獲取主要包括三個步驟: 步驟一:關(guān)鍵詞獲取熱門微博。本文以“新冠肺炎”、“新型冠狀病毒”、“武漢不明肺炎”等為關(guān)鍵詞爬取2019年12月8日至2020年3月1日的熱門微博共計9359條,去重處理后剩余8453條。
統(tǒng)計8453條微博博主認(rèn)證類型占比如表4-1所示,微博博主為企業(yè)、政府等官方認(rèn)證藍(lán)V用戶占比72.2%,微博博主為各領(lǐng)域知名人士的黃V用戶占比23.83%,無認(rèn)證用戶僅占3.99%,而微博評論博主中89.51%的用戶均為無認(rèn)證?;谒{(lán)V用戶在微博社區(qū)中更多的是作為官方媒體號發(fā)布傳播客觀信息,無認(rèn)證用戶則更多的表達(dá)自身對事件的觀點及傾向,為了更廣泛的挖掘廣大民眾的想法與情感傾向,本文僅將熱門微博作為事件主題特征提取語料,為后續(xù)分析評論的情感傾向服務(wù)。
5 總結(jié)與展望
5.1 本文研究總結(jié)
本文通過微博內(nèi)容特點、輿情領(lǐng)域特點、發(fā)布用戶畫像特點等來進(jìn)行微博評論情感分析。首先本文通過爬蟲軟件爬取公共安全事件熱門微博、微博評論以及發(fā)布用戶信息,然后結(jié)合前人的研究成果以及對公共安全領(lǐng)域輿情特點的統(tǒng)計分析提取了20個特征,用于對非負(fù)面微博評論與負(fù)面微博評論的分類,最后本文選擇XGBoost機(jī)器學(xué)習(xí)算法構(gòu)建面向公共安全突發(fā)事件的情感分析模型,以隨機(jī)森林、支持向量機(jī)算法為対照組,實驗結(jié)果表明通過本文選擇的特征組合和以XGBoost構(gòu)建的分類模型在公共安全微博評論情感分析的準(zhǔn)確度和運行速度上具有更佳的表現(xiàn)。
(1)公共安全微博輿情領(lǐng)域化特征的有效性
基于公共安全領(lǐng)域中推進(jìn)微博輿情智能管控的迫切需求與微博評論情感分析學(xué)術(shù)研究存在缺口的矛盾背景,本文針對領(lǐng)域特點進(jìn)行情感分析模型構(gòu)建,并發(fā)現(xiàn)相比于娛樂事件、時事新聞等領(lǐng)域,公共安全領(lǐng)域突發(fā)事件不僅具有影響更深遠(yuǎn)、延續(xù)性更強的特點,還會在爆發(fā)、反復(fù)、緩和到消失的演變過程中衍生各類子事件,子事件之間情感類別占比差別懸殊,同時子事件中各個屬性維度的評論情感也具有顯著差異。本文通過LDA抽取各子事件主題,并針對每個主題下進(jìn)行屬性維度聚類,并以天和小時為單位抽取周期特征和時段特征構(gòu)建公共安全領(lǐng)域特征,最后實驗證明公共安全突發(fā)事件微博評論的情感與其所屬微博主題、主題屬性、周期以及時段都存在顯著關(guān)聯(lián)關(guān)系,在進(jìn)一步研究中可作為領(lǐng)域優(yōu)選特征考慮。相比于使用通用特征的情感分析方法,即僅使用微博內(nèi)容特征的方法,文本提出的特征體系在公共安全領(lǐng)域情感分析中具有優(yōu)勢。
參考文獻(xiàn)(略)
相關(guān)文章
UKthesis provides an online writing service for all types of academic writing. Check out some of them and don't hesitate to place your order.