本文是一篇电子商务论文,本研究以新浪微博平台为代表进行研究,暂未尝试对其他社交网络平台舆情进行情感分析模型的实验及应用,现如今如贴吧、微信公众号等平台同样具有言论自由、传播广泛等特点,若严重公共安全事件发生或不法分子恶意煽动,这些平台的的舆情泛滥问题同样严峻。
1 绪论
1.1 研究背景
随着互联网的飞速发展与web2.0技术的普及,社交网络应用平台以惊人的速度席卷全球,并凭借其开放性、交互性与社会参与性渗透到大众生活的方方面面。新浪微博作为国内社交网络应用平台的佼佼者,基于公共平台架构,提供便捷且具有创新性的方式使得用户可以实时公开的发布信息,并通过裂变传播方式让用户与世界紧密相连[1]。
新浪微博是基于用户关系的社交媒体应用,用户可以通过电脑PC端、手机客户端等多种终端接入,以文本、图片等多种表达形式实现信息的即时分享、互动与传播。新浪微博作为继门户、搜索之后的互联网新入口,改变了信息的传播方式并实现了信息的即时分享。自2009年8月上线以来,新浪微博就以其低门槛、便捷性获取了大批用户并保持持续增长态势。《第45次中国互联网发展状况统计报告》[2]的数据显示,截止2020年4月,微博月活跃用户达5.16亿,日活跃用户达到2.22亿。作为国内目前最大的中文社区平台,微博已成为公众即时获取信息、自由发布情感观点与诉求以及便捷传递信息的主要途径,然而这样便捷的言论环境也为舆情的迅速爆发和不良泛滥埋下隐患,同时微博庞大的用户群体和海量的言论信息为平台管理提出了更大的挑战。
舆情泛滥现象古已有之,其中不乏某些组织刻意通过极端情绪性言论带动舆论节奏以达成某种私有目的或利益,由于信息的不对称性和相关言论的情绪煽动性,往往会在群众中产生极大的影响力。同样的,微博用户类型形形色色,公众发布的言论情绪极端化、碎片化程度高且信息量庞大,舆情态势会乘着平台发布言论的相对匿名性和裂变式传播的便捷乘风破浪,普通民众常常会盲目加入这股舆论风暴从而使得局面更加难以控制,其产生的负面影响力也会进一步扩大。特别是事关公众人身安全的破坏性突发事件,如洪水、干旱、瘟疫、地震等,往往在发布伊始就能触发爆发点,并迅速聚焦公众视野和舆论热点,如2018年红黄蓝幼儿园虐童事件衍生出诸多子事件,从开始矛头指向幼儿园,到摄像证据被删,到最后幕后操手做空红黄蓝股票。
1.2 研究意义
舆情自古以来均是政府进行决策的重要依据,特别是危害性极强的公共安全事件相关舆情。微博作为民意发布的集中地,具有较好的研究代表性,文本面向公共安全突发事件的微博评论情感倾向性分析,目前在公共安全事件发生时,微博舆情爆发并在演化中陷入负反馈恶性循环的问题仍然严峻。因此,从公共安全事件微博中获取每类事件以及子事件属性的评价情感倾向,根据舆情情况针对性的处理等工作,可进一步保证微博舆情环境的稳定,维护民众和谐生活与国家的安定,具有重要的学术理论意义与社会实践意义。
在学术理论层面上,诸多学者已经在微博情感分析研究中取得了丰硕的成果,他们对与微博情感相关的内容特点进行了全面的阐释,但对与之相关的领域舆情特点、用户画像特点的研究十分有限。本文认为这两类特点对于更具针对性、准确性的识别情感较为重要,因此系统了梳理和分析了影响模型情感判断的三大特征,首先结合公共安全领域舆情特征,构建了微博评论情感分析模型,弥补了领域研究空白,其次对发表评论用户的画像特征对情感分析的影响度进行了初步的研究探索,并获取了对情感判别重要度排序,丰富了评论用户画像特征的选择使用研究,最后从领域特征、微博评论内容特征和评论用户画像特征三方面、深层和浅层两个层次构建了公共安全微博情感特征体系,为后续研究提供特征构建与微博情感分析的方法思路。
2 相关理论及技术
2.1 公共安全领域界定
公共安全,是指社会和公民个人从事和进行正常的生活、工作、学习、娱乐和交往所需要的稳定的外部环境和秩序。所谓公共安全管理,则是指国家行政机关为了维护社会的公共安全各秩序,保障公民的合法权益,以及社会各项活动的正常进行而做出的各种行政活动的总和。公共安全事件包括:自然灾害、事故灾难、公共卫生事件、社会安全事件等。[31]本研究以影响力重大的新冠肺炎公共卫生事件为例进行实验,其结果具有重要的代表性以及可迁移性,在公共安全领域情感分析理论研究与实际应用中具有方法及思路借鉴意义。
2.2 情感分析内涵
情感分析,又称为情感分类、意见挖掘或者倾向性分析。简单而言,是对带有情感倾向的主观性文本进行分析、挖掘、归纳和推理。在本文中是指通过对微博文本的分析处理获得发布者对某个对象的情感倾向、观点及意见,这个对象可以是产品、事件或者概念等[32]。
情感分析的研究历史不是太长,该研究领域的发展和快速起步得益于网络社交媒体应用的风靡,例如线上商品评论、电影服务评论,贴吧论坛讨论,微博微信的快速发展,因为这是人类历史上首次通过该方式记录存储如此海量信息,对各行各业的发展具有重大价值。自二十世纪初以来,情感分析逐渐成长为自然语言处理(Nature Language Process,简称NLP)中最活跃的研究领域之一,也是在数据挖掘、文本处理和信息检索方面有广泛的研究。
3 公共安全微博评论情感分析模型 ..................................... 20
3.1 公共安全微博评论情感分析模型架构 ............................ 20
3.2 数据采集与预处理 ................................... 21
4 实验评估及结果分析 ............................................ 30
4.1 实验数据集说明 ..................................... 30
4.1.1 微博评论及特征数据集获取 ..................................... 30
4.1.2 数据特征预处理 ......................................... 31
5 总结与展望 ........................................ 44
5.1 本文研究总结 ................................. 44
5.2 研究不足及展望 .......................... 45
4 实验评估及结果分析
4.1 实验数据集说明
4.1.1 微博评论及特征数据集获取
实验数据集的获取主要包括三个步骤: 步骤一:关键词获取热门微博。本文以“新冠肺炎”、“新型冠状病毒”、“武汉不明肺炎”等为关键词爬取2019年12月8日至2020年3月1日的热门微博共计9359条,去重处理后剩余8453条。
统计8453条微博博主认证类型占比如表4-1所示,微博博主为企业、政府等官方认证蓝V用户占比72.2%,微博博主为各领域知名人士的黄V用户占比23.83%,无认证用户仅占3.99%,而微博评论博主中89.51%的用户均为无认证。基于蓝V用户在微博社区中更多的是作为官方媒体号发布传播客观信息,无认证用户则更多的表达自身对事件的观点及倾向,为了更广泛的挖掘广大民众的想法与情感倾向,本文仅将热门微博作为事件主题特征提取语料,为后续分析评论的情感倾向服务。
5 总结与展望
5.1 本文研究总结
本文通过微博内容特点、舆情领域特点、发布用户画像特点等来进行微博评论情感分析。首先本文通过爬虫软件爬取公共安全事件热门微博、微博评论以及发布用户信息,然后结合前人的研究成果以及对公共安全领域舆情特点的统计分析提取了20个特征,用于对非负面微博评论与负面微博评论的分类,最后本文选择XGBoost机器学习算法构建面向公共安全突发事件的情感分析模型,以随机森林、支持向量机算法为対照组,实验结果表明通过本文选择的特征组合和以XGBoost构建的分类模型在公共安全微博评论情感分析的准确度和运行速度上具有更佳的表现。
(1)公共安全微博舆情领域化特征的有效性
基于公共安全领域中推进微博舆情智能管控的迫切需求与微博评论情感分析学术研究存在缺口的矛盾背景,本文针对领域特点进行情感分析模型构建,并发现相比于娱乐事件、时事新闻等领域,公共安全领域突发事件不仅具有影响更深远、延续性更强的特点,还会在爆发、反复、缓和到消失的演变过程中衍生各类子事件,子事件之间情感类别占比差别悬殊,同时子事件中各个属性维度的评论情感也具有显著差异。本文通过LDA抽取各子事件主题,并针对每个主题下进行属性维度聚类,并以天和小时为单位抽取周期特征和时段特征构建公共安全领域特征,最后实验证明公共安全突发事件微博评论的情感与其所属微博主题、主题属性、周期以及时段都存在显著关联关系,在进一步研究中可作为领域优选特征考虑。相比于使用通用特征的情感分析方法,即仅使用微博内容特征的方法,文本提出的特征体系在公共安全领域情感分析中具有优势。
参考文献(略)
相关文章
UKthesis provides an online writing service for all types of academic writing. Check out some of them and don't hesitate to place your order.