一种融合性格线索的微博情感分类

贾莉 江涛 马宁 孟家豪

引用本文:
Citation:

一种融合性格线索的微博情感分类

    作者简介: 贾莉(1994−),女,硕士研究生. 研究方向:自然语言处理. E-mail:743507179@qq.com;
    通讯作者: 江涛, xinxiyuanjt@126.com
  • 中图分类号: TP391

Fused personality cues Microblog sentiment classification

    Corresponding author: JIANG Tao, xinxiyuanjt@126.com ;
  • CLC number: TP391

  • 摘要: 现有的文本情感分析模型很少融入性格线索,但不同性格的用户却具有不尽相同的情感表达方式. 本文结合心理学中Big-Five性格模型,提出了一种融合性格线索的微博情感分类模型PBiLSTM. 该模型将微博句子文本的情感特征与用户性格线索进行融合,增加新的情感判别维度,并利用BiLSTM能够提取文本的全局特征的优势,有效提升了模型情感分类的能力. 实验结果显示融合性格线索的微博情感分析模型PBiLSTM的准确率可以达到93.68%,并在多项性能指标上都取得了很好的结果.
  • 图 1  PBiLSTM模型框架

    Figure 1.  The framework of PBiLSTM model

    图 2  用户性格评价指标

    Figure 2.  User personality evaluation index

    图 3  用户交互主动性与微博情感极性的关系

    Figure 3.  Relationship between the interaction of Users and the emotional polarity of Weibo

    图 4  用户微博影响力与情感极性的关系

    Figure 4.  Relationship between user influence and emotional polarity

    表 1  PBiLSTM模型实验参数

    Table 1.  Experimental parameters of PBiLSTM

    参数参数
    词向量维度200损失函数二元交叉熵
    层数2优化函数Adam
    隐藏层大小128Epoch60
    Drop out rate0.5
    下载: 导出CSV

    表 2  5种模型对比实验结果

    Table 2.  Comparative experimental results of 5 models

    模型准确率召回率F值
    LSTM0.90910.90970.9088
    BiLSTM0.91350.91370.9132
    SVM0.87530.87340.8750
    PLSTM0.92020.91960.9207
    PBiLSTM0.93680.93180.9324
    下载: 导出CSV

    表 3  BiLSTM模型和PBiLSTM模型实验结果实例

    Table 3.  Examples of experimental results for BiLSTM and PBiLSTM models

    用户性格微博文本BiLSTMPBiLSTM
    1HA、HE、HC我是小妖怪,逍遥游自在,杀人不眨眼,吃人不放盐. 消极积极
    2LA、LE、HC人的成见是一座大山. 积极消极
    3HA、HE相比原作软科幻的末日背景,在设定方面电影版还是强化很多科幻元素. 积极积极
    4HA、HE上海,人类最后的堡垒. 消极积极
    下载: 导出CSV
  • [1] 韩萍, 孙佳慧, 方澄, 等. 基于情感融合和多维自注意力机制的微博文本情感分析[J]. 计算机应用, 2019, 39(S1): 75-78. Han P.Sun J H.Fang C., et al. F.Micro-blog sentiment analysis based on emotional fusion and multi-dimensional self-attention mechanism[J]. Journal of Computer Applications, 2019, 39(S1): 75-78.
    [2] 来纯晓, 李艳翠, 金松林. 基于贴吧的高校网络舆情预警和引导系统研究[J]. 智能计算机与应用, 2019, 9(04): 16-20. DOI:  10.3969/j.issn.2095-2163.2019.04.005. Lai C X.Li Y C.Jin S L. Research on college net-work public opinion early warning and guidance system based on post bar[J]. Intelligent Computer and Applications, 2019, 9(04): 16-20.
    [3] 缪裕青, 汪俊宏, 刘同来, 等. 图文融合的微博情感分析方法[J]. 计算机工程与设计, 2019, 40(04): 1 099-1 105. Miao Y Q.Wang J H.Liu T L., et al. Joint visual-textual approach for microblog sentimentanalysis[J]. Computer Engineering and Design, 2019, 40(04): 1 099-1 105.
    [4] 刘平, 崔宗艺, 周炜翔, 等. 基于行为信息的微博用户性格预测研究[J]. 北京信息科技大学学报:自然科学版, 2019, 34(3): 32-38. Liu P, Cui Z Y, Zhou W X, et al. Personality prediction of Microblog user based on behavior information[J]. Journal of Beijing Information Science& Technology University :Natural Science Edition, 2019, 34(3): 32-38.
    [5] 聂颖杰. 基于情感认知和个性化特征的用户兴趣分析方法研究与实现[D].河北科技大学, 2019.

    Nie Y J.Research and implementation of user interest analysis method based on emotional cognition and personalized features[D].Hebei University of Science and Technology, 2019.
    [6] 袁婷婷. 微博文本情感分析研究[D].新疆大学, 2019.

    Yuan T T. Micoblog text sentiment analysis research[D]. Xinjiang University, 2019.
    [7] 毛焱颖. 基于注意力双层LSTM的长文本情感分类方法[J]. 重庆电子工程职业学院学报, 2019, 28(2): 118-125. Mao Y Y. Long text emotion classification method based on the attention double-layer LSTM[J]. Jo-urnal of Chongqing Vocational College of Electronic Engineering, 2019, 28(2): 118-125.
    [8] 孟仕林, 赵蕴龙, 关东海, 等. 融合情感与语义信息的情感分析方法[J]. 计算机应用, 2019, 39(7): 1 931-1 935. DOI:  10.11772/j.issn.1001-9081.2018112375. Meng S L, Zhao Y L, Guan D H, et al. Sentiment analysis method combining sentiment and semantic information[J]. Journal of Computer Applications, 2019, 39(7): 1 931-1 935.
    [9] 邵良杉, 周玉. 基于语义规则与RNN模型的在线评论情感分类研究[J]. 中文信息学报, 2019, 33(6): 124-131. DOI:  10.3969/j.issn.1003-0077.2019.06.018. Shao L S.Zhou Y. Semantic rules and RNN based sentiment classification for online reviews[J]. Journal of Chinese Information Processing, 2019, 33(6): 124-131.
    [10] 凌海彬. 基于多特征融合的微博情感分析研究[D]. 桂林电子科技大学, 2019.

    Ling H S. Microblog sentiment analysis based on multi-features fusion[D].Guilin University of Electronic Science and Technology, 2019.
    [11] 谢丽星, 周明, 孙茂松. 基于层次结构的多策略中文微博情感分析和特征抽取[J]. 中文信息学报, 2012, 26(01): 73-83. DOI:  10.3969/j.issn.1003-0077.2012.01.011. Xie L X.Zhou M.Sun M S. Hierarchical structure based hybrid approach to sentiment analysis of Chinese micro blog and its feature extraction[J]. Journal of Chinese Information Processing, 2012, 26(01): 73-83.
    [12] 余凯, 贾磊, 陈雨强, 等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展, 2013, 50(9): 1 799-1 804. DOI:  10.7544/issn1000-1239.2013.20131180. Yu K.Jia L.Chen Y Q. Deep learning:Yesterday, today, tomorrow[J]. Journal of Computer Research and Development, 2013, 50(9): 1 799-1 804.
    [13] 李洋, 董红斌. 基于CNN和BiLSTM网络特征融合的文本情感分析[J]. 计算机应用, 2018, 38(11): 29-34. Li Y, Dong H B. Text sentiment analysis based on feature fusion of convolution neural network and bidirectional long short-term memory network[J]. Jo-urnal of Computer Applications, 2018, 38(11): 29-34.
    [14] 凌海彬, 缪裕青, 张万桢, 等. 多特征融合的图文微博情感分析[J/OL]. 计算机应用研究, 2020, DOI:  10.19734/j.issn.1001-3695.2018.12.0929

    Ling H S.Miao Y Q.Zhang W Z.et al.Multimedia sentiment analysis on microblog basedon multi-feature Fusion[J/OL].Application Research of Computers, 2020, DOI: 10.19734/j.issn.1001-3695.2018.12.0929.
    [15] Lin J, Mao W, Zeng D D. Personality-based refinement for sentiment classification in microblog[J]. Knowledge-Based Systems, 2017, 132(132): 204-214.
    [16] 黄发良, 冯时, 王大玲, 等. 基于多特征融合的微博主题情感挖掘[J]. 计算机学报, 2017, 40(4): 872-888. Huang F L, Feng S, Wang D L, et al. Mining topic sentiment in microblogging based on multi-feature fusion[J]. Journal of Computer Science, 2017, 40(4): 872-888.
    [17] Golbeck J, Robles C, Edmondson M, et al. Predicting personality from twitter[C].IEEE 3rd International Conference on Privacy, Security, Risk and Trust, 2011: 149-156.
    [18] Bai S, Hao B, Li A, et al. Predicting big five personality traits of microblog users[C].2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT), IEEE, 2013: 501-508.
    [19] Liu F, Perez J, Nowson S. A language-independent and compositional model for personality trait recognition from short texts[J]. Association for Computational Linguistics, 2017: 754-764.
    [20] Majumder N, Poria S, Gelbukh A, et al. Deep learning-based document modeling for personality detection from Text[J]. IEEE Intelligent Systems, 2017, 32(2): 74-79. DOI:  10.1109/MIS.2017.23.
    [21] 王新胜, 马树章. 融合用户自身因素与互动行为的微博用户影响力计算方法[J]. 计算机科学, 2020, 47(1): 96-101. DOI:  10.11896/jsjkx.181202253. Wang X S.Ma S Z. Method of Weibo user influence calculation integrating users' own factors and interaction behavior[J]. Computer Science, 2020, 47(1): 96-101.
    [22] 袁婷婷, 杨文忠, 仲丽君, 等.基于性格的微博情感分析模型PLSTM[J/OL].计算机应用研究, 2020, 37(2): 342-346.

    Yuan T T.Yang W Z.Zhong L J.et al.Personality-based Microblog sentiment analysismodel plstm[J].Application Research Of Computers, 2020, 37(2): 342-346.
  • [1] 张林森包崇明周丽华孔兵 . 基于混合特征和XGBoost算法的微博转发预测. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20190647
    [2] 赵小明张群岳昆 . 基于静电场理论和PageRank算法的微博用户相关性分析. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20140430
    [3] 姬晨郭延哺金宸段云浩李维华 . 一种基于卷积神经网络的跨领域情感分析. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20180050
    [4] 铁勇杨光俊 . 一个五进位制小数下的连续不可微函数及推广. 云南大学学报(自然科学版),
    [5] 张晓珊吕世懂刘伦刘川周降生廉明王晨孟庆雄 . 顶空固相微萃取与气相色谱-质谱法〖KH*2〗分析月光白茶香气成分. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20140059
    [6] 陈智斌 . 网络中信息传播的最短时间算法. 云南大学学报(自然科学版),
    [7] 王东孙彬张绍武 . 微信息进程与流量检测指令分布下的倾向性检测模型*. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20150811
    [8] 石茂林李洪友 . 钛合金微弧氧化工艺参数与陶瓷膜数学模型的建立及实验研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20140298
    [9] 钟爱华黄慧君徐安伦 . 2010.8.27大理州大到暴雨过程分析. 云南大学学报(自然科学版),
    [10] 李华宏王曼闵颖朱莉杨竹云 . 昆明市雨季短时强降水特征分析及预报研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20180367
    [11] 李华宏许彦艳王曼许迎杰 . 低纬高原一次短时强降水过程的综合分析. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20190328
    [12] 巩增泰贾永 . 完备格上基于t算子的直觉模糊粗糙集模型. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20150517
    [13] 王利智吴景芝康志钰何月秋 . 云南省玉米大斑病菌的RAPD分析. 云南大学学报(自然科学版),
    [14] 谢名娥冉志红张力 . 大底盘双塔楼结构塔间距对其隔震效果的影响分析. 云南大学学报(自然科学版),
    [15] 王利智吴景芝康志钰何月秋 . 云南省玉米大斑病菌的RAPD分析. 云南大学学报(自然科学版),
    [16] 王铭石磊 . 协方差分析模型的影响分析. 云南大学学报(自然科学版),
    [17] 周东霞王丽春董承红李卫东戴青李琦涵 . 2个由HSVⅠ诱导的人成纤维细胞EST差异表达基因的SAGE分析. 云南大学学报(自然科学版),
    [18] 胡翠林谢平过龙根周永东王圣瑞 . 洱海微囊藻昼夜垂直迁移研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20170664
    [19] 周庆谷桂初 . 半导体微盘的回音壁模式研究. 云南大学学报(自然科学版),
    [20] 石磊李琰何利平 . 线性模型中基于稳健诊断的局部影响分析. 云南大学学报(自然科学版),
  • 加载中
图(4)表(3)
计量
  • 文章访问数:  247
  • HTML全文浏览量:  196
  • PDF下载量:  7
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-10-29
  • 网络出版日期:  2020-06-03

一种融合性格线索的微博情感分类

    作者简介:贾莉(1994−),女,硕士研究生. 研究方向:自然语言处理. E-mail:743507179@qq.com
    通讯作者: 江涛, xinxiyuanjt@126.com
  • 1. 西北民族大学 中国民族语言文字信息技术教育部重点实验室,甘肃 兰州 730030
  • 2. 丝绸之路信息港-中西亚信息研究院,甘肃 兰州 730030

摘要: 现有的文本情感分析模型很少融入性格线索,但不同性格的用户却具有不尽相同的情感表达方式. 本文结合心理学中Big-Five性格模型,提出了一种融合性格线索的微博情感分类模型PBiLSTM. 该模型将微博句子文本的情感特征与用户性格线索进行融合,增加新的情感判别维度,并利用BiLSTM能够提取文本的全局特征的优势,有效提升了模型情感分类的能力. 实验结果显示融合性格线索的微博情感分析模型PBiLSTM的准确率可以达到93.68%,并在多项性能指标上都取得了很好的结果.

English Abstract

  • 微博已经成为人们分享信息和表达情感最广泛使用的社交媒体平台之一. 人们常常会发表带有个人情感倾向性的微博文本,这些信息中包含着不同的情感倾向,不仅反映了用户所持有的观点和态度,也可能会对社交网络舆情的传播产生巨大的影响. 目前,情感分析在舆情分析、市场营销等领域都有重要的应用价值[1-3].

    微博数据中不仅包含微博原文,而且还包括粉丝数、等级、评论数等用户个人信息和行为信息. 这些信息不仅能够客观的刻画出微博用户行为特征,同时还可以反映出用户的性格特征和当时的心理活动. 性格开放的人富有想象力、创造力和好奇心;性格外向的人倾向于积极主动与他人进行交流互动;性格神经质的人发表的内容较为消极;性格谨慎的人发表的原创微博相对较少,更多的关注其他用户发表的内容[4-5]. 心理学研究表明,人们的表达和说话方式受到性格的影响,情感表达方式相似的人往往拥有相同的性格[6]. 针对微博情感分析中对用户性格关注度不足的问题,本文提出一种融合性格线索的微博情感分类模型PBiLSTM(personality bidirectional long short term memory,融合性格的双向长短时记忆网络),通过用户行为信息构造性格特征,结合文本语义信息实现微博文本情感分类.

    • 情感分类是情感分析的主要任务之一,其目的是根据文本所表达的情感倾向性(积极、消极或中性)将文本分为不同的类别. 目前情感分类的主要方法大致分为两类[7-9]:基于情感词典的方法和基于机器学习的方法. 基于情感词典的方法主要通过现有的情感知识(情感词典、极性词典等)及制定的表达规则来判定文本的情感倾向性[10]. 谢丽星[11]等人根据微博文本的特点,提出了基于层次结构的多策略情感分析框架,将微博特征如表情符号、链接等与微博文本的句子构成特征相结合进行情感分类. 但是该过程中仅考虑了微博文本特征,而没有注意到用户性格属性对情感表达方式的影响,拥有不同性格的用户在表达过程使用的词语或者表情符号会有所不同.

      目前主流的方法是基于机器学习模型来进行情感倾向性的判别. 其主要是通过从语料库中自动挖掘的文本特征来构建情感分类器. 分类器的性能在很大程度上依赖于适当的机器学习算法和有效的文本特征,这些特征可以区别于不同的类别. 深度学习是机器学习的一种范式,近年来引起工业界和学术界的广泛关注[12]. 李洋,董红斌[13]提出一种卷积神经网络(CNN)和双向长短时记忆(BiLSTM)特征融合的模型,该方法充分利用了两种互补模型CNN和BiLSTM的局部特征和全局特征的优势将所提取的特征进行融合,有效提升了文本情感分类的准确率. 但没有考虑到不同性格用户的表达风格也不同.

      凌海彬等[14]首先将内容特征和用户特征与微博句子进行融合,构建微博文本情感分类模型;然后构建基于参数迁移和微调的微博图片情感分类模型;最后应用设计特征层和决策层的方法将文本和图片模型进行融合,该融合方法能够获得更好的分类性能. 该分类过程注意到用户情感表达的差异和除文字外的特征,但是忽略了用户性格属性,没有考虑将用户属性性格也作为特征的一部分,不同性格用户在表达情感方式上有较大的不同.

    • 心理学上提出的性格模型,如Big Five模型和MBTI模型[15],其中Big Five模型是最具有影响力和被普遍接受的人格模型,并在心理学和人工智能中被广泛采用. 它从五个维度来描述人的性格,即愉悦性(Agreeableness)责任性(Conscientious-ness)外向性(Extroversion)、神经质(Neurotic-ism)和开放性(Openness). 从行为的角度看,愉悦性反映了个体的行为特征,如对他人的帮助、合作和同情;责任性包括自律、组织和周密的计划,以及取得成就的需要;外向性与社交技能、健谈能力和个人魅力直接相关;神经质一定程度上反映情绪稳定性,一个人神经质得分越高,就越容易陷入消极情绪;开放性反映了个体丰富的想象力、审美感受、奉献精神和对新事物的好奇心[16].

    • 社交网络用户性格倾向性预测方面,许多心理学和计算机领域的学者关注了大五模型中人们语言使用和人格特征之间关系的研究,并且人们开始使用机器学习技术来预测社交媒体中用户的性格特征[17]. BaiShuotian等[18]通过多任务回归和增量回归算法对微博用户行为信息进行分析,可以很好地预测性格特征. 近年来,深度学习技术也被用于人格预测,Fei Liu等[19]基于双向递归网络训练的层次结构、向量词和句子表示来推断用户的性格特征. Majumder Navonil等[20]训练卷积神经网络,根据预先训练好的词嵌入获取句子和文档向量,并利用它们对用户的五大人格特征进行分类.

    • 本文提出融合性格线索的微博情感分类模型PBiLSTM是一个多层循环神经网络结构,由两部分的BiLSTM模型组成分别对微博句子和性格特征句子(由高愉悦HA、低愉悦型LA、高外向型HE、低外向型LE、高责任型组成HC)进行处理,其中于每一类性格特征句子由一系列的性格关键词组成,模型的输入为向量矩阵,向量矩阵由微博文本词向量矩阵和情感特征特征矩阵组成. 利用word2vec开源工具将微博文本转化为词向量表示的形式,形成微博文本的词向量矩阵W以及和性格特征文本的词向量矩阵 F两部分. 向量矩阵为n$ \times $d,其中:n 为文本中词语的个数;d 为词向量的维度. PBiLSTM模型的框架如图1所示.

      图  1  PBiLSTM模型框架

      Figure 1.  The framework of PBiLSTM model

    • 通过对所获取微博数据进行处统计分析,发现用户在微博中的行为与性格存在一定的联系. 从用户的行为提出能够判断用户性格的3个指标属性,这些指标能够反映微博用户的性格特征,用户性格评价指标如图2所示.

      图  2  用户性格评价指标

      Figure 2.  User personality evaluation index

    • 微博原创比率是指微博用户所有微博中原创微博与非原创微博的比率. 外向型用户反映了个体自信、善于交际、爱说话并且主动寻求积极情绪的特性. 当用户微博原创比率为1,即所有的微博均为原创微博,则该用户性格为外向型. 原创比率计算公式如下:

      $O(u) = \frac{{Y(u)}}{{F(u)}}$

      其中:$O(u)$表示用户原创比率;$F(u)$表示用户u发布的所有微博数;$Y(u)$表示用户u的原创微博数;

    • 交互主动性重要程度由关注数、粉丝数两个部分构成. 粉丝数或关注数多的用户通常具有一定的影响力,这些用户更加注重自己的形象,倾向于发布积极的、具有正能量的微博. 这与愉悦型用户具有慷慨、值得信赖、谦逊、愿意帮助别人的特点相一致,因此可通过粉丝数和关注数等互动性指标来表征愉悦型用户,用户交互主动性计算公式如下:

      $J(u) = \sqrt {S(u)} + \sqrt {G(u)} $

      其中:$J(u)$表示用户u交互主动性;$S(u)$表示用户u微博的粉丝数;$G(u)$表示用户u微博的关注数.

      为了描述计算数据集中用户交互主动性与用户所发布的情感极性的关系,引入累计分布函数CDF(cumulative distribution function,CDF). 累积分布函数定义如下:

      ${F_x} = P(X \leqslant x)$

      其中:$P(X \leqslant x)$ 表示随机变量$X$小于或者等于$x$的概率;${F_x}$表示累计分布函数,即连续函数中所有小于或等于$x$的值,其出现概率的和. 累积分布函数又叫分布函数,是一个概率密度函数的积分,能完整描述一个实随机变量X的概率分布. 通过对数据的统计分析,得到用户交互主动性与微博情感极性之间的联系,如图3所示. 由图示结果可知,发布积极微博的用户交互主动性几乎都是小于40,用户交互主动性可以明显区分消极和非消极微博,本文将用户交互主动性大于等于40标注为高愉悦型,小于40的标注为低愉悦型.

      图  3  用户交互主动性与微博情感极性的关系

      Figure 3.  Relationship between the interaction of Users and the emotional polarity of Weibo

    • 微博影响力主要通过微博被评论数和被点赞数、被转发数来体现,一定程度上代表着自我的赞同度和自我的价值[21]. 责任型性格的用户更倾向于发布有条理的、有责任感的、有成就感的微博文本. 从微博内容中较难界定低责任性格,本文暂不考虑低责任型的性格[22]. 微博影响力计算公式如下:

      $I(u) = C(u) + L(u) + R(u)$

      其中:$I(u)$表示微博影响力;$C(u)$表示微博被评论数;$L(u)$表示微博被点赞数,$R(u)$表示微博被转发数. 根据公式(4)可以得到数据集中微博影响力与情感极性的关系,结果如图4所示. 由图示结果可知百分之九十的消极微博的影响力都小于20,用户微博影响力在一定程度上可以区分出积极和消极微博,因此将数据集中影响力大于等于20的标注为高责任型.

      图  4  用户微博影响力与情感极性的关系

      Figure 4.  Relationship between user influence and emotional polarity

    • 实验所用的数据集为网上爬取的新浪微博数据,主要包括电影《哪吒魔童降世》和《上海堡垒》两大热门微博话题文本及评论. 数据包含其微博内容以及作者基本信息,该数据集包含了11544条文本,并对每条文本都进行了情感极性的标注. 其中积极的有5867条,消极的5677条. 其中80%用作训练集,20%用作测试集. 实验环境为Core i7 3.4 GHz,12G内存,Window10 64位操作系统,深度学习框架为Keras.

    • 实验结果的优劣取决于实验参数的选取,表1列出了本文实验中所使用的模型参数包括词向量维度、层数、迭代次数(epochs)、dropout rate、优化函数、损失函数等. 为了找到最优参数设置,采用固定参数的方法,在其他参数不变的情况下,调节某一个参数进行多次试验,将最优参数作为超参数.

      参数参数
      词向量维度200损失函数二元交叉熵
      层数2优化函数Adam
      隐藏层大小128Epoch60
      Drop out rate0.5

      表 1  PBiLSTM模型实验参数

      Table 1.  Experimental parameters of PBiLSTM

      通过固定参数的方法,分别比较100维和200维的词向量,同时分别对比了128和256层的隐藏层的大小,层数默认取2层. 通过对比发现词向量设定为200维、隐藏层为128层时模型情感分类的性能最优. 选择Adam作为随机优化方法,该方法通过为不同的参数设计独立的自适应性学习率,不断迭代更新网络参数加快模型收敛,使得模型的准确率达到最高.

    • 为了验证融合性格线索模型的分类性能,分别将本文提出的模型PBiLSTM与以下模型进行对比:

      a)LSTM模型. 采用长短时记忆网络LSTM模型对微博原文进行情感分类.

      b)BiLSTM模型. 采用双向长短时记忆网络BiLSTM模型对微博原文进行情感分类.

      c)SVM模型. 采用支持向量机SVM模型对融合性格特征的微博文本进行情感分类.

      d)PLSTM模型. 采用LSTM模型对融合性格的微博文本进行情感分类.

      e)PBiLSTM模型. 采用PBiLSTM模型对融合性格线索的微博文本进行情感分类.

      实验采用准确率、召回率、F值作为评价指标,实验结果如表2所示.

      模型准确率召回率F值
      LSTM0.90910.90970.9088
      BiLSTM0.91350.91370.9132
      SVM0.87530.87340.8750
      PLSTM0.92020.91960.9207
      PBiLSTM0.93680.93180.9324

      表 2  5种模型对比实验结果

      Table 2.  Comparative experimental results of 5 models

      通过对比实验c和实验a、b结果可以看出,深度学习的文本分类性能明显优于传统的机器学习;利用BiLSTM模型进行微博文本情感分析比LSTM模型效果要好,BiLSTM模型解决梯度消失或梯度爆炸问题,同时充分考虑了词在上下文的含义,使得该模型进行情感分类效果更好. 本文所提融合了性格特征的微博文本情感分类模型拥有更高的准确率、召回率和F值,分类性能在对比实验组中最好. 同时说明,性格特征的融入有助于微博文本情感分类,验证所选取性格特征的有效性.

    • 表3中实例1用户拥有高愉悦型(HA)、高外向型(HE)、高责任型的性格(HC),实验结果符合Big Five模型的规律. 同时,该实验结果表明性格一定程度上会影响情感表达,融合性格线索的PBiLSTM模型对微博文本情感分类具有有效性. 针对性格文本进行训练得出的情感分类器效果比通用的情感分类器更具有针对性. 实例3和实例4用户拥有相同的性格高愉悦型(HA)、高外向型(HE)特征,通过对比实验结果可知具有相同性格的用户其表达情感的方式趋于一致. 通过对比表中实例2和实例3,融合性格线索PBiLSTM模型相较于Bi-LSTM模型的情感分类效果更优,该模型能够更准确的识别出微博文本的情感倾向性.

      用户性格微博文本BiLSTMPBiLSTM
      1HA、HE、HC我是小妖怪,逍遥游自在,杀人不眨眼,吃人不放盐. 消极积极
      2LA、LE、HC人的成见是一座大山. 积极消极
      3HA、HE相比原作软科幻的末日背景,在设定方面电影版还是强化很多科幻元素. 积极积极
      4HA、HE上海,人类最后的堡垒. 消极积极

      表 3  BiLSTM模型和PBiLSTM模型实验结果实例

      Table 3.  Examples of experimental results for BiLSTM and PBiLSTM models

    • 本文根据不同性格的用户具有不同情感表达方式的特点,提出一种融合性格线索的微博情感分析模型PBiLSTM,该模型既利用BiLSTM兼顾文本的全局特征充分考虑了词上下文语义信息,又通过用户行为融合了用户性格特征进行微博文本情感分析. 实验表明,本文提出的用户性格量化方法以及特征融合方法能够提升现有BiLSTM算法的效果,情感分类的准确率有了明显提高. 未来将在从心理学和社会学角度引入更多影响情感的元素以提升情感分析的效果.

参考文献 (22)

目录

    /

    返回文章
    返回