文本情感剖析办法研讨总述

1. 导言

文本情感剖析是自然言语处理范畴的一个重要分支,其广泛运用于舆情剖析情感对话产品和服务谈论等方面。现阶段,随着人工智能不断进步,经过情感核算完成有用的情感剖析,是一个有巨大意义的使命。

2. 文本情感剖析介绍

文本情感剖析又称定见发掘,是指对带有情感颜色的主观性文本进行剖析,发掘其间包括的情感倾向,对情感态度进行区分

3. 文本情感剖析进程

其进程首要包括原始数据获取数据的预处理特征提取分类器以及情感类别的输出

  1. 原始数据的获取一般是经过网络爬虫获取相关数据,如微博内容、推特语料、各大电商网站的谈论等。
  2. 数据预处理是指进行数据清洗去除噪声,常见的办法有去除无效字符和数据一致数据类别(如中文或简体)、运用分词东西进行分词处理停用词过滤等。
  3. 特征提取依据运用的办法不同,会有不同的完成办法,在依靠不同的东西获得文本的数值向量表征时,常见的办法有词频计数模型N-gram词袋模型TF-IDF,而深度学习办法的特征提取一般都是自动的。
  4. 分类器输出得到文本的终究情感极性,常见的分类器办法有SVM和softmax。

4. 文本情感剖析办法

依据运用的不同办法,将情感剖析办法分为:依据情感词典的情感剖析办法、依据传统机器学习的情感剖析办法、依据深度学习的情感剖析办法。

mindmap
      文本情感剖析办法
          依据情感词典的情感剖析办法
          依据传统机器学习的情感剖析办法
          依据深度学习的情感剖析办法

其间,依据深度学习的情感剖析办法分为:

  1. 单一神经网络的情感剖析;
  2. 混合(组合、交融)神经网络的情感剖析;
  3. 引进留意力机制的情感剖析;
  4. 运用预练习模型的情感剖析;

4.1 依据情感词典的情感剖析办法

它是指依据不同情感词典所提供的情感词的情感极性,来完成不同粒度下的情感极性的区分。该办法的一般流程如下:

  1. 首要将文本输入,经过对数据的预处理(包括去噪、去除无效字符等),接着进行分词操作。
  2. 然后,将情感词典中的不同类型和程度的词语放入模型中进行练习。
  3. 终究,依据情感判别规矩将情感类型输出。

现有的情感词典大部分是人工结构,依照区分的不同粒度,可将情感剖析使命区分为:词、短语、属性、语句、华章等级别。

注:需对词语进行情感极性和强度不同程度的标示。

流程图如下:

文本情感分析方法研究综述

依据情感词典的办法可以精确反映文本的非结构化特征,易于剖析和了解。当情感词覆盖率和精确率高的情况下,情感分类作用比较精确。 但该办法仍存在不足:

  1. 首要依靠情感词典的构建,现有的情感词典需求不断扩大才干满足需求;
  2. 跨范畴和跨言语作用欠安;
  3. 考虑不到上下文之间的语义关系;

4.2 依据传统机器学习的情感剖析办法

是指经过很多的有标示或无标示语料,运用统计机器学习算法,抽取特征,终究再进行情感剖析输出成果。 依据机器学习的情感分类办法首要分为三类:有监督、半监督、无监督办法。

在有监督办法中,经过给定带有心情极性的样本集,可以分类得到不同的情感类别。有监督的办法对数 据样本的依靠程度较高,在人工符号处理数据样本上花费的时刻较多。常见的有监督办法有:KNN朴素贝叶斯SVM

在半监督办法中,经过对未符号的文本进行特征提取可有用改善文本情感分类成果,且可以处理带有符号的数据集稀缺问题。

在无监督办法中,依据文本间的相似性对未符号的文本进行分类,这种办法在情感剖析中运用较少。

依据传统机器学习的情感分类办法首要在于情感特征的提取以及分类器的组合挑选,不同分类器的组合挑选对情感剖析成果发生一定影响。一起,在对文本内容进行情感剖析时常常不能充分运用上下文文本的语境信息,因而影响终究的剖析成果。

4.3 依据深度学习的情感剖析办法

办法可细分为:单一神经网络、混合(组合、交融)神经网络、引进留意力机制、运用预练习模型。

4.3.1 单一神经网络

该言语模型运用了一个三层前馈神经网络来建模。神经网络首要由输入层躲藏层输出层构成。其间,该网络的输入层的每个神经元代表一个特质,躲藏层层数及躲藏层神经元是由人工设定,输出层代表分类标签的个数,一个根本的三层网络如下所示:

文本情感分析方法研究综述

该言语模型的实质便是依据上下文信息来猜测下一个词的内容,而不依靠人工标示语料。由此可以发现,言语模型的优势便是可以从大规模的语料中学习丰富的常识。可以有用处理依据传统情感剖析办法中疏忽上下文语义的问题。

典型的神经网络学习办法有:卷积神经网络、递归神经网络 、长短期回忆网络等。

长短期回忆网络是一种特殊类型的递归神经网络,在处理长序列数据和学习长期依靠性方面作用不错。为了加快模型的练习速度,削减核算量和核算时刻,Gopalakrishnan等人提出了六种不同参数的精简LSTM模型,经过试验证明,不同参数设置和模型层数设置均会对试验成果发生影响

Fei等人提出了一种依据长短期回忆的多维论题分类模型,该模型由LSTM细胞网络构成,可以完成对向量、数组和高维数据的处理

为了处理传统CNN办法中疏忽文本潜在主题的问题,Zhou等人提出了一种依据CNN的多样化约束玻尔兹曼机(RBM)办法来对文本中语句的次序潜在主题建模,来到达情感分类作用。

Li等人提出了一种依据卷积神经网络(CNN)的中文微博体系定见摘要算法,该模型经过运用CNN自动发掘相关特征来进行情感剖析,经过一个混合排序函数核算特征间的语义关系,该办法在四个点评指标上(精确率、召回率、精度、AUC)优于传统的分类办法(SVM、随机森林、逻辑回归)。

Wang等人提出了一种将递归神经网络和条件随机场相结合的联合模型,将其整合到一个一致的框架中,用于对方面词和定见词的提取。该模型一起学习高档判别特征,并在方面词和定见词之间进行信息的双重传达。

4.3.2 混合神经网络

将上述单一神经网络办法的长处进行组合和改进。Madasu等人提出了一种次序卷积留意递归神经网络(SCARN),经过与传统的CNN和LSTM办法比较较,SCARN具有更好的功能。

罗帆等人运用联合循环神经网络和卷积神经网络,提出一种多层网络模型:H-RNN-CNN,该模型运用两层RNN对文本进行建模,并将其引进语句层,完成了对长文本的情感分类

Xing等人经过引进一个新的参数化卷积神经网络用于方面级情感分类,运用了参数化过滤器(PF-CNN)和参数化门机制(PG-CNN)。

Jiang等人提出了一种依据分句极性和卷积神经网络交融的情感剖析办法,首要运用神经网络对构成原句的多个分句的情感极性进行核算,然后运用极性交融规矩对输出的分句情感极性进行合并,来核算原句的情感极性。

考虑到一般时刻卷积网络对文本进行单向特征提取时不能充分捕捉文本特征,对文本的剖析才能较弱,韩建胜等人提出一种依据双向时刻卷积网络(Bi-TCN)的模型。该模型运用单向多层空泛因果卷积结构分别对文本进行前向和后向特征提取,将两个方向的序列特征交融后进行情感分类。

Lai等人提出一个依据语法的图卷积网络(GCN)模型来增强对微博语法结构多样性的了解。

除了完成对长文本的情感分类问题,混合神经网络办法也用于短文本情感分类问题。杜永萍等人提出一种依据CNN-LSTM神经网络的情感分类办法,在短文本谈论中对含有隐含的语义的短文本谈论中的情感倾向性辨认获得不错的作用。为充分运用情感剖析使命中的情感信息,李卫疆等人提出了一种依据多通道双向长短期回忆神经网络的情感剖析模型(Mutil-Bi-LSTM),对情感剖析使命中现有的言语常识和情感资源进行建模,生成不同的特征通道,让模型充分学习语句中的情感信息,经过试验比照,获得了比一般Bi-LSTM结合情感序列特征的卷积神经网络以及传统分类器更好的功能。

比较于依据情感词典和传统机器学习的情感剖析办法,选用深度学习神经网络的办法在文本特征学习方面有显著优势,能自动学习特征,并对文本中的词语信息自动保留,然后更好地提取到相应词语的语义信息

4.3.3 引进留意力机制

Hinton等人率先提出了深度学习的概念,经过深层网络模型学习数据中的关键信息,以此来反映数据的特征,然后提升学习的功能。

依据深度学习的办法是选用接连低维度的向量来表明文档和词语,因而可以处理数据稀少的问题;此外,依据深度学习的办法归于端到端的办法,可以自动提取文本特征降低文本构建特征的复杂性

而留意力机制最早是运用在视觉图画范畴,研讨者在RNN模型上运用了留意力机制来完成图画分类,随后,Bahdanau等人经过将留意力机制运用在机器翻译使命中。2017年,谷歌机器翻译团队提出用Attention机制代替传统的RNN办法搭建了整个模型框架,并提出了多头留意力机制(Mutil-head attention)机制,如下图展现:

文本情感分析方法研究综述

其间,Q、K、V首要经过一个线性变换,然后输入到放缩点积Attention(Scaled Dot-Product attention)中,进行h次核算,即多头。之后将h次的放缩点积Attention成果进行拼接,再进行一次线性变换得到的值作为多头Attention的成果。

留意力机制可以扩展神经网络的才能,答应近似愈加复杂函数,即关注输入的特定部分

Da’U等人提出了一种依据留意力机制的神经网络(SDRA)的深度感知引荐体系,该体系可以捕捉产品的不同方面以及用户对不同方面产品的潜在情感

此外,作者还引进了协同留意机制,以更好地对用户-项目交互进行细粒度建模,然后提高猜测功能。

Yang等人首次提出一种将方针层留意和上下文层留意替换建模的协同留意机制,经过将方针转移到关键词的上下文表明来完成方面情感剖析,优于传统带有留意力机制的神经网络办法。

Pergola等人提出一种依据论题依靠的留意模型,经过运用留意力机制来完成对单词和语句部分主题嵌入,用于心情分类和主题提取。

刘发升等人提出了一种将留意力机制语句排序双层CNN-BiLSTM模型,该办法处理深度学习办法运用在情感剖析时没有很好地处理文本特征和输入优化的问题。

顾军华等人提出一种依据卷积留意力机制的模型(CNN_attention_LSTM)用于提取文本的部分最优情感和捕捉文本情感极性转移的语义信息。该办法首要运用卷积操作提取文本留意力信号,将其加权交融到Word-Embed-ding文本分布式表明矩阵,杰出文本重点的情感词和转折词,然后运用长短期回忆神经网络LSTM来捕捉文本前后情感语义关系,终究选用softmax线性函数完成情感分类。

陈珂等人针对情感词典不能有用地考虑到上下文语义信息,RNN获取整个语句序列信息有限以及在反向传达时或许存在梯度消失或梯度爆破的问题,提出了一种依据情感词典Transformer的文本情感剖析办法,该办法充分运用了情感词典的特征信息,还将与情感词相相关的其他词融入到该情感词的不同方位,发现语句中的单词次序和间隔对语句中情感的影响。

此外,还对含有隐式情感词的文本进行研讨,赵容梅等人运用CNN对文本进行特征提取,再运用LSTM提取文本中的上下文信息,并经过添加留意力机制。

潘东行等人提出一种结合上下文语义和交融留意力机制的情感剖析办法,该办法首要运用Word2vec办法进行特征提取,在经过结合不同的分类模型(TextCNN、LSTM、BiGRU)终究经过交融留意力机制的办法来完成。

Wei等人提出一种依据多极性正交留意的BiLSTM模型,该办法可以有用辨认词语和情感倾向之间的差异。

4.3.4 运用预练习模型

预练习模型是指用数据集现已练习好的模型。最新的例如:ELMo、BERT、XL-NET、ALBERT等。

Peters等人提出一个新办法ELMo,该办法运用的是一个双向的LSTM言语模型,由一个前向和一个后向言语模型构成,方针函数便是取这两个方向言语模型的最大似然值。和传统的词向量办法比较,这种办法的优势在于每一个词只对应一个词向量。ELMo运用预练习好的双向言语模型,然后依据详细输入从该言语模型中可以得到有着上下文依靠的当时词表明(关于不同上下文的同一个词的表明是不一样的),再当成特征加入到详细的NLP中有监督模型里。

2018年谷歌提出一种依据BERT的新办法,将双向的transformer机制用于言语模型,充分考虑到单词的上下文语义信息。在模型的输入方面,BERT运用了WordPiece、embedding作为词向量,并加入了方位向量和语句切分向量

Araci等人提出一种依据BERT的FinBERT言语模型来处理金融范畴的使命。

Xu等人经过结合通用言语模型(ELMo和BERT)和特定范畴的言语了解,提出DomBERT模型用于域内语料库和相关域语料库中的学习。

Zhao等人提出了一种依据BERT的情感剖析和关键实体检测办法,并将其运用于在线金融文本发掘和交际媒体舆情剖析

Sun等人提出一种新的ABSA(Aspect-Based Sentiment Analysis,依据方面的心情剖析)办法,经过微调预先练习的BERT模型将ABSA使命转化为语句对分类使命

Hu等人提出一种依据方面的硬挑选的情感剖析办法,经过给定的定见片段的开始和完毕方位,挑选两个方位之间的词进行心情猜测运用预先练习好的BERT模型来学习语句和方面之间的深层相关,以及语句中的长期依靠关系,并经过自批评强化学习进一步检测定见片段。