情感分析,又称为情感识别或情感检测,是一项在文本数据中识别情感和情感倾向的自然语言处理任务。如何进行情感分析的步骤有:1、数据收集;2...
2025-07-27 2 情感分析
为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。
是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如“华为手机非常好”就是一个正面评价。情感分析主要有五个要素,(entity/实体,aspect/属性,opinion/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素。
上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体“华为手机”和属性“拍照”合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可以是实体词和实体类别,实体词可以是“餐馆”、“饭店”、“路边摊”,而实体类别是“饭店”;属性可以是属性词和属性类别,如属性词可以是“水煮牛肉”、“三文鱼”等,都对应了属性类别“食物”。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的任务。观点的取值范围一般是{正面,负面,中性}。类似的,可以把观点看做是对描述词的抽象和归类,如“好看”归为“正面”。
当前研究中一般都不考虑情感分析五要素中的观点持有者和时间,故后文中的讨论都不考虑这两个因素。根据对剩下三个要素的简化,当前情感分析的主要任务包括可按照图 3 所示:词级别情感分析、句子/文档级情感分析、目标级情感分析。
其中词级别和句子级别的分析对象分别是一个词和整个句子的情感正负向,不区分句子中具体的目标,如实体或属性,相当于忽略了五要素中的实体和属性这两个要素。词级别情感分析,即情感词典构建,研究的是如何给词赋予情感信息,如“生日”对应的情感标签是“正面”。句子级/篇章级情感分析研究的是如何给整个句子或篇章打情感标签,如“今天天气非常好”对应的情感标签是“正面”。
TN-ABSA 的分析对象是文本中出现的实体的情感正负向,如图 5 中,实体华为和 XX 的情感正负向分别为正面和负面。这种情况下没有属性的概念,只有实体。
T-ABSA 的分析对象是文本中出现的实体和属性组合,如图 6 所示,评价对象是实体+属性的组合,如华为+拍照和 XX+性价比。
在清楚了目标级情感分析的分类之后,每个类别又都可以包含为两大类任务:第一个是评价对象的识别,第二个是情感识别。评价对象识别包括评价对象词抽取和评价对象词分类,情感识别包括评价词抽取和评价正负面分类。具体例子如图 7 所示。之所以要识别出对象词和评价词,是为了能够基于属性正负面过滤的时候可以高亮相应的评价文本片段。
本文主要介绍词级别情感分析、句子级情感分析和目标级情感分析中的 T-ABSA 的内容、方法和华为云语音语义团队在该领域实践中的一些成果。这里首先区分一些概念,本文所说的情感,包括 emotion 和 sentiment 两种。严格意义上来说 sentiment 属于 emotion 的一种,但是本文中不做区分。
词级别的情感分析,即构建情感词典(sentiment lexicon),旨在给词赋予情感信息。这里首先要确定的是情感怎么表示,常见的表示方法有离散表示法和多维度表示法。离散表示法如情感分析领域常用的{正面,负面,中性}的表示方法,或者如表
人工标注优点是准确,缺点是成本太高。自动化方法中,都是先有人工标注一些种子词,然后通过不同的方法把种子词的标签信息扩展到其他词。基于点互信息的方法会基于大规模语料库统计新词和种子词之间的统计信息,然后基于该信息对种子词做加权求和得到信息的情感标签。基于标签传播的方法会先构建词和种子词的一个图,图上的边是基于词和词之间的统计信息获得。然后用标签传播的算法获得新词的情感信息。基于回归的方法先构建词的特征向量表示,然后基于种子词的标签信息训练一个回归或分类模型,得到该模型后再对新词做预测,获得新词的情感标签信息。
基于该方法,我们构建了业界最大规模的情感词典库,采用了 Valence-Arousal 的二维情感表示模型,情感值取值范围为[-1,.1](-1 表示不好(对应 Valence 维度)或无唤醒(对应 Arousal 维度),1 表示好或高唤醒度), 词典包含六百万词,例子如下:
当前各友商推出的情感分析服务大部分都是这种整体文本的正负向预测。句子级情感分析服务在互联网时代的电商评论、政策评价中有着广泛的应用价值。句子级情感分析是一个典型的文本分类任务,我们团队也采用了当前比较有效的预训练模型+微调的方案,如下图所示:
当前我们已经上线了电商、汽车和社交领域的情感分析模型,主要支持中文语言,标签是正面和负面,带有标签置信度。如下图的例子所示,分别是手机、汽车和社交领域。
前面介绍的句子级或篇章级的情感分析只关注整个文本的正负面,没有区分文本中具体的评价对象。所以就处理不了如下的例子:
该例子对汽车的各个属性的评价正负面是不一样的,如对动力和外观来说是正面,对空间和油耗来说是负面,所以就不能简单的分析整体文本的正负面。本节介绍的目标情感分析中的 TG-ABSA 任务,即固定实体下的给定属性集合的评价正负面的预测。
传统的属性级情感分析可以采用每个属性训练一个情感分类模型。但是这种方法需要训练多个分类模型,成本比较高。我们提出了基于单模型多属性标签输出的方法,即一个模型同时输出 N 个属性的情感标签。图 15 是当前在汽车领域结果,其中 Attribute Hit Rate 是属性的命中率,即预测出的属性占评论中实际出现的比率。Hit Attribute Accuracy 是命中的属性标签预测的准确率,即在所有命中的属性中,标签预测正确属性的占比。因为我们的模型可以输出每个属性标签的置信度,所以可以基于置信度过滤来调节模型最终的输出标签,图中是个曲线 是汽车领域属性级情感分析的例子,可以同时预测出评论中出现的动力和外观两个属性对应的正负面。该功能支持汽车领域的八个属性的评价预测,包括:内饰、动力、外观、性价比、操控、能耗、空间、舒适性。
本文介绍了情感分析的概念以及华为云在情感分析方面的实践和进展,部分服务已经可以在我们的“EI 体验空间”小程序体验,欢迎大家体验并提出宝贵的意见。情感分析服务可以用于商品评价智能化分析、智能评分等,欢迎大家体验。
此外,情感分析功能已上线,如果想试用/购买相关服务,可以在华为云 EI 企业智能-自然语言处理-语言处理处试用/购买,5000 次免费试用。
李明磊,华为云 NLP 算法专家,博士毕业于香港理工大学,从事文本情感分析和情绪识别的研究,在 TAC 发表论文多篇,多次获得最佳论文奖。目前在华为云主要负责华为云文本分类、情感分析、舆情监控平台等业务。主导的文本分类平台在汽车、电商、社交等领域的情感分析达到了业界领先的水平。汽车领域属性级细粒度情感分析 8 属性准确率均达到 90%以上
2020 年 09 月 27 日 23:140回复没有更多了更多内容推荐百分点认知智能实验室:基于不完全标注样本集的信息抽取实践
信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一。
在此文中,作者讨论了如何用自然语言处理(NLP)技术来预测电影评级,所用到的数据来源于社交媒体平台上分享的数据。对电影评论的情感分析也可被用于电影体裁的分类和改进电影推荐系统。
这篇论文的创新在于把句法信息加入到实体的表示模型里。首先,基于Tree-GRU,把实体上下文的依存树放入句子级别的表示。其次,利用句子间和句子内部的注意力,来获得含有目标实体的句子集合的表示。
本文以知识图谱为切入点,重点讲解了阿里巴巴B2B在电商结构化信息挖掘和场景应用等方面的经验。
NeurIPS 2018会议上,来自密歇根大学和谷歌大脑的一篇论文展示了NLP领域的最新研究进展。他们提出的机器学习架构能够从一个给定的样本生成句子,在保留其原意的同时,还能够改变原始文本的情绪、时态,甚至添加拟声词汇。
图像分类作为计算机视觉领域的基础任务,经过大量的研究与试验,已经取得了傲人的成绩。然而,现有的分类任务大多是以单标签分类展开研究的。当图片中有多个标签时,又该如何进行分类呢?
获取信息是人类认知世界、生存发展的刚需,搜索就是最明确的一种方式,其体现的动作就是“出去找”,找食物、找地点等,到了互联网时代,搜索引擎(Search Engine)就是满足找信息这个需求的最好工具,你输入想要找的内容(即在搜索框里输入查询词,或称为 Query),搜索引擎快速的给你最好的结果,这样的刚需催生了谷歌、百度这样的互联网巨头。 本文结合达观在垂直搜索引擎建设方面的经验,主要围绕以下内容展开: 用户搜索意图的理解及其难点解析 如何进行用户搜索意图理解 达观数据用户搜索意图理解引擎介绍。
CoLink使用了一种能同时操作两个独立模型的协同训练算法,并且能以无监督学习的方式迭代式地让两个模型彼此互相增强。我们还提出使用“序列到序列”学习作为基于属性的模型非常有效,这种方法能将属性对齐难题当作机器翻译问题处理。我们将 CoLink 应用到了将企业网络中的员工映射到他们的领英个人资料的实体信息链接任务上。实验结果表明CoLink在F1分数上的表现超过之前最佳的无监督方法的20%以上。
2014年6月28日,在由@百度主办、@InfoQ负责策划组织和实施的第51期百度技术沙龙活动上,来自百度自然语言处理部高级研究员赵世奇,和中国科学院软件研究所计算机科学国家重点实验室副研究员韩先培,中国科学院计算技术研究所助理研究员姜文斌,各自分享了语义分析技术方面的实战经验。
本迷你书包括 86 个业务开发中常见踩坑点。每一个知识点都相当的实用,是程序员业务开发中的必备避坑指南...
标签: 情感分析
相关文章
在现代社会,夫妻之间的情感问题愈发引起关注。很多人发现,感情不和的夫妻往往存在一个共同点,那就是“五感不通”。这究竟是什么情况?为什么...
2025-07-24 2 情感分析
在感情的世界里,能够处于被宠爱的高位并非一件简单的事。想要长期保持在感情中的高地,往往需要具备高情商、高智商,并且懂得如何经营感情,如...
2025-07-14 2 情感分析
2025年,人工智能(AI)技术的持续革新正引领全球科技产业迈入一个全新阶段。作为行业的领头羊之一,谷歌在深度学习与自然语言处理(NL...
2025-07-14 2 情感分析
在众多星座中,天蝎座以其神秘莫测的性格和强烈的吸引力而备受瞩目,在追求爱情和友谊的过程中,找到一个能够与天蝎座和谐相处的星座是非常重要...
2025-07-13 2 情感分析
发表评论