百度发布NLP模型ERNIE基于知识增强在多个中文NLP任务中表现超越BERT
雷锋网 AI 科技评论消息,Google 近期提出的 BERT 模型,通过预测屏蔽的词,利用 Transformer 的多层 self-attention 双向建模能力,取得了很好的效果。但是,BERT 模型的建模对象主要聚焦在原始语言信号上,较少利用语义知识单元建模。这个问题在中文方面尤为明显,例如,BERT 在处理中文语言时,通过预测汉字进行建模,模型很难学出更大语义单元的完整语义表示。例如,对于乒 [mask] 球,清明上 [mask] 图,[mask] 颜六色这些词,BERT 模型通过字的搭配,很容易推测出掩码的字信息,但没有显式地对语义概念单元 (如乒乓球、清明上河图) 以及其对应的语义关系进行建模。
设想如果能够让模型学习到海量文本中蕴含的潜在知识,势必会进一步提升各个 NLP 任务效果。基于此,百度提出了基于知识增强的 ERNIE 模型。
ERNIE通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识。相较于BERT学习局部语言共现的语义表示,ERNIE直接对语义知识进行建模,增强了模型语义表示能力。
在 BERT 模型中,通过『哈』与『滨』的局部共现,即可判断出『尔』字,模型没有学习与『哈尔滨』相关的知识。而 ERNIE 通过学习词与实体的表达,使模型能够建模出『哈尔滨』与『黑龙江』的关系,学到『哈尔滨』是『黑龙江』的省会以及『哈尔滨』是个冰雪城市。
通过在自然语言推断、语义相似度、命名实体识别、情感分析、问答匹配 5 个公开的中文数据 *** 上进行效果验证,ERNIE 模型相较BERT取得了更好的效果。
XNLI 由 Facebook 和纽约大学的研究者联合构建,旨在评测模型多语言的句子理解能力。目标是判断两个句子的关系(矛盾、中立、蕴含)。
LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同。
MSRA-NER 数据集由微软亚研院发布,其目标是命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名等。
NLPCC-DBQA 是由国际自然语言处理和中文计算会议 NLPCC 于 2016 年举办的评测任务,其目标是选择能够回答问题的答案。
标签: nlp情感分析模型
相关文章
-
搜索下拉舆情处置服务行业白皮书:现状、挑战与展望详细阅读
在信息传播高度发达的当下,互联网已成为公众表达观点、交流信息的主要平台。搜索下拉框作为搜索引擎的重要组成部分,其展示的内容对用户的认知...
2025-08-25 11 nlp情感分析模型
-
生成式AI系列專題之中國自然語言處理行業賽道專題研究報告详细阅读
《生成式AI系列專題之自然語言處理行業賽道專題研究報告》在大量周密的市場調研基礎上,主要依據國家 統計局、政府部...
2025-08-25 12 nlp情感分析模型
-
杭州市全球社交营销云项目可行性研究报告详细阅读
该项目基于公司内部与外部全球数据,结合 AI 数据分析能力构建数据底座。在该数据底座之上,公司将依托多模型调用与智能体协作机制实现部分...
2025-08-24 11 nlp情感分析模型
-
小红书负面舆情处置服务企业未来发展白皮书指南详细阅读
在社交媒体蓬勃发展的当下,小红书已成为消费者获取信息、分享体验及表达观点的关键平台。截至 2024 年,小红书用户数量已突破 5 亿,...
2025-08-24 11 nlp情感分析模型
-
深圳企域数字科技申请利用AIGC技术的直播间自动化运营相关专利实现硬件资源的自动化优化配置详细阅读
金融界2025年8月9日消息,国家知识产权局信息显示,深圳企域数字科技有限公司申请一项名为“利用AIGC技术的直播间自动化运营方法、系...
2025-08-21 11 nlp情感分析模型
-
多款热门IP新品深圳文博会首发详细阅读
中新网深圳5月26日电 (记者 蔡敏婕 第二十一届深圳文博会期间,粤港澳大湾区文化产业创新展在深圳举办系列首发首订活动。多家知名企业在...
2025-08-21 11 nlp情感分析模型

发表评论