首页 情感透析文章正文

基于文本挖掘的债券市场投资者情绪指数构建及应用

情感透析 2025年07月16日 05:58 3 aaron

  文章基于债券市场相关投研分析报告的文本信息,利用文本挖掘相关技术构建了反映债券市场机构投资者市场方向性观点的投资者情绪指数,并就所构建的情绪指数开展实证检验。实证研究结果表明,除债券市场处在区间震荡、方向不明的时期外,运用当周债券投资者情绪指数结果预测下周债券市场走势的胜率总体较高。

  债券传统投研分析框架主要聚焦基本面数据、政策变化与资金利率等因素,对于投资者预期给市场定价带来的影响,关注与跟踪相对较少。传统有效市场假说理论假设投资者完全理性且信息对称,但根据行为金融学的研究,现实情况中投资者预期的形成往往伴随着羊群效应与认知偏差。我国债券市场是机构投资者主导的市场,主要参与机构包括商业银行、理财及基金产品、券商、保险公司、外资等。受信息来源较为一致、投研分析范式趋同等因素影响,机构投资者预期的羊群效应和一致性偏差凸显。在此背景下,加强投资者预期方面的研究是对传统债券投研框架的有益补充,也有助于提升对债券市场走势预测的准确度。

  数据信息和文本信息是两类最常见的信息载体,传统量化研究主要基于价格、成交量等数据信息开展,对文本信息的挖掘和量化研究相对较少。利用文本挖掘技术从网络上抓取文本信息,有助于丰富研究维度,实现对市场信息流的全维度解析,推动债券量化研究分析从“数值分析”向“语义解析”的范式转变。

  目前,国内外关于文本挖掘方面的研究主要集中于股票市场,在债券市场的应用较少。近年来受益于Python语言的普及和自然语言技术的发展,越来越多的研究依托相关技术并聚焦网络文本信息的处理。多数研究抓取并分析股票市场文本情绪,对债券市场的研究报告文本进行抓取和分析的研究较少,主要集中在挖掘上市公司报表(姚潇等,2020)或财经新闻等文本信息(吴华芳,2022),研究其对于信用利差的影响。

  本文主要分析机构投资者发布的债券市场相关研究报告,通过Python爬虫和文本挖掘技术,构建反映机构投资者市场研判观点的债券投资者情绪指数。在此基础上,采用相应的计量模型研究样本期间债券投资者情绪指数对债券市场走势预测的准确度。

  综合考虑数据质量和可得性,本文选取了以下几类机构的市场分析报告文本:(1)国内主流券商的宏观或固定收益研究团队相关研究报告(中信证券、中金公司、华泰证券等,共计98家);(2)公募基金固定收益研究报告(国泰基金、华泰柏瑞基金、兴银基金等,共计8家);(3)商业银行金融市场部公众号发布的固定收益研究文章(招商银行、兴业银行、浙商银行等,共计8家);(4)其他类型机构,包括信用评级机构研究报告、私募基金研究报告、市场活跃公众号文章等(东方金诚、中粮期货等,共计13家)。选取的市场机构均为市场主流的机构投资者,且具有一定代表性,能够代表大多数机构投资者对于债券市场的分析观点。

  网络爬虫技术是一种通过编写程序自动从互联网上抓取、提取和存储数据的技术,本文使用Python编程语言实现自动完成网络爬虫流程,抓取市场研究报告文本,并使用BeautifulSoup库开展HTML文档解析。

  为了将抓取文本信息中的债券专业词汇纳入文本情感的分析,需要建立《债券市场情感倾向性词典》。为满足债券市场投资者情绪的相关研究需要,有必要针对债券市场领域的表述特点建立专用词典。本文建立了债券市场领域的《债券市场情感倾向性词典》来分析债券市场相关研究报告文本。

  本词典使用“人工判定+程序抓取解析”的构建方法,具体使用哪些词汇及与判定结果的映射关系由人工判定,文本抓取和解析统计的工作由程序完成。具体而言,《债券市场情感倾向性词典》的构建包含以下步骤:(1)确定研究报告文本的发布地址,通过Python程序进行抓取和解析,并按照时间序列规则存储于Excel文件中;(2)分析存储数据,提取有效信息,并剔除异常值;(3)使用Jieba分词库进行文本分词处理,即将连续的中文字符序列逐个切分成单独的词语;(4)引入去重后的停用词词典,去除类似“的”、“啊”等含有较少实际意义且对文本情绪分析相对不重要的字符;(5)进行词频统计,根据事先确定的词频高、情绪倾向性较强的词汇判定规则,分类构成《债券市场情感倾向性词典》。

  《债券市场情感倾向性词典》中的词汇可分为三种立场:乐观、中性和悲观,根据语言情绪的强弱来赋予不同的权重数值。本文将词典库词汇分为基本面、资金面、供求面、机构行为及市场观点四个维度。权重设置方面,词汇预设7个等级,分别用情绪值-3、-2、-1、0、1、2、3表示,分别对应着投资者情绪从极度悲观到极度乐观。词汇的区分维度和权重数值设置详见表1。

  本文在构建债券市场情绪指数时,首先利用词袋模型对债券市场研究报告文本进行预处理,包括分词、去除停用词等步骤,分词后使用程序化工具基于人工判定的规则进行甄选,提取出含有较大信息量的情感倾向性词汇和证券专有名词。最后,通过相应的代数处理得到情绪指数。

  把构建好的《债券市场情感倾向性词典》编入Python程序,逐条处理上文中通过爬虫技术抓取的所有债市研报文本并提取词典出现的词汇,给每个词汇赋予相应权重,最后以周为时间维度统计当周所有研究报告文本中的词汇并加总平均,得到该周的债市投资者情绪指数。

  本文选取的研究文本主要是券商、基金、银行等机构的债券市场研究分析报告,样本时间区间为2023年6月5日—2025年2月23日,剔除无效值后,共计1371条日频文本信息。将上述文本信息进行周度汇总处理后,得到共计87个周度频率的样本数据。本文重点研究债券市场投资者情绪指数对债券市场走势预测的解释力,债券市场走势使用中债发布的中国10年期国债到期收益率进行刻画,数据取自Wind金融终端。数据涉及的变量包括:St,第t周的债券市场投资者情绪指数;Yt,第t周收盘的10年期国债到期收益率。

  表2展示了债券市场投资者情绪指数St对10年期国债到期收益率的描述性统计值。图1是根据债市投资者情绪指数和10年期国债到期收益率的描述性统计结果所绘制的箱形图。由图表可知,机构发布的债券市场研究(分析)报告文本生成的投资者情绪指数异常值较少,主要是因为机构投资者通常情况下对市场的判断较为理性,文本较少体现出情绪的大幅波动。

  为进一步刻画债券市场投资者情绪指数和10年期国债到期收益率变化及滞后一期收益率变化之间的关系,首先需要对债券市场投资者情绪指数和10年期国债到期收益率变化进行单位根检验,确保时间序列的平稳性。本文主要采用ADF(Augmented Dickey-Fuller Test)方法检验单位根,表3汇总了变量的单位根检验结果,可以看出各时间序列变量均是平稳的。

  验证各时间序列变量平稳后,以当期10年国债到期收益率变化为因变量,上一期的债券市场投资者情绪指数为解释变量进行OLS回归。

  其中,ΔYt为当期10年期国债收益率变化;St-1表示上一期的债券市场投资者情绪指数。如表4所示,当期10年期国债收益率变化受一阶滞后的债券市场投资者情绪指数的影响,回归系数小于0,表示当期10年期国债收益率变化与一阶滞后的债券市场投资者情绪指数呈现负相关关系,当投资者情绪越乐观时,情绪指数越大,对应下一期的10年期国债收益率越可能呈现下行走势。图2为可视化的回归分析结果。

  本文根据债券市场投资者情绪指数的范围将投资者预期划分为三类:看多、看空和震荡,其中看多对应情绪指数在0.5及以上,看空对应情绪指数在-0.5及以下,震荡对应情绪指数在-0.5到0.5之间。表5展示了使用投资者情绪指数判断下一期10年期国债期货走势在各类情景下的胜率。实证结果表明,除震荡情景没有明确方向无法用于市场走势预测外,使用本周债券投资者情绪指数看多或看空的结果对下周10年期国债收益率走势进行预判的胜率均在60%以上。

  本文运用文本挖掘技术构建反映机构投资者市场研判观点的债券投资者情绪指数,并就所构建的债券投资者情绪指数进行了实证检验。结果表明,除市场处在震荡时期、方向不明这一情况外,使用当周债券投资者情绪指数结果研判下周债券市场走势的胜率较高。

  需要指出的是,本文的研究方向也存在进一步探索挖掘的空间。一是目前的文本处理过程中,倘若文本存在词语多义性、句子结构复杂性、上下文依赖等情况,生成的债市投资者情绪指标可能与实际投资者情绪有所偏差。为解决这一问题,后续可探索采用深度学习技术结合大规模语料库训练语言模型,使之能够理解所抓取文本的上下文信息,从而更精准捕捉文本的真正含义。

  二是本文构建债券市场投资者情绪指数采用的研究载体是文本数据,但目前还有其他载体可反映投资者情绪。例如分析师会议录音(音频)、市场新闻图片(图像)以及社交媒体讨论(文本+图像等)可以更加全面地刻画市场参与者的情绪和预期。将上述数据通过特征融合方法(如加权平均、深度学习模型等)整合,生成统一的情绪评分,计算相应的债券市场情绪指数,可为指导债券市场投资决策提供更精准的依据。(转自中国货币市场 作者:中国农业银行资金运营中心 王磊 付萱 薛潮帆)返回搜狐,查看更多

标签: 情感分析不用情感词典

发表评论

智杖百科 备案号:皖ICP备2023023635号 智杖百科 xml | txt