摘要
新闻数据对大宗商品价格有没有影响?借助自然语言处理等人工智能技术,我们尝试构建了20种国内主流商品的“新闻舆情指数”,指导投资。该舆情因子和传统商品动量、基差低相关,它提升基差-动量组合夏普比18%。
我们发现,2020年开始舆情数据对大宗商品的定价能力显著提升,再之前是11-12年。13-16年,舆情因子表现失色。
舆情指数。我们简要介绍从商品新闻数据到商品舆情指数的构建流程,并用一个原油舆情指数作为例子说明。
舆情组合。基于指数,我们讨论如何用一种均线策略构建最简单的商品舆情组合,以及用作对比的基差和动量组合。
单因子。在同样的参数下,我们的动量夏普比是0.32,舆情因子是0.42,基差因子是0.53。10年至23年,舆情因子和基差/动量的费后相关性分别为0.1和0.2。
多因子。我们等权组合商品舆情/基差/动量因子,相比常规基差-动量组合,夏普比进一步提升18%至0.6。样本外,我们的模型也展现韧性。
风险提示:过去业绩不代表未来、数据敏感、交易成本等。
舆情指数
新闻舆情对股票的预测力众人皆知,比如所谓的“机构观点”、“零售投资者情绪”。这些往往大量的、不同来源的新闻包含了对一家公司持负面/正面/中性的态度,后者对其股票未来价格走势可能会产生影响。
大宗商品为什么不这么做?比如2020年原油崩盘之际,国内各种来源的负面舆情可能一天就能达到上百条。又或者当全球需求走弱,技术革新之时,铜的负面新闻也会纷至沓来。
这种数据的特点在于它不是结构化的。它需要爬取、智能解析(如NLP)等额外处理来生成,比如对应商品的情绪。情绪得分是结构化的。然后,我们可以借助传统CTA策略来交易这种情绪。
我们将每个商品、每天的这样的情绪得分(一个介于中性/负面/正面之间的连续值,continuous)序列称为“舆情指数”。这篇报告,我们尝试构建了20种商品(南华商品指数下)的舆情指数。我们选择指数来研究,因为主流商品通常拥有更为充分的舆情数据,情绪会出现“统计意义”。当然,单纯考虑舆情数量,我们也可以做到更多的品种。
我们以国内原油(SC)为例,展示一个原油舆情指数,从17年开始。这里展示的指数只为说明用,为了显示出舆情走势。
大周期来看,我们的舆情指数较好的表达了:
2020下半年以来的原油的超级周期
22年和去年以来对原油需求的担忧,并且这种担忧可能会持续
2020年因covid导致的原油需求暴跌担忧
所以,直观上我们的舆情指数合理。我们自然将这种做法,连同一开始的数据处理流程应用在了其余主流大宗商品上。在不同商品的新闻数量分布方面,大体上,平均每年的新闻数目都比较“均匀”。
下面一节我们会讨论依据这些指数,如何构建一个简单的舆情策略组合,以及它和传统动量、基差策略之间的相关性。我们有什么样的发现。
单因子
先阐述组合构建细节。舆情指数的投资逻辑较为简单:舆情指数上升时,我们做多对应商品主力期货,下降时我们做空。组合是所有品种(20)的等权平均。这里所有交易单位均为1。在成本方面,我们用1个滑点计入本文中所有的交易市场,同时移除管理费和提成等因素的影响。
信号方面,我们对所有标的构建60x240的二元均线策略,其是最为经典的趋势模型之一。作为对比,我们的基差和动量策略也采用这一方法,也覆盖同样的20个商品期货。这三种策略的长期收益走势如下,从2010至2023年。在第一年,我们对所有数据进行了“burn-in”。
首先,我们的舆情因子有长期收益,总回报略弱于基差和动量。回报稳定性方面,最差,它的收益集中在2020年开始,这可能不会太奇怪。因为在那之后,covid、供应链危机和全球地缘政治等因素导致商品成了大类资产中的主角。技术上来说,彼时相比海外,中国期货市场的流动性(例如成交量)经历了巨量的增长,这也给社会舆论带来了契机。在此之前是11-12年,当时通胀也正好是中国的一个宏观主题。因而,我们的舆情组合表现符合认知。
组合参数方面,我们分了两组均线,括号内为其夏普:
10x40(-0.16),20x80(-0.16)
50x200(0.08),60x240(0.42)
我们的舆情因子更适合长周期。换句话说,它在周期上的稳健性不如传统动量。比如,一个10x40的动量夏普是0.53,一个60x240的动量夏普仍有0.32,虽然后者夏普低于舆情。
接下来是相关性。整个样本内舆情因子和基差/动量(60x240)的相关性分别为0.1和0.2。这里需要注意,尽管基差22-23年表现也不错,但是它们同期的相关性也仅有0.1。换句话说,我们能在动量表现不佳的时期获得两种不同的正收益源。
三因子
下面,我们简单将上节中的动量、基差和舆情因子作等权来形成我们的三因子组合。
夏普有全面提升。我们的动量夏普比是0.32,舆情因子是0.42,基差因子是0.53,而三因子夏普达到0.6。风险方面,舆情因子的加入将两因子(动量-基差)波动从7.21%下降到5.98%。
我们也确实看到,我们的曲线比前述任何一个单策略都更加的稳,更加的向上。
最后,我们提及费率的影响,如果不考虑滑点,我们的动量夏普比是0.33,舆情夏普比是0.49,基差夏普是0.54。可以看到,成本对舆情的影响更大一些(-14%),这也体现了这类数据的不同之处。
总结
我们从未涉及过该类cta策略:用不同来源的、大量的新闻数据及其包含的情绪来投资国内大宗商品期货,其中情绪使用了经典的NLP技术。有正收益、低相关、分散化,我们的舆情组合能给传统基差和商品动量因子提供一层很好的互补。
我们没有做任何额外的优化,为了清晰说明:1)新闻数据有用;2)人工智能有用。当然,后者我们并未用来作常用的资产价格预测,而是用来提取新闻语义输入到cta。缺点之一,这类策略相比动量等因子,是否能更长期稳定,值得深究。
样本外,截至去年三季度,我们的舆情因子夏普比轻微下降至0.37。展望未来,我们自然会扩充一部分投资组合标的,持续跟踪。以及进一步研究它的alpha。
说明:截至2024年三季度,紫金天风期货研究所量化组计算
相关
免责声明
本报告的著作权属于紫金天风期货股份有限公司。未经紫金天风期货股份有限公司书面授权,任何人不得更改或以任何方式发送、翻版、复制或传播此报告的全部或部分材料、内容。如引用、刊发,须注明出处为紫金天风期货股份有限公司,且不得对本报告进行有悖原意的引用、删节和修改。
本报告基于紫金天风期货股份有限公司及其研究人员认为可信的公开资料或实地调研资料,仅反映本报告作者的不同设想、见解及分析方法,但紫金天风期货股份有限公司对这些信息的准确性和完整性均不作任何保证,且紫金天风期货股份有限公司不保证这些信息不会发生任何变更。本报告中的信息以及所表达意见,仅作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,紫金天风期货股份有限公司不就报告中的内容对最终操作建议做出任何担保,投资者根据本报告作出的任何投资决策与紫金天风期货股份有限公司及本报告作者无关。