精华帖分享|使用大语言模型为互动信息量化打分(同样可使用在公告、财报、研报上)

科技   财经   2024-07-26 17:01   江苏  

「精华帖分享」栏目,文章来源于量化小论坛精华帖,每周一更。原唯有论坛特定用户可阅读,现精选后分享,帮助大家了解更多量化相关内容,开拓投资交易思路。


本文来源于量化小论坛公共讨论区板块精华帖,作者为XueJiong,发布于2024年6月26日。




长按二维码查看原帖























量化小论坛 

/bbs.quantclass.cn/

「量化小论坛」于2020年开放,为邢不行课程同学的交流论坛。由股票、B圈、分享会等不同板块组成,目前已有35000+帖子,5000+篇精华帖。

想了解更多论坛相关内容,可以加我微信xbx297,与我交流。


以下为精华帖正文:

我们在日常股市交易中,经常会关注上市公司的公告信息,也会关注上市公司的互动信息(董秘答复)。有时候,上市公司的互动信息如果能命中当前的热点信息,还会推动股价大幅度上涨。前段时间有老板已经发过了怎么根据当前热点去搜索互动信息,挖掘热点股票。那我们能否主动阅读这些信息,并通过量化的方式评估它们对股价的潜在影响呢?


首先,目前A股有大约5000多个个股,每天发布的互动信息平均量大于2000条,靠人工来阅读筛选打分肯定是不现实的。但随着人工智能技术的发展,特别是大语言模型的出现,我们现在可以利用这些先进的工具来分析和量化上市公司的互动信息。


我拿上面的命题问了一下大语言模型,下面是Kimi给出的建议:


1、数据收集:首先,我们需要收集上市公司的互动信息,这包括但不限于董秘答复、投资者关系活动记录等。

2、文本预处理:对收集到的文本数据进行预处理,包括去除无关信息、文本清洗、分词等,以便于模型更好地理解和分析。

3、热点识别:利用大语言模型识别当前市场的热点话题和关键词,并将这些热点与上市公司的互动信息进行匹配。

4、情感分析:对互动信息进行情感分析,判断文本的情感倾向是正面、负面还是中性。这有助于评估信息对投资者情绪的潜在影响。

5、量化打分:根据情感分析的结果、信息与热点的相关性以及文本的其他特征(如信息的详细程度、逻辑性等),为每条互动信息打分。

6、结果应用:将量化打分的结果应用于投资决策过程中,作为评估上市公司潜在价值和市场表现的一个参考指标。

7、持续监控与更新:股市是动态变化的,因此需要持续监控上市公司的互动信息,并定期更新量化打分模型,以确保其准确性和时效性。


由于我这边先做的测试,然后发贴时才去问了Kimi,因此我目前只做了1、5、6步,并没有做文本清洗、分词、情感识别等工作,有兴趣的老板可以进行深入研究,也可以联系我一起研究。


第一步数据收集我就不展开讲了,可以用爬虫,也可以从正规数据提供商获取。我这边测试是用的巨潮上的数据。


第五步,主要涉及两个问题:①大语言模型的选择;②提示词的处理,让大预言模型理解我们的要求。


大语言模型的选择方面,由于需要处理的数据量非常大,基本无法在各个大语言模型的免费额度内完成,因此我选了两个性价比最高的国内大语言模型进行测试。一是幻方的deepseek(https://platform.deepseek.com/),另外一个是阿里云百炼大模型平台上的通义-long(https://bailian.console.aliyun.com/),这两个模型处理一天的互动信息成本基本都在1-2元左右。这两个平台的注册都比较简单,我在这边就不重点展开,如果大家有使用上的困难,可在下面留言,需要的话我可以再出专门的帖子介绍。


提示词,目前我是这样处理的:



如果你需要再进行人工筛选判断,最好再加上打分原因,用{"score": xx, "reason": "xxxx"},系统返回json格式的数据能够方便我们对返回数据的处理。API调用处理程序参考附件的几个程序(sxf_info3091_S2_1_V1为tongyi-long模型,sxf_info3091_S2_V2调用的是deepseek模型,deepseek_interface封装的是deepseek API的调用方法,后来处理阿里百炼平台时遇到了更多的模型,索性都封装到了ai_interface里去了,大家如果自己从0开始写,直接看ai_interface就行了。另外用了邢大框架里Function中的几个函数,我就不上传了,大家直接去框架里找就行了)。


处理完数据后,我在选股框架里写了一个“互动信息因子”评价因子表现(因子文件也已上传)。目前是按每日7点前处理当天开盘前已发布的互动信息,合并至最后一个交易日上,同一交易日有多个互动信息的取平均值。从两个模型打分的明细内容看,不同大语言模型平台的内容的理解存在明显的差异。甚至同一个大语言模型,执行多次会对同样的内容产生不同的评分结果。但从因子评价分组的结果来看,最终两个模型因子分组的值与分布的差异并不明显。由于处理时间和处理成本的关系,我只取了3个月的样本数据,从IC均值看,并没有能看到明显的因子效应(和阶段的大盘环境也有关系),但从分组净值来看,AI打分越高,明显正收益越明显。


deepseek的打分因子(score)评价图如下:



tongyi-long的打分因子(score1)评价图如下:



而且在虽然因子的打分高低和市值没有任何关系,但因子评价却呈现了明显的市值效应。其实这也好理解:同样的利好信息,小市值更容易受到情绪影响被推动到更高的股价。


此文仅供抛砖引玉,希望各位老板能够激发更多思考和创意,共同探讨这一领域的可能性。


具体代码可以加邢不行微信xbx297获取。


对量化小论坛感兴趣的同学,可以加我微信xbx297,与我交流。


也欢迎大家来论坛发帖交流,原创帖如被加精,也可获得葫芦奖励。


长按查看葫芦介绍



往期文章推荐

反常识!科研巨头扎堆夕阳行业?A股研发之王竟是它?万亿研发费用,A股都投了什么?

妙用市场情绪找出大盘买卖点,逆向交易5年3倍 | Python量化期权成交量,上证50ETF择时

300W才能开通,A股自动交易公平吗?散户如何实现程序化交易?| 附A股程序化交易实盘演示

趋势之王or虚有其表?Python量化25种均线用法,哪些有用,哪些没用?

低风险、高收益?可转债缘何走上神坛?网红可转债策略能赚钱吗? | 附Python量化选债代码

抱最狠的团,亏最多的钱?Python量化散户抱团,揭秘A股股东户数秘密 | 附代码

以前嗤之以鼻,现在逐字学习!用Python量化缠论,一键自动生成交易信号 |  附代码

技术指标消亡史:从独领风骚到泯然众人 | 量化交易者如何看待技术指标,技术分析还能用吗?|  邢不行

微盘股还能买吗?量化轮动策略轻松跑赢指数12倍?!只会买指数ETF也能做量化?| 邢不行

大A为何频繁跳水,Python量化1200W条交易数据给你答案!| 邢不行

A股贵如金?Python量化验证AH股溢价效应,跟着买15年18倍?| 附策略代码

跟着基金买,别墅靠大海?买基金重仓股票,会破产吗?| 附最新选股结果 |【邢不行】

抓了几千万条热门股数据,用Python量化验证后发现结果竟然...... | 【邢不行】

当我们谈论量化时,我们在谈论什么?量化投资常见策略有哪些?| 融券T0和高频交易详解|【邢不行】

散户反着买,别墅靠大海?股票上了龙虎榜还能买吗?【邢不行】

量化交易一定是机器人+自动化+高频交易吗?| 常见量化交易误区合集,新手脱坑入门指南 | 【邢不行】

邢不行
专注股票、B圈、期货、期权的量化交易,欢迎交流。
 最新文章