+
目录
一、RAG: What, Why, How??
1.1 为什么需要RAG?
1.2 为什么必须要RAG?RAG vs 长上下文
1.3 RAG的架构流程与优化路径
1.4 如何选择适当的检索算法?
二、产业链与概念股梳理全流程升级
2.1 多源知识库搭建
2.2 混合检索与时间加权
2.3 文本处理与大模型选择
2.4 模型效果提升——产业链梳理
2.5 模型效果提升——概念股梳理
三、概念领涨股特征识别与领涨组合构造
3.1 热点行情复盘
3.2 领涨股具备什么特征?
3.3 领涨股组合增强方案
四、总结
参考文献
风险提示
摘要
■ 投资逻辑
本篇报告继续探讨大语言模型在热点投资上的应用,是在《Beta猎手系列之七:追上投资热点——基于LLM的产业链图谱智能化生成》提出的“产业链Agent”模型的基础上做了进一步拓展,进一步提升了产业链与概念股梳理效果,并增加了识别概念领涨股的功能,帮助投资者更准确地把握行情。
RAG: What, Why, How?
RAG是一种优化大语言模型输出质量的技术,通过在指定数据库中检索高相关信息来提升模型回答质量,适用于垂直领域知识增强、最新知识更新、扩展上下文长度等多种应用场景。通过“海底捞针”实验我们证明,尽管大模型支持输入更长上下文,但在处理较长文本时可能出现能力下降,这也是我们必须用RAG提炼信息,实现降本增效的原因。
基于查询的RAG是当前较主流的RAG框架:检索出高相关文本后通过Prompt与查询一起输入大模型,提升回答的质量。我们可以从初始查询、检索器、生成器等方面对RAG框架进行优化,其中检索器是决定RAG效果的关键。检索器包括检索算法、Embedding模型以及向量数据库的选择等,能实现对检索结果的质量以及大数据下检索效率的提升,需要使用者根据应用的特征专门挑选检索方式。
产业链与概念股梳理全流程升级
我们推出“产业链Agent”模型v2.0版本,全流程提升梳理结果质量。首先,我们搭建了涵盖新闻、研报、公司公告等多个来源的知识库,并针对产业链梳理与概念股梳理两种不同的任务分别进行处理;考虑到中文金融文本的特性,我们选择混合检索的算法,并创新地提出了时间加权的概念,将信息的时效性纳入考虑;此外,我们也实现对文本做进一步浓缩,以及判断可能存在的概念股映射不准的问题,并最大化发挥不同大模型的优势。
产业链梳理结果上来看,提升检索文本质量之后,我们能直接生成任意概念的产业链图谱,也能给到更加完善的图谱结果;概念股梳理结果更加准确,且我们给出的概念股组合等权指数与Wind人工梳理构造的指数走势基本一致,表明我们给到的概念股范围有较高准确度。
概念领涨股特征识别与领涨组合构造
模型梳理得到的概念股数量较多,我们试图通过量价特征从中找出领涨股,帮助投资者更好把握热点行情。我们以AI手机、人形机器人、合成生物学与低空经济四个概念为例,通过复盘确认了各概念的行情启动时间点。通过检验,我们发现动量因子与非流动性因子在热点行情来临时具有一定选股效果。我们将两个因子做等权合成,同时叠加“尖峰右偏”特征做第二层筛选,并在市值大于50亿的个股上做筛选,构造领涨组合。从回测结果上来看,领涨组合在概念启动后的短期内相对概念指数以及Wind全A均有明显的超额收益。
风险提示
大语言模型输出结果具有一定随机性的风险;模型迭代升级、新功能开发可能会导致结论不同的风险;人工智能模型得出的结论仅供参考,可能出现错误答案的风险。
正文
RAG: What, Why, How?
1.1 为什么需要RAG?
目前大模型展现出很强的生成能力,基本能够满足大部分日常问答,但在进行特定领域的问答时依旧容易出现脱离实际的不正确回答,我们称之为“幻觉”(Hallucination)现象。这一现象在某些对准确性要求较高的应用领域是令人难以接受的。“幻觉”的产生原因之一在于大模型的预训练数据中并不包含相关知识文本,或大模型对其中概念出现了混淆,在没有得到补充信息指引的情况下只能“强行”回答,也因此容易出错。对此,一个很朴素的想法是:如果将需要的知识告诉大模型,能否提升其表现?
RAG(Retrieval Augmented Generation,检索增强生成)便基于这一想法诞生了。简单来说,RAG是一种优化大语言模型(LLM)生成质量的技术,在知识库中检索与用户输入高相关的信息,输入文本进行补充,并提升模型回答的质量。RAG能在应用端带来效果的快速提升,相比于微调等方式,它便于快速部署、无需大量的时间与算力资源投入,是一种更经济高效的改进方法。
具体来说,RAG适用于以下应用场景:
垂直领域知识增强。大模型预训练所掌握的更偏向于常识或通识类知识,对专业领域譬如医学、法律或化工等领域的知识掌握程度不高,更可能出现幻觉现象。RAG可以通过检索外部权威知识库来获取专业知识,提升回答的权威性,减少幻觉现象的发生。
最新知识及时更新。像金融、传媒等领域对信息的及时性有很高要求,但持续更新模型参数耗时长、投入成本大。RAG无需重新训练模型,能够经济高效地保持输出的时效性和准确性。
防止术语混淆,指引回答方向。同一个词汇在不同领域中可能具有不同的含义,而大模型在缺少指引时很可能会出现不同领域信息的混淆。RAG通过在我们指定的知识中做检索,能有效防止模型混淆,得到我们预期方向的回答。
拓展上下文长度。大模型对输入长度有限制,外部知识库信息无法全部输入。RAG技术帮助我们从中提取关键文段,相当于提升了输入文本的信息量,从而提高模型响应的质量。
更安全地利用自有知识库。若客户较为重视数据的隐私性,不想将自己的知识库上传到大模型云端进行微调,但同时也希望利用大模型的归纳能力对自己的知识库进行分析,RAG同样是较好的解决方案。
RAG技术能够满足使用者的各类需求,且能有效提升大模型的生成表现使其更贴合实际应用领域,是目前大语言模型复杂应用落地的最优解。
1.2 为什么必须要RAG?RAG vs 长上下文当前大模型发展的一大趋势就是超长的上下文窗口。从GPT-4的128k token长度,到Claude2的200k,再到Gemini 1.5 Pro的1M token,大模型在上下文长度方面的能力正以惊人的速度提升。当前微软最新提出的LongRoPE架构更是扩展至2048k上下文输入,并继续研究实现无限上下文窗口目标的技术。国内大模型如Kimi也实现了200万字长度的输入。
超长的上下文长度已足够把一本长篇小说的知识量同时输入大模型对话窗口供其分析,为什么还需要RAG呢?一个关键点在于,大模型的回答存在近期偏差(Recency Bias),即更偏向于关注最新输入的文字,且这个现象随着输入长度增加而愈发明显。
我们可以通过“大海捞针”(Needle In A Haystack, NIAH)实验一窥究竟。NIAH是将目标信息藏在一段与其毫无关联的长文本中,并观察大模型能否从中找出该目标信息。实验控制变量包括:目标信息放置在长文本中的深度,从文本开头到文本结尾对应0%至100%;长文本的上下文长度,也即一次性输入的Token总量。
以下是对GPT-4和Claude-2.1进行NIAH测试的结果。可以看出,GPT-4模型的测试表现在64k上下文长度之后开始减弱,在100k之后下降更为明显。有趣的是在文本较长时,若“针”被藏在靠近文本开头的位置,GPT-4非常容易忽略它;反而是放在文本后半段处,模型依旧能保持稳定地找到“针”的位置。
Claude-2.1模型整体测试效果更弱,但也呈现出相同的分布,即搜寻的准确率随着文本长度上升而下降,且对文本靠前部分的识别能力下降更快。
中文语料方面的能力,也有SuperCLUE等机构给出了标准化的测评集与基准。SuperCLUE-200K(SC-200K)是一个大海捞针的中文升级版测试。以下为各个表现较好的大模型的测试结果,从中也能大致看出随着输入token长度的上升,模型准确度得分都会有一定下降。
超长token输入除了无法被模型有效识别利用之外,还会导致每次较高的推理费用,这同样是应用端需要控制的。
RAG则可以显著“降本增效”。RAG对输入的文本进行有效筛选,通过降低输入token长度来控制成本,同时保证模型能够有效利用信息。可以说,若用户希望实现大模型在特定垂域的应用增强,RAG是目前最可行且经济高效的技术路径。
1.3 RAG的架构流程与优化路径
实际上,RAG也分为多种不同的架构,差别主要在于检索与生成的结合方式有所不同:
基于查询的RAG(Query-based RAG,提示增强)是比较易于实现且主流的方法,会先将检索结果与原始查询进行结合,再输入大模型生成;
基于隐式表示的RAG(Latent Representation-based RAG)则是将检索结果以编码形式放入生成模型中,在处理多模态数据方面有较大潜力;
基于对数似然的RAG(Logit-based RAG)则是在大模型的解码过程中通过对数融合检索信息,从概率分布的层面改变生成结果,更侧重于对生成模型的训练,适合序列生成任务;
推测式RAG(Speculative RAG)则是完全利用检索替代大模型生成,主要用于加快响应速度。
我们主要介绍Query-based RAG,这也是本文后续模型所采用的方法。通俗来说,Query-based RAG就是首先在我们提供的知识库中做检索,按照一定的检索算法筛选出和当前查询相关度高、或我们希望模型使用到的知识;同时我们设计好提示(Prompt)模板,将原始查询与检索结果放入模板增强输入文本的质量;最终将提升大模型生成回答的质量。
在Query-based RAG方式下,影响RAG效果、且具有可操作性的优化主要可以在以下方面展开:查询输入、知识库质量、检索技术、提示工程以及RAG流程增强。
查询输入增强。主要是对用户的原始输入进行预处理或扩充,包括剔除原始输入中不相关或包含歧义的内容,或是将查询内容扩充成伪文档(Query2doc、HyDE),来提供更丰富的输入信息。
检索器增强。检索直接决定了从知识库中提取信息的质量,这包括选择合适的Embedding模型(bge-large-zh-v1.5、gte-large-zh等)、检索算法(BM25、DPR、Hybrid Retrieval等),更细节的还涉及文本拆分规则、向量数据库选择等,整体决定了RAG的效率。
生成器增强。主要包括提示工程与大模型的微调,其中提示工程即对提示词模板做改进,包括Prompt Compression、Chain of Thought等。
输出提炼。对生成器返回结果进行改写,以满足下游任务的需求。
RAG流程增强。这主要是对RAG流程本身进行一定改进。比如自适应检索(Adaptive Retrieval)会基于规则或模型判断检索结果是否能带来增益,防止过度检索带来的资源浪费与回答混乱,具体包括FLARE、Self-RAG等方法;迭代RAG(Iterative RAG)则是通过循环检索与生成步骤来精炼结果。
除此之外,实际上知识库的质量也是提升点之一。知识库为最终生成提供重要的指引作用,譬如法律领域应用就需要保证知识库中为权威的法律相关文本,其质量直接决定检索结果的有效性。
综合来看,检索技术是决定最终RAG效果的关键因素。挑选一个适当的检索器并搭建检索流程是在RAG过程中首先需要解决的。后文,我们对检索过程中的细节做进一步介绍。
1.4 如何选择适当的检索算法?
检索首先要解决的问题是如何衡量文本之间的相关性,再解决大样本中检索速度的效率问题。一些现成的框架例如Langchain、Haystack等可以帮助我们快速实现基础的检索器,但要搭建一套完整的检索流程还需要对各类检索技术有详细的了解,才能挑选出合适的方案,因此这部分我们对检索的具体方法做详细介绍。
基本算法层面,检索器可以主要分为稀疏检索(Sparse Retrieval)和稠密检索(Dense Retrieval)两类,混合检索(Hybrid Retrieval)则是将稀疏检索与稠密检索进行融合的一种方法;提升检索速度方面,则会使用FAISS等向量数据库来做加速。
稀疏检索
稀疏检索核心是通过关键词在文档中出现的词频构成向量来表示文本,包括TF-IDF、BM25等算法。其优点在于计算简单高效,逻辑上相对更为直观;但缺点是稀疏检索无法衡量词义上的相似性,对同义词、词形变化或语气等信息不敏感。值得注意的是,稀疏检索并不是关键词比对法(直接使用关键词数量来做排序),这种方式存在过度工程化、返回文本量不稳定、匹配机制死板等问题,检索质量较差。
BM25算法是较好的稀疏检索方法。它采用关键词匹配的思路,通过计算查询中所有单词对文档的打分并求和得到文档整体的分数,由此筛选出高相关的文档。其中,单词对文档的打分由三个部分组成:单词的权重、单词与文档的相关性、单词与查询的相关性。
单词的权重最简单就是用IDF值:
其中N表示全部文档数,dfi为包含了单词qi的文档的个数。公式上来看,若包含单词qi的文档数越多,说明qi重要性越小或者区分度越低,导致权重IDF值越小。
随后计算单词与文档的相关性,BM25采用以下算法:
其中,tf_qi,D是单词qi在文档D中的词频,L_D是文档D的长度,L_avg是所有文档的平均长度。变量k1(k1>0)对相关性取值进行标准化,k1越大越倾向于使用原始词频信息,越小则整个相关性越接近于二元变量。b(0<b<1)用于确定信息量的范围,取值越大则文档长度对相关性的影响就越明显。
最后是单词和查询的相关性S(qi,Q):
类似地,tf_qi,Q是单词qi在查询Q中的词频,k3用于对相关性取值进行标准化。最终,基于BM25算法得到的文档在查询下的分数为:
稠密检索与Embedding模型选择
稠密检索基于Embedding模型将查询与文档转换为高维度的向量,并根据查询向量与文档向量之间的距离来表示相关性。Embedding模型通过训练深度学习模型(如BERT等)去捕捉文本的语义信息,能根据文本生成固定维度的浮点数向量,构成一个高维向量空间。在这个高维的向量空间中,意义相似的文本对应向量之间距离更近。稠密检索擅长识别同义词或相近语义的不同表达方式,更加灵活;但计算与存储成本更高,耗时更长,需要专门的算法来辅助实现高速检索。
同样有许多方法能对Embedding模型效果进行提升,包括DPR、ColBERT等。当然,也有很多开源的Embedding模型可供我们直接使用,可以通过MTEB排行榜查看当前各开源Embedding模型在不同任务上的得分及排名,并根据应用实际需求来挑选合适的模型。针对中文语境的评测任务,团队同样推出了C-MTEB基准,目前排名较高的模型包括xiaobu-embedding-v2,gte-Qwen2-7B-instruct等。
混合检索与重排序
基于关键词的稀疏检索与基于向量的稠密检索在召回文本质量上各有特点,想最大化利用二者的优势则需要按一定权重将多个检索器的结果融合起来,这种方法称为混合检索。针对混合检索得到的多组检索结果,我们还需要进行重排序(Rerank)来挑选出最终的检索结果。
重排序模型(Reranker)的类型主要分为两种:基于统计和基于深度学习的Reranker。基于统计的重排序一般会使用倒数排序融合(Reciprocal Rank Fusion, RRF)的方法,这个方法由Cormack(2009)等人提出。假定我们共生成了N个检索结果子集,每个检索子集内是按相关性从高到低排序的文档,那么针对文档的RRF得分可以表示为:
其中,ranki(d)表示文档d在检索子集Di中的排序值;k为常数值,论文中推荐设为60。该算法会累计求和每篇文档在其所在子集中的位置,并取倒数作为其权重分数。RRF不仅可以融合多个检索器对单个查询的结果,同样可以对多个查询的结果进行融合,具有很高的灵活性。
基于深度学习的方法则是各类基于BERT的Reranker模型。其思路与Embedding模型类似,同样是将文本向量化后做排序,差异在于Reranker模型将查询与文档合并后一同输入Transformers模型计算相似性得分,而Embedding模型是将查询与文档分开向量化后再计算相似性。相比于Embedding模型,Reranker模型信息损失更少,但会消耗更长的时间,因此适用于做精排。
流程上,Embedding模型更类似与粗排,首先将检索文档的范围缩小;Reranker模型更类似精排,提升Top K整体的召回率。
向量数据库
向量数据库我们着重介绍FAISS。除了FAISS外也有Chroma、Milvus和Weaviate等免费的开源向量数据库以及Pgvector等商用向量数据库,而FAISS的优势在于能够基于GPU进行计算加速,高效处理大规模数据,因此我们更推荐FAISS。
FAISS是Facebook AI研究院开发的一种高效的相似性搜索和聚类的库,提供了一系列针对大规模向量匹配问题的高速计算工具,支持在高维空间中进行相似性搜索。它可以将我们通过Embedding模型得到的向量库封装成一个索引(Index)数据库,通过索引来加速我们寻找Top K最相似向量的过程。
FAISS支持的向量相似度度量方法包括L2、内积、余弦相似度等多种方法,具体的检索加速算法有以下可选项:
Flat(暴力检索):直接计算向量的距离来做排序。召回率最高,最准确,但速度慢,内存占用大。
IVFx Flat(倒排暴力检索):将向量库聚成x个类,将Flat范围限定在检索向量附近几个中心Index对应的集合中。此方法相对Flat算法在效率上有所提升,但速度依旧偏慢。
PQx(乘积量化):将向量的维度切成x段,每小段向量分别进行检索并取结果的交集,得出最后的Top K。此方法速度更快,占用内存更小,但召回率相对Flat明显下降,适用于内存资源稀缺、对检索速度有高要求且对准确度要求不高的应用场景。
HNSWx(图检索):每个向量最多连接x个最相似的其他向量,由此构成向量之间的图网络。图检索在大样本下依旧保持检索速度极快、召回率高的优势,但索引的构建速度极慢、占用内存大是该算法的弱点,且不支持从索引中删除数据。
也有以上几种算法的结合,例如IVFx PQy(倒排乘积量化),会将向量切成y段后,每段分别聚为x个类再检索,若没有极端的应用需求,这是目前最推荐的检索加速方法。其他也包括LSH(局部哈希敏感)、PCA降维等方法,此处不做赘述。具体使用哪种算法还需要我们根据应用需求来进行选择。
以上就是RAG相关内容的介绍。实际上RAG是一系列检索增强方式的总称,任何基于知识库检索思路来增强生成效果的方法都可以称为RAG。
二、产业链与概念股梳理全流程升级
国金证券金融工程团队此前发布了《Beta猎手系列之七:追上投资热点——基于LLM的产业链图谱智能化生成》,并在报告中首次推出了“产业链Agent”模型,旨在梳理用户给定的投资概念或产品的上下游图谱,同时从图谱中每个节点出发梳理出相关的投资标的。
我们为“产业链Agent”模型提供了相关新闻搜索的能力,简单基于向量距离的概念来搜索相关新闻,提升其梳理专业领域产业链的表现,这便是使用了简单的RAG方法。
本文推出“产业链Agent”模型v2.0版本。在新的版本中,我们分别从知识库质量、RAG方式以及流程上对模型做了全面的升级,此外也针对产业链这一独特的对象做了相应调整,通过获取质量更高的文本来提升图谱结构合理性以及股票池的准确度。
2.1 多源知识库搭建
我们融合了新闻、研报、公司公告等多个来源的信息,搭建了完善的知识库。知识库的丰富度决定了最终检索文本的质量,我们希望尽可能地扩充知识库体量,因此需要处理多种数据源并进行整合。
数据源之间的差异明显,在数据量、信息丰富度、可信度、时效性等方面各有不同。譬如新闻数据量大、时效性强,但是有部分新闻信息含量较低(市场行情复盘类新闻、上市公司资本操作等),且存在重复的新闻,适合检索出更多文档去重后做合并;研报文本时效性相对低一些,但文本质量与可信度更高,适合精选出高质量的文段;年报、调研纪要、答投资者问等文本又有其不同的特征。同一类信息在生成产业链图谱与梳理概念股时又有不同的处理方式。
整体的处理流程如下所示:
2.2 混合检索与时间加权
检索器方面,我们采用了混合检索的方法。在中文的金融文本处理方面,我们认为单独的稀疏检索或稠密检索都缺乏可靠性。中文领域存在较多的一词多义现象,且同一个专业名词会出现在不同行业范畴内,代表的含义也不同,仅根据关键词词频检索容易导致检索的领域出现偏移;向量检索则对已有向量数据库的分布较敏感,若查询向量与知识库现有向量数据的距离都较大,也容易检索出不相关结果。一般来说,稀疏检索与稠密检索的召回数据是可以互补的,混合检索后对结果进行重排序,能够综合两种检索方法的长处,获得高质量的文本。
此外,我们认为时效性应当是金融领域信息的关键特征。金融信息追求及时,这意味着不仅新的信息需要及时加入知识库,对旧信息的关注度同时也应当减少,或者至少对旧信息的检索召回阈值应当变高。因此,时间较久远的文档需要满足更高的相关性要求才能够输出。为了防止过度工程化,我们简单使用半衰期加权的方式给各个时间范围指定检索数量,再将各个时间范围的检索结果合并输出。
以下是加权的示意图。实际情况中,可以使用更详细的时间颗粒度,提升检索结果中当前信息的占比。
其中,
表示第个时间分组检索数量占总检索数量的比重,H为半衰期长度。
2.3 文本处理与大模型选择
直接检索得到的文本还存在篇幅较长、保留无关信息的问题,需要对其进行再次的浓缩,我们使用大语言模型来实现这一点。此外,新闻或答投资者问的文本中会出现“公司声明与某概念无关”的情况,在概念股梳理过程中也需要添加流程识别这种情况,防止对概念股的准确度造成影响。诸如此类文本处理的细节还有许多,此处不一一赘述。
2.4 模型效果提升——产业链梳理
以上改进从理论上提升了模型梳理产业链以及概念股的能力,而从实际梳理效果上来看也有明显提升。
在上一篇报告中,我们以“华为产业链”为对象进行了案例展示。当时针对这类非产品的概念,我们还需要首先拆分到相关度最高的产品或业务上,再根据这些产品梳理出整个产业链,即按照“概念-产品/业务-产业链”的顺序进行梳理。而在对新版本模型进行大量实验后,我们发现当RAG能够检索出更高质量的文本时,从概念到产品的拆分步骤并非必要。从原理上来讲,提供的信息更详细后,大模型自身就能基于文本分析出整个概念中重要的产品分支,并不需要额外的步骤辅助。
以下是我们使用新版模型我们梳理的“华为产业链”图谱结果:
相比于上一版本我们将华为产业链拆分成智能手机、5G基站设备和云服务三个模块,“产业链Agent” 模型v2.0的拆分结果更加详细,首先将华为产业拆分为数字终端硬件生态、数据业务、汽车电子和通信设备等,再梳理其上游节点,从结构上来说更加完整,与人工梳理的质量更加接近。我们同样展示部分其他产业链梳理的结果。
2.5 模型效果提升——概念股梳理
我们首先简单回顾一下概念股梳理的思路。模型会从产业链图谱的节点出发,同样使用RAG的方法检索出高相关的新闻或研报文本;针对检索结果,我们再从中识别出具体的标的名称,以此完成概念股的梳理。
“产业链Agent”v2.0模型能生成更完善的产业链图谱结果,也因此能梳理出更详细的概念股结果。同时,我们也识别到新闻中可能会出现以下情况:新闻中提及了多个概念以及相应股票,但概念之间并无实际关联(多见于行情复盘类新闻);或是上市公司声明其业务不涉及某某概念。对于以上或类似情况,我们也通过大语言模型进行剔除,以确保个股与概念之间的关联是确实存在的,进一步提升结果的可靠性。
以“华为产业链”为例,以下是我们新生成的概念股结果:
我们也基于“产业链Agent”v2.0模型生成的概念股池,构造了等权指数,并与Wind上已有的概念进行大致对比。以下是AI手机(884895.WI)、人形机器人(8841699.WI)、合成生物(8841747.WI)与低空经济指数(8841750.WI)净值与我们构造的概念指数对比:
从2024年内的走势上来看,我们构造的概念股等权指数与Wind构造的概念股指数基本保持相同,即能够捕捉到概念带来的行情。
三、概念领涨股特征识别与领涨组合构造
本部分,我们从初步得到的概念股范围中找到可能率先上涨的领涨股。当前概念股梳理的思路是从新闻、研报和公司公告等文本中识别提及当前投资热点或产业链节点的段落,从该段落中寻找相关的个股。这种方式的优势在于能尽可能多地捕捉相关概念股,但也存在概念股范围过大,定位不够精准的问题。投资者在把握热点行情时也不可能持有全部相关概念股,因此有必要对股票池做进一步筛选,把握热点的短期强上涨趋势。
3.1 热点行情复盘
我们以AI手机、人形机器人、合成生物学与低空经济四个概念为例进行展示。通过对概念相关新闻与行情的复盘,我们设定四个概念的启动日期分别如下:
我们以Wind全A指数(881001.WI)为基准,以下为各个概念指数与基准自概念启动时间点之后的累计超额收益:
从走势上来看,以上热点在我们梳理的行情启动时间点之后均有超额上涨行情。为了防止信息泄露,我们在梳理以下案例的概念股时仅使用了相应热点启动时间之前的文本信息。
3.2 领涨股具备什么特征?
热点概念行情启动时存在一定的扩散现象,部分概念股首先上涨,随后市场热度向其他个股传导带动整个概念的上涨。其中率先开始上涨的领涨股一般与概念相关度最高,也是上涨动力最强劲的股票。
我们通过量价指标去筛选概念领涨股。在热点题材刚引起市场关注的初期,投资者们对概念及其产业链的研究并不充分,或者新的增量信息还未被市场完全消化,此时行情更容易呈现情绪面驱动的特征,这对于使用量价特征做筛选较为有利。我们试图从中找出具有领涨特征的个股,构造概念领涨组合,更好捕捉热点的超额收益。经过检验,我们发现领涨股可能具有以下特征:
领涨股具有一定动量效应
我们在各概念成分股中,选取过去20日涨跌幅最高的前10只个股构成组合,观察该组合相对概念指数的累计超额收益表现。下图中横轴代表行情启动日期以来的天数。
从效果上来看,20日动量在AI手机、人形机器人与低空经济等板块上有较好的筛选效果,组合收益率能在五日内有较稳定的超额上涨;但在合成生物学概念上表现一般。
我们认为热点行情中可能存在一定的动量效应。实际上,除了完全突发性事件带来的热点以外,推动行情启动的政策或新闻更类似于一个“导火索”。绝大多数概念本身已有一定关注度,其中部分个股也可能在行情到来之前先走出独立行情,助推整个概念的上涨;或者市场对概念的看法从分歧逐步转为共识,而部分确定性较高的个股在博弈过程中提前上涨;此外也可能有非公开信息提前泄露,个股出现“抢跑”等原因。
流动性较低更容易成为领涨股
我们采用“非流动性”衡量个股的流动性特征。非流动的度量方法是:
其中r_i,d代表个股i在d日的涨跌幅,volume_i,d代表个股i在d日的成交额。非流动性值越高,表明成交量变化对个股的涨跌幅影响越明显。我们使用过去20日数据计算非流动性指标,并选取数值最高的前10只个股构成组合,观察该组合相对概念指数的累计超额收益表现。
从效果上来看,20日非流动性指标在AI手机概念上效果一般,但在其他板块上都有较好的效果。理论上来说,当行情来临时流动性低的个股更容易受到资金推动出现上涨。
3.3 领涨股组合增强方案
我们将个股的20日涨跌幅与20日非流动性因子等权合成为领涨因子,并按照领涨因子对市值大于50亿的概念股进行排序。考虑到直接按低流动性筛选很容易选中小微盘股票,这类个股更容易出现单纯的“题材炒作”在经营业务层面可能并没有实际关系。因此出于安全性的考虑,我们在市值大于50亿的概念成分股内进行领涨股的筛选。由于缩小了筛选范围,我们仅选排名前5的个股构成组合,观察该组合的超额表现。
添加市值筛选约束后,领涨因子依旧能在多个概念行情中有效,但在AI手机概念上的效果一般。
对此,我们引入“尖峰右偏”特征作为第二层精筛。“尖峰右偏”包含了峰度(Kurtosis)和偏度(Skewness)两个衡量维度:“尖峰”特征表明该个股历史上出现极端收益的概率更大,而“右偏”则说明该个股出现大幅上涨的概率更大。具体计算时,我们基于过去240日的收益率来刻画个股的峰度与偏度,并将两个因子等权合成。“尖峰右偏”说明该个股过去一年内出现较多次单日大幅上涨行情,具有较大的“弹性”,也更可能在相关行情中被投资者首先关注到。值得注意的是,尖峰右偏特征只能说明个股历史上出现极端上涨的概率更大,但在当前行情中是否能带来超额收益还需要结合动量等指标才能说明。
我们最终领涨组合的方案为:
四、总结
本篇报告主要完成了两个任务:产业链与概念股梳理的效果提升,以及领涨股的识别。前者我们主要通过搭建了一套更完善的RAG流程来实现优化,包括搭建更完善的知识库、选择更合适的检索器等,并针对产业链梳理任务做了流程上的创新。后者则是在前者梳理概念股的基础上,我们通过量价指标分层筛选,帮助投资者找到热点中的领涨股,更准确地把握行情。此外,我们也详细介绍了RAG技术相关内容,帮助读者快速了解RAG的概念、优势以及实现方法。
当前,我们的热点投资系列框架已完成热点的产业链图谱生成、基于产业链节点的概念股梳理、以及从概念股中精选出领涨股这一系列功能,我们将在当前框架的基础上继续拓展,将其完善成一整套的热点投资工具包,帮助投资者更好地把握热点行情。当然,在已完成的功能中依旧有可以提升或完善的部分,譬如对个股与整个概念相关性的衡量、产业链景气度的构造等等;我们也可以将当前梳理产业链的方法延伸出去,实现对任意事件的解读模型……大模型已经打开了利用金融领域另类数据的想象空间。
我们不应当再局限于使用大模型进行简单的情感打分,而是要发挥它在文本处理、逻辑推理与生成方面的独特优势,去挖掘大模型在金融领域的应用潜力,通过“卷应用”来实现更多此前难以想象能量化完成的任务,这才能更好地实现AI技术的价值。
参考文献
[1] Cormack, G. V., Clarke, C. L., & Buettcher, S. (2009, July). Reciprocal Rank Fusion outperforms Condorcet and individual Rank Learning Methods. In Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval (pp. 758-759).》
[2] Zhao, P., Zhang, H., Yu, Q., Wang, Z., Geng, Y., Fu, F., ... & Cui, B. (2024). Retrieval-Augmented Generation for AI-Generated Content:A Survey. arXiv preprint arXiv:2402.19473.
风险提示
1、大语言模型输出结果具有一定随机性的风险;
2、模型迭代升级、新功能开发可能会导致结论不同的风险;
3、人工智能模型得出的结论仅供参考,可能出现错误答案的风险。
往期报告
主动量化系列
Alpha掘金系列
Beta猎手系列
智能化选基系列
量化漫谈系列
量化掘基系列
CTA金点子系列
年度投资策略
+
报告信息
证券研究报告:《Beta猎手系列之十二:RAG-ChatGPT提前布局热点概念领涨股》
对外发布时间:2024年8月16日
报告发布机构:国金证券股份有限公司
证券分析师:高智威
SAC执业编号:S1130522110003
邮箱:gaozhiw@gjzq.com.cn
联系人:胡正阳
邮箱:huzhengyang1@gjzq.com.cn