+
目录
一、ChatGPT o3模型最新发布,推理与编程能力大幅提升
二、当前大模型推理能力有所不足,ChatGPT o3值得期待
1.大模型易错推理题表现比较
2.大模型研报文本推理能力
三、ETF轮动策略跟踪
1.ETF轮动因子及策略近期表现
2.本周建议关注ETF
四、高频因子超额收益概览
五、各类高频因子近期表现跟踪
1. 高频价格区间因子
2.高频量价背离因子
3. 遗憾规避因子
4. 斜率凸性因子
六、基于基本面因子与高频因子构建的中证1000指数增强策略表现
附录一:推理大模型研报阅读效果
附录二:高频“金”组合中证1000指数增强策略本周持仓列表
附录三:高频&基本面共振组合中证1000指数增强策略本周持仓列表
风险提示
摘要
■ 投资逻辑
ChatGPT o3模型最新发布,推理与编程能力大幅提升
OpenAI的ChatGPT o3模型在SweepBench Verified基准测试中实现了71.7%的准确率,较前代o1模型提高了20%,并在Codeforces编程竞赛中以2727分的高分显著超过o1的1891分,表现出在推理和编程能力上的显著进步。此外,o3模型在ARC-AGI基准测试中得分高达87.5%,是o1在相同条件下表现的三倍,显示了其在解决高级问题和推动人工通用智能(AGI)发展方面的潜力。
当前大模型推理能力有所不足,ChatGPT o3值得期待
本文评测了多个知名大型语言模型的推理能力,发现尽管在经典推理题中表现良好,这些模型在解决特定易错问题时却常犯错误,尤其是在数学和语言推理上的表现参差不齐。特别地,OpenAI的o1模型在推理测试中表现最为突出,而国产模型与其他国外大模型间的性能差距不大。此外,评测还涉及了模型在处理研报复杂文本的能力,结果显示模型在理解细微语言差异和技术问题上仍面临挑战,但Qwen QwQ模型相较于o1在区分技术壁垒和政策影响问题上显示了更好的判断力。ChatGPT o3的发布有望带来新的生产力突破。
ETF轮动因子跟踪
我们对前期使用GBDT+NN机器学习因子构建的ETF轮动策略进行跟踪测试,发现因子在样本外表现出色:上周IC值达-8.59%,多头超额收益率为0.01%。策略的年化超额收益率为12.13%,信息比率为0.69 ,超额最大回撤为17.31%,上周超额收益率-0.52%,本月以来超额收益率1.60%,今年以来超额收益率7.17%,近期表现优异。
高频因子跟踪
我们对前期挖掘的高频选股因子进行跟踪测试,发现因子在样本外整体表现出色。就上周表现来看,价格区间因子多头超额收益率0.66%,价量背离因子0.58%,遗憾规避因子-0.15%,斜率凸性因子-1.58%。本月以来,价格区间因子多头超额收益率为2.80%,价量背离因子-0.38%,遗憾规避因子-1.42%,斜率凸性因子-1.65%。今年以来高频因子表现整体都比较优秀,价格区间因子多头超额收益率8.01%,价量背离因子2.96%,遗憾规避因子8.95%。斜率凸性因子表现欠佳,多头超额收益率-3.32%。
其中价格区间因子衡量股票在日内不同价格区间成交的活跃程度,能体现出投资者对于股票未来走势的预期。该因子展现出了较强的预测效果,今年以来表现比较稳定。价量背离因子主要衡量股票价格与成交量的相关性,一般而言相关性越低,未来上涨的可能性越高。但该因子近几年表现一直不太稳定,多空净值曲线趋近走平,不过今年超额收益处于历史较高水平。遗憾规避因子通过考察股票当天被投资者卖出后反弹的比例和程度,展现了较好的预测效果。该因子样本外超额收益稳定,表明A股投资者的遗憾规避情绪依然会显著影响股价的预期收益。
我们将三类高频因子首先等权合成后构建出了高频“金”组合中证1000指数增强策略,该策略年化超额收益率10.33%,超额最大回撤为6.04%。上周录得0.56%的超额收益,本月以来超额收益为1.50%,今年以来超额收益为5.94%。
为考虑进一步增强策略的业绩表现,我们将高频因子与三个比较有效的基本面因子进行等权合成构建出了高频&基本面共振组合中证1000指数增强策略,该策略在样本外超额收益稳定。上周录得1.17%的超额收益,本月以来超额收益为1.75%,今年以来超额收益率为7.33%。截止到上周,该策略的年化超额收益率为14.77%,超额最大回撤为4.52%。
正文
一、ChatGPT o3模型最新发布,推理与编程能力大幅提升
OpenAI最新发布的ChatGPT o3是一个在人工智能领域具有重要意义的推理模型,它是o1模型的迭代版本。OpenAI跳过了“o2”的命名,以避免与英国电信运营商O2产生版权或商标冲突,直接采用了“o3”。o3系列包含两款重磅模型,即OpenAI o3(旗舰版本)和OpenAI o3 mini(轻量级模型)。o3旗舰版本具备强大的性能表现,而o3 mini更快、更便宜,主打性价比。
o3模型在性能上实现了大跃迁。根据OpenAI发布会内容,在SweepBench Verified基准测试中,o3达到了约71.7%的准确率,比o1模型高出20%。在编码领域,o3在编程竞赛平台Codeforces上的得分可达2727,远超o1的1891分。在ARC-AGI基准测试中,o3得分高达87.5%(在高计算设置下),是o1在低设置下性能的三倍,显示了模型在高级问题解决和推理方面的进步,这是实现人工通用智能(AGI)的关键要求之一。o3在推理和编程能力上都有显著提升。在解决数学问题方面,o3在Frontier Math测试中的表现超过了之前的高分,解决了25.2%的问题,而之前的高分约为2%。o3-mini预计将在1月底对外开放,而完整的o3模型将在之后发布。
技术层面,o3引入了“deliberative alignment”新技术,这是一种防止有害输出的方法,通过将人类编写的安全指南嵌入到训练数据集中,直接教导推理型大型语言模型(LLM)文本,并在回答前让它们明确地推理这些规范。o3模型采用了测试时扩展(Test-time Scaling)的方法,这意味着在用户输入提示后,模型会使用更多的计算资源来进行推理。这种方法可能涉及到使用更多的计算机芯片、运行更强大的推理芯片,或者让芯片运行更长时间来产生答案。同时,o3模型通过自我事实检查来减少错误和幻觉,尽管它并不完美,但推理组件可以减少错误
不过目前,O3尚未向普通用户开放,OpenAI计划先进行外部安全测试,正式发布预计要等到明年1月。然而,OpenAI在编程和数学领域的最新突破,再次推动了AI推理能力的发展,使其更加接近人类水平。在此,我们希望探讨一下,目前可用的大模型在推理能力方面已达到什么程度。
二、当前大模型推理能力有所不足,ChatGPT o3值得期待
OpenAI的O1模型是目前普通研究者能够获取到的知名度最高的推理大模型,而O1-mini则是其性价比更高的版本。GPT-4是OpenAI推出的最新通用大模型,备受关注。Google发布的实验性推理模型Gemini-2.0,以强大的推理能力著称,能够在响应时展示模型的思考过程,类似于OpenAI的O1模型,并支持深度可视化展示推理过程;其前代版本为Gemini-1.5。除此之外,中国科技公司研发的大模型如DeepSeek、Qwen Qwen、Kimi和豆包等,也具备一定的推理能力,显示了中国在大模型研发领域的进步与潜力。
1. 大模型易错推理题表现比较
这些大模型在一些经典推理题上表现优秀,这可能得益于这些题目出现在它们的语料库中。因此,本文特别挑选了6道易错的推理题,旨在测试它们的真实推理能力。
在对各个推理大模型进行这些问题测试时,我们发现它们确实容易犯错。
可以看出,在这6道易错题的测试中,o1模型依然是目前市面上表现最优秀的推理模型,但仍存在一些简单问题不能很好解决,因此o3模型值得期待。
同时,我们还发现了一些有趣的现象:Gemini-1.5 的整体表现优于 Gemini-2.0,这可能表明模型在数据集上的过拟合会削弱其对某些简单易错题的推理能力;DeepSeek在数学相关推理题中表现较为出色,6道题中答对了4道,但在语言类推理上相对较弱;此外,除了o1模型表现最为突出外,国产大模型与其他国外大模型的表现差距并不明显。
在此我们展示部分模型部分问题的回答结果。
2. 大模型研报文本推理能力
在投资研究领域,大模型的一个重要应用场景是处理海量信息和文本,能够有效地提炼和总结关键信息,分析作者的观点,并快速定位并回答投资者关注的问题。因此,我们设计了基于研报阅读与问答场景的三个问题,使用相同的提示词分别对所评测的开源大模型进行提问,并最终评估各模型在这些任务中的表现。
考虑到目前大模型在面对复杂问题时的有限能力,确保模型的思考角度与我们预期一致,我们对三个问题均使用One-Shot或Few-Shot的方式设计提示词以提升模型回答准确度。此外,为确保使模型回答具有一定区分度,同时为保证回答的分布均衡性,我们共搜集了3篇国金证券研究所发布的个股研报摘要,研报文本内容在上述方面具有一定差异性,从而进行评估对比。
由上表可以看出,3篇研报选自3个不同行业,涉及不同的研究框架和投资逻辑。我们将大模型对3个问题的回答整理如下。我们将明显错误的回答标红。
可以看出,由于研报文本天然的乐观倾向,即便我们在提示词中已经要求模型对细微用语差异进行判别,但模型依然难以准确区分研报作者的看好程度,绝大部分模型所给出评分都较相近。其中,豆包给出的评分相对较低。
此外,我们统计各模型对于技术水平和行业政策影响问题的判断结果。可以发现在技术壁垒的界定上,o1-mini和Gemini-1.5相对保守,而o1、GPT-4与Kimi比较激进。而在政策影响问题上,各类模型回答准确率均尚可。
总体而言,Qwen QwQ在打分、技术壁垒和政策影响问题的判断上,相较于o1展现了更强的区分能力。目前,各大模型在研报阅读中的推理能力差距尚不明显,因此,ChatGPT o3的发布有望带来新的生产力突破。
三、ETF轮动策略跟踪
1. ETF轮动因子及策略近期表现
在前期报告《智能化选基系列之七:基于AI预测中的个股Beta信息构建ETF轮动策略》中,我们使用在选股方面效果较好的GBDT+NN机器学习因子,通过个股映射到指数,再根据一定的筛选条件选择对应ETF的方式构建了周度调仓的ETF轮动策略,策略在样本外表现整体表现良好。
上周,因子表现良好,IC值为-8.59%,多头超额收益率为0.01%。
若考虑双边千二的手续费,以沪深300指数作为比较基准,回测期为2015年2月至今,策略以每周第一个交易日的收盘价买入进行周频调仓,每期根据ETF轮动因子的十分组多头组作为拟持仓ETF,并叠加换手率缓冲的方式以降低高换手带来的策略影响。策略表现如下:
策略年化超额收益率为12.13%,信息比率0.69,超额最大回撤为17.31%。
策略上周超额收益率-0.52%,本月以来超额收益率1.60%,今年以来超额收益率7.17%,近期表现优异。
2. 本周建议关注ETF
根据最新的策略信号,本周ETF持仓列表如下:
四、高频因子超额收益概览
过去一周,各类高频因子多头组合在中证1000指数成分股中的表现稳定。其中,价格区间类因子多空收益率0.86%,多头超额收益率0.66%。量价背离因子多空收益率0.32%,多头超额收益率0.58%。遗憾规避因子多空收益率为-0.28%,多头超额收益率-0.15%。以下为各大类高频因子的周度表现:
五、各类高频因子近期表现跟踪
1. 高频价格区间因子
在前期研究中,我们从高频数据的角度探究了市场的日内微观结构。利用三秒的快照数据,发现:
高价格区间成交笔数与成交量因子与股票未来收益呈现显著的负相关性,即股票在日内高价格区间投资行为聚集程度与成交活跃度越低,未来上涨可能性越大。低价格区间平均每笔成交量因子与股票未来收益呈现显著的正相关性,即低价格区间的平均每笔成交量越大,大资金活跃程度越高,股票未来上涨可能性越大。
我们发现高价格80%区间成交量因子(VH80TAW)、高价格80%区间成交笔数因子(MIH80TAW)和低价格10%区间每笔成交量因子(VPML10TAW)在周频的调仓频率上表现较好。三个细分因子的近期表现如下:
我们以25%、25%和50%的权重对三个因子进行合成,对合成后因子进行行业市值中性化,得到的价格区间因子净值曲线如下:
可以看出,因子在样本外表现出色,超额净值曲线稳定向上,近期表现稳定。因子在上周、本月以来和今年以来的超额收益表现如下。
2. 高频量价背离因子
在前期深度报告《Alpha掘金系列之二:基于高频快照数据的量价背离选股因子》中,我们发现,当量价出现背离时,无论当前股价处在上升还是下降通道,未来上涨的可能性均较高;同理,当量价趋同时,股价未来下跌的可能性较高。
我们利用高频快照数据对价格和成交量的相关关系进行衡量,分别用快照成交价和快照收益率与快照成交量、成交笔数和每笔成交量计算。发现在周频的调仓频率上,价格与成交笔数的相关性(CorrPM)和价格与成交量的相关性(CorrPV)表现较好,两个细分因子的近期表现如下:
我们对上述两个因子进行等权合成,对合成后因子进行行业市值中性化,得到的量价背离因子净值曲线如下:
可以看出,因子自2020年以来,收益呈现出下降的趋势,也和众多机构开始越来越多使用高频因子有关。因子在样本外整体表现也比较平淡,但今年以来表现良好,能相对稳定获取正的超额收益。因子在上周、本月以来和今年以来的超额收益表现如下。
3 遗憾规避因子
在前期深度报告《Alpha掘金系列之四:基于逐笔成交数据的遗憾规避因子》中,我们利用行为金融学中的遗憾规避理论发现,利用投资者的遗憾规避情绪可以构造出有效的选股因子。如某只股票买入浮亏占比较高或买入浮亏程度较大时,股票的预期收益会更高;卖出后股价反弹的占比越高或反弹程度越大时,股票的预期收益会更低。
我们利用逐笔成交数据区分了每笔交易的主动买卖方向,发现在加入小单和尾盘的限制后,因子的表现有进一步的提升。在周频上,卖出反弹占比因子(LCVOLESW)和卖出反弹偏离因子(LCPESW)表现较好,两个细分因子的近期表现如下:
我们对上述两个因子进行等权合成,对合成后因子进行行业市值中性化,得到的遗憾规避因子净值曲线如下:
可以看出,因子收益表现整体平稳向上,在样本外也体现出较强的超额收益水平。因子在上周、本月以来和今年以来的超额收益表现如下,今年以来表现良好,已取得8.95%的多头超额收益。
4. 斜率凸性因子
股票作为二级市场上被广泛交易的标的,其价格与供需量的变化受到供需弹性的规律影响。而高频快照数据中的限价订单簿所独有的委托量和委托价信息,为我们提供了绝佳的研究数据来源。我们首先将委托量数据按照其档位进行累加,用委托价和累计委托量计算出买卖双方的订单簿斜率。发现日频斜率因子基本符合我们的一般认知:即买方斜率越大,股票的需求弹性越小,买方投资者对于股票的价格敏感程度较低,则股票有更高的预期收益。对于卖方而言,斜率越小则股票的供给弹性越大,即减少相同的价格会有较大程度的委托量降低,表明卖方不愿轻易降价卖出,同样对应到股票更高的预期收益。
我们将按照订单所在档位区分为高档位投资者斜率因子和低档位斜率因子,并根据两者的反向关系构建出斜率凸性因子。最后提取出低档斜率因子(Slope_abl)和高档位卖方凸性因子(Slope_alh)进行合成。发现在周频的调仓频率上,两个细分因子的近期表现出现波动,具体表现如下:
我们对上述两个因子进行等权合成,对合成后因子进行行业市值中性化,得到的斜率凸性因子净值曲线如下:
可以看出,因子自2016年以来,收益保持平稳的趋势,因子在样本外整体表现也比较平淡。因子在上周、本月以来和今年以来的超额收益表现如下。
六、基于基本面因子与高频因子构建的中证1000指数增强策略表现、各类高频因子近期表现跟踪
为考虑高频因子的实际选股表现,我们将上述三类高频因子等权合成构建了高频“金”组合中证1000指数增强策略。策略调仓频率为周度,手续费率为单边千分之二,基准为中证1000指数。为降低调仓手续费对策略的影响,我们加入换手率缓冲的机制降低调仓成本。策略的净值曲线及主要业绩指标如下:
可以看出,指数增强策略在样本外同样表现出色,有着较强的超额收益水平。策略在上周、本月以来和今年以来的超额收益表现如下。近几月以来出现阶段性调整,上周录得0.56%的超额收益,本月以来超额收益为1.50%,今年以来超额收益为5.94%。
一般而言,高频因子与传统基本面因子的相关性较低,将表现较好的基本面因子和高频因子进行结合能够有效提升多因子投资组合的表现,为此我们构建了基于多因子的高频&基本面共振组合中证1000指数增强策略。其中基本面因子包括:一致预期、成长和技术因子,高频因子为本篇报告上述的三类因子。策略的净值曲线及主要业绩指标如下:
可以看出,加入基本面因子后的指数增强策略的各项业绩指标均有一定程度提升。且在样本外表现稳定,有着较强的超额收益水平。策略在上周、本月以来和今年以来的超额收益表现如下。近期表现整体较好,上周录得1.17%的超额收益,本月以来超额收益为1.75%,今年以来超额收益为7.33%。
附录一:推理大模型研报阅读效果
附录二:高频“金”组合中证1000指数增强策略本周持仓列表. 28
附录三:高频&基本面共振组合中证1000指数增强策略本周持仓列表. 29
风险提示
1、 以上结果通过历史数据统计、建模和测算完成,历史规律未来可能存在失效的风险。
2、 各类事件因子可能会受到政策、市场环境发生变化的影响,出现阶段性失效的风险。
3、 市场可能出现超出模型预期的变化,导致策略出现超出模型估计的波动和回撤。
往期报告
量化观市系列
《量化观市:海外流动性宽松与政策预期推动,做多窗口持续》
主动量化系列
Alpha掘金系列
Beta猎手系列
1.《Beta猎手系列之六:基于宏观量价信号叠加的微盘股茅指数择时轮动策略》
2.《Beta猎手系列之五:Beta猎手系列之五:基于机构调研热度和广度视角的行业配置策略》
3.《Beta猎手系列之四:如何利用ChatGPT解析卖方策略观点并构建行业轮动策略?》
4.《Beta猎手系列之三:行业超预期的全方位识别与轮动策略》
5.《Beta猎手系列之二:熵池模型:如何将纯主动观点纳入量化配置模型》
6.《Beta猎手系列:基于动态宏观事件因子的股债轮动策略》
智能化选基系列
量化漫谈系列
量化掘基系列
CTA金点子系列
年度投资策略
+
报告信息
证券研究报告:《高频因子跟踪:ChatGPT o3模型重磅发布,推理大模型时代来临》
对外发布时间:2024年12月24日
报告发布机构:国金证券股份有限公司
证券分析师:高智威
SAC执业编号:S1130522110003
邮箱:gaozhiw@gjzq.com.cn
证券分析师:王小康
SAC执业编号:S1130523110004
邮箱:wangxiaokang@gjzq.com.cn
点击下方阅读原文,获取更多最新资讯