系列三:量化选股的机器学习策略入门

文摘   其他   2022-06-26 22:37   上海  

0 前

这篇文章是与上一篇《传统选股方法的基础流程》是遥相呼应的,二者也并非对立的关系,相反地,在量化选股流程中我们可以看到各种形形色色的因子,它既包括基本面因子也有着技术因子,因此我们不能割裂地去看待二者的联系。

这篇文章的内容很大部分来自于各位大佬在知乎的回答,更多的细节可以移至我的知乎号动态:https://www.zhihu.com/people/superman01-33。

主目录子目录
1 一个简单的例子

1.1 可改进的地方

1.2 应避免的地方
2 多因子模型

2.1 有效市场假说、金融行为理论

2.2 CAPM资本资产定价模型

2.3 Fama-French三因子模型

2.4 Barra风险模型

2.5 哈里马科维茨风险模型
3 因子的介绍

3.1 产生方式

3.2 几种分类

3.3 形式解读

3.4 因子有效性检验
4 策略的分类
5 回测的评估

5.1 回测框架

5.2 评估指标

5.3 交易成本
6 模拟交易、实盘交易

1 一个简单的例子

下图截取自华泰证券的《人工智能选股之广义线性模型》研报,https://mp.weixin.qq.com/s/jm1RyK28xd1eadt2oc_Htg 。

1.1 可改进的地方
文章链接结论
《人工智能选股之数据标注方法实证》https://mp.weixin.qq.com/s/TYWE0jyzNs83IxJyzkn2yw使用夏普比率作为标签、使用信息比率作为标签以及使用 Calmar 比率作为标签的方法,回测表现整体符合预期。
《人工智能选股之特征选择》https://mp.weixin.qq.com/s/p4VutHWsqKMk_65YPCWouw随着入选特征数的增加,模型预测效果先上升后下降。
《再论时序交叉验证对抗过拟合》https://mp.weixin.qq.com/s/2axJ13V-M1gBJHjczb-uRw分组时序交叉验证确保验证集于时序上严格在训练集后,能提升模型表现。
《人工智能选股之损失函数的改进》https://mp.weixin.qq.com/s/22rJ0xRGhGlIlSR3U0feLA加权损失函数更加适合样本不均衡的分类问题;广义损失函数能降低机器学习模型的换手率。
《偶然中的必然:重采样技术检验过拟合》https://mp.weixin.qq.com/s/9st6bqi3Z7cDAa49cA-4Mw重采样提供刻画随机性的思路,使研究者能基于指标分布进行决策。
《必然中的偶然:机器学习中的随机数》https://mp.weixin.qq.com/s/tFmTn-q_nOVDRU6B8hNbHw当随机数种子变化时,逻辑回归的结果几乎保持不变;全连接神经网络的结果可能发生较大变化;XGBoost 和 随机森林对随机数的敏感程度介于上述两者之间。
1.2 应避免的地方

这一块其实和正常的策略开发没有多大联系,但觉得很有意思,所以还是放在这里,它是关于数据泄露导致模型评估出现偏差的例子,主要分成标识类泄露、数据分布类泄露和直接给出的泄露三种。

想要阅读更多详细的内容,可以移至这篇文章:https://zhuanlan.zhihu.com/p/283730120 。

2 多因子模型

2.1 有效市场假说、金融行为理论
主题描述
弱式有效市场假说资产价格的所有历史交易信息已经被人们充分消化了,此时针对股票价格的技术分析是失效的。
半强式有效市场假说关于公司发展前景的所有信息也已经充分反映到了股票价格上了,此刻基本面分析也开始失效。
强式有效市场假说甚至内幕信息也全都体现在资产现有的价格当中了,这时候做任何研究都是徒劳的。
金融行为理论完全理性的经济人是不可能存在的,那么只要能够精准洞察人们的不理性行为,就可以找到赚钱的机会。所以,市场是可以战胜的。
2.2 CAPM资本资产定价模型:时间序列回归(当期收益率vs当期因子)

决策函数:

其中

代表股票 的收益率;

代表市场组合的收益率,在实践中可以用大盘收益率代替;

代表无风险收益率,实践中可以用国债收益率代替;

代表随机因素。

2.3 Fama-French三因子模型:时间序列回归(当期收益率vs当期因子)

决策函数:

其中

代表股票 的收益率;

代表市场组合的收益率,在实践中可以用大盘收益率代替;

代表无风险收益率,实践中可以用国债收益率代替;

代表随机因素;

(small minus big) 代表规模风险溢价(size premium);

(high minus low)代表价值风险溢价(value premium);

截距 代表定价错误(pricing error),如果模型正确这项应与 0 无显著差异。

2.4 Barra风险模型:横截面回归(当期收益率vs滞后一期因子)

决策函数:

其中

代表股票 的收益率;

代表无风险收益率,实践中可以用国债收益率代替;

代表特异性收益率(specific return);

代表国家因子收益率;

代表 P 个行业因子收益率;

代表 Q 个风格因子收益率;

  代表行业因子暴露,一种哑变量,表示该股票是否属于某行业;

 代表风格因子暴露,往往要求进行标准化操作。

2.5 哈里马科维茨风险模型:允许卖空

目标函数:

其中

代表股票 的收益率;

代表在股票 上投入的资金比例;

代表股票 的收益 的期望;

代表个人对投资组合的目标收益期望。

3 因子的介绍

3.1 产生方式
方法描述举例
业务知识将自己的交易思想量化成程序设计
数据挖掘使用机器学习等技术进行特征衍生遗传算法、特征交叉、多项式特征
因子合成对多个现有因子进行组合,得到新的因子等权法、加权法、 主成分分析法
3.2 几种分类
种类描述举例
估值反映股票估值是否符合公司价值1/市净率
成长反映公司中长期成长能力净利润增速
盈利反映公司的盈利能力、收益质量、现金流量、资本结构、偿债能力、运营能力毛利率
规模反映市值大小对投资收益的影响对数流通市值
流动性反映过去一段时间内资产价格的周转速度日均换手率
动量反映股票短期内上涨和下跌的速度涨跌幅(一个月)
杠杆反映公司的负债与权益的配比情况长期负债率
分红反映公司历史的财务状况和分红能力股息率
波动率反映过去一段时间内资产价格的波动性大小收益率标准差(一个月)
技术反映市场交易的量价关系残差收益率标准差(十二个月)
情绪反应市场对股票的一致性看法wind评级的平均值
股东反映公司股东的持股情况户均持股比例的同比增长率
3.3 形式解读

这是《101 Formulaic Alphas》列出的第三个因子形式,这里我们对它尝试进行形式的解读。

Alpha003: (-1 * correlation(rank(open), rank(volume), 10)):

  • rank(open):对单个股票的开盘价序列进行排序化
  • rank(volume):对单个股票的成交量序列进行排序化
  • correlation(rank(open), rank(volume), 10):根据以上两个指标的排序结果来计算它们的近10日的相关系数
  • (-1 * correlation(rank(open), rank(volume), 10)):对上一步加上负号,即将相关关系进行了颠倒处理

因此,这个因子的背后交易逻辑是构建投资组合时买入开盘价和成交量相关性低的股票,也就是做多开盘价与成交量产生背离的股票。


3.4 因子有效性检验
方法内容
IC分析表示当期因子暴露和股票下期的实际回报值在横截面上的相关系数,IC的绝对值越接近1说明因子的预测性越高。
收益率分析假设每一次调仓时都以因子值为权重购买相应的股票组合,然后计算出每一期可以获得的收益率。
换手率分析计算相邻两期选股组合中股票的平均换手率,如果换手率不高,那么所产生的交易手续费往往就比较低。

4 策略的种类

分类的依据举例描述
交易产品股票策略

CTA策略针对期货商品的交易策略

期权策略

FOF策略
盈利模式单边多空策略在一次交易中,要么只做多要么只做空。

套利策略利用某些金融产品价格与收益率暂时不一致的机会获得收益的策略。

对冲策略同时在股指期货市场和股票市场上实行数量相当、方向相反的交易,通过两个市场的盈亏相抵,来锁定既得利润(或成本),规避股票市场的系统性危机。
策略信号多因子策略

均值回归策略股票的价格会以它的均线为中心进行波动,通过捕捉偏离的股价的回归来进行获利。

动量效益策略如果某只股票在前一段时期表现较好,那么下一端时期该股票仍将有良好表现。

二八轮动策略又称大小盘轮动策略,在A股市场里大盘股数量和小盘股数量往往二八分。

海龟策略判断股价应该运行在一个通道内,如果突破一段时期内的最高价,则发出买入信号;如果跌破一段时期内的通道的最低价,则发出卖出信号。

机器学习策略
交易速度高频策略一般要求秒级交易

非高频策略往往根据换仓频率分成四种级别,分别是长线级别(一年以上)、中线级别(三个月到一年)、短线级别(三天)和超短线级别(分钟级)。

5 回测的评估

5.1 回测框架
仓库仓库地址特点
backtraderhttps://github.com/mementum/backtrader事件驱动框架,回测代码非常简洁且逻辑清晰,文档非常详细,但回测速度较慢
vectorbthttps://github.com/polakowo/vectorbt向量化回测框架,速度较快且文档还算详细,但画图分析几乎都要自己写
hikyuuhttps://github.com/fasiondog/hikyuu速度较快,但只支持国内的股票数据,自定义数据很困难,而且文档不清晰
wondertraderhttps://github.com/wondertrader/wondertrader性能一般,但有实盘接口
vnpyhttps://github.com/vnpy/vnpy存在可视化界面,擅长实盘,但回测模块较差
leanhttps://github.com/QuantConnect/Lean集回测和实盘于一体,代码简单,回测速度相当快
5.2 评估指标
分类举例公式含义
收益指标策略收益率策略在回测区间内的收益率

策略年化收益率策略在回测区间内的复合年化收益率

超额收益率策略相对基准的超额收益率
风险指标系统风险Beta表示策略收益对市场收益波动的敏感程度,用于衡量投资中面临的系统性风险

非系统风险Alpha表示策略收益中和市场无关的部分,用于衡量投资中面临的非系统性风险

收益波动率测量资产的风险性计算

夏普比率度量承受单位风险所获得的超额报酬(相对无风险资产)

信息比率衡量相对于基准指数单位追踪误差风险带来的超额收益

最大回撤Max(P_x-P_y)/P_x描述策略可能出现的最糟糕的情况

下行波动率相比于普通波动率,下行波动率对收益率的波动方向进行了区分,只有当收益率向下波动时才视为风险

索提诺比率度量承担一个单位下行风险获得的超额收益
5.3 交易成本
种类描述
滑点在交易信号产生到交易实际执行之间价格的(不利)变动造成的额外费用
冲击成本投资品流动性不足带来的额外交易费用
证管费和证券交易经手费(规费)双边收费,成交金额的0.00687%
过户费双边收费,更换户名支付的钱,费率一般为十万分之二
佣金双边收费,佣金最高不超过成交金额的3‰,最低5元起,单笔交易佣金不满5元按5元收
印花税单边收费,仅在卖出时收取,为交易金额的千分之一

6 模拟交易、实盘交易

主要是使用券商提供的交易接口来完成模拟或实盘交易,其中,如何针对这些接口进一步合理地封装,并搭建一个实时有效的系统是不可忽视的挑战。

中泰证券的股票交易平台XTP:https://xtp.zts.com.cn/


知守溪的收纳屋
存放觉得有用的文章。关键词:金融量化、因子选择、因果推断、可解释性、人工智能
 最新文章