【JF论文速递】知情交易强度

学术   2024-09-02 21:01   上海  



  • 这是“金融学前沿论文速递”第1452篇推送

  • 选文:张泽宇 审稿:徐菁桦 终审:吕静 编辑:李雨

  • 仅用于学术交流,原文版权归原作者和原发刊所有


原刊和作者:

The Journal of Finance 2024年4月

Vincent Bogousslavsky (Boston College) 

Vyacheslav Fos (Boston College)

Dmitriy Muravyev (Michigan State University)


摘要


本文用知情交易数据训练机器学习,提出度量知情交易的一个新指标——知情交易强度(informed trading intensity, ITI)。ITI在盈余、并购和新闻公告前会增加,能预测收益反转和资产定价。ITI之所以有效,是因为捕捉了知情交易、交易量和波动率间的非线性和相互作用。这种数据驱动方法可以解释知情交易经济学问题,包括急躁知情交易、知情交易共性和知情交易模型。总之,知情交易数据的机器学习可以产生有效的知情交易指标。

              

研究背景


知情交易是金融市场的重要现象,许多研究都试图解释,例如,知情投资者有助于使证券价格接近基本面价值,因此对有效市场理论至关重要;资产定价模型也考虑了知情交易对公司信息结构或流动性风险的影响。然而,实证识别知情交易却很困难,因为投资者的信息集不可直接观测,且知情投资者通常隐藏在非知情订单流里。为了克服这些问题,文献提出了几个基于理论的知情交易和/或逆向选择的指标。在实证金融学、经济学和会计学广泛使用的著名指标有Kyle(1985)的价格影响、Glosten and Milgrom (1985)的买卖价差,以及Easley and O’Hara (1987)的知情交易概率。但近期研究表明,这些指标在捕捉已实现的知情交易方面表现不佳。


研究内容


本文用一种新的数据驱动法来度量已实现的知情交易。用知情交易数据训练梯度增强树(Gradient Boosted Trees, GBT)算法。该算法经过训练,可以识别有知情交易的交易日。用一组与流动性、收益、波动率和交易量相关的当日变量来预测知情交易的日度指标。用观察到的知情交易训练数据估计模型后,再外推至未直接观察到知情交易的所有股票交易日。该过程产生了一种新的知情交易度量指标,本文称为知情交易强度(ITI)。ITI融合了两个关键要素:知情交易数据和机器学习(machine learning)方法。


研究设计


(一)主检验:数据驱动法能识别知情交易

1. 训练数据

首先,用持股超过5%门槛后需报告的13D表的交易来训练ITI,考察该指标的基本属性,期望13D样本比稍后使用的其他知情交易样本(即机会型内幕交易者和卖空者)具有更高的“信噪比”。投资者需在13D报告中披露在备案日前60日内的所有交易。Collin-Dufresne and Fos (2015)首先收集了这些交易数据并表明他们是知情的。本文方法并不要求所有的交易都为知情交易,为简便起见,称其为知情交易。知情交易也可能发生在不在13D表中的交易日。本文方法假设,13D交易日比接近13D交易日,平均发生更多的知情交易。


2. 算法

构建ITI指标的第二个关键要素是GBT算法。用一组41个并发的日度变量来训练模型,这些变量受微观结构理论支撑,可以捕获流动性、收益、波动率和交易量。用随机森林算法代替GBT算法,结论稳健。相比之下,线性回归和Lasso算法会被随机森林和GBT算法取代。这说明,非线性和相互作用对于检测有知情交易的交易日很重要。因此,本文使用GBT算法。


3. 几个主要发现

  • 首先,ITI是否检测到了13D交易日?研究发现,ITI比现有的流动性和知情交易指标能更强地检测样本外13D交易日。与本文多数检验一样,控制了股票换手率、收益、已实现的波动率、订单不平衡和绝对订单失衡,以及流动性的标准度量,如有效价差、价格影响、深度和Kyle's lambda。

  • 进一步发现,虽然市场在时变,但整个样本期ITI对13D交易的解释力稳定,而标准流动性度量指标的解释力则下降。

  • 此外,虽然该算法没有对13D交易量进行训练,但ITI随着13D申报人交易量的增加而增加,这表明ITI确实捕捉到了知情交易的强度。


(二)机制检验:捕捉交易量和波动率的非线性

ITI为何有效?ITI中的大多数输入变量都重要,但与交易量相关的变量最重要。然而,本文虽将有知情交易与没有知情交易的日期在交易量上进行匹配,ITI仍能强烈地检测出有知情交易的日期,这表明该度量的有效性不能仅归因于交易量。本文用偏相关图检验了非线性,发现ITI在交易量上增加且凹,在波动率上减少且凸。代理树(surrogate trees)是一种解释机器学习模型的流行方法,它表明变量的交互作用对ITI也很重要。具体而言,交易量高但波动率低时,ITI特别高;同样,交易量低且非流动性高时,ITI特别低。


(三)证真:ITI度量知情交易的进一步证据

1. 其他样本稳健性
将ITI指标外推至1993-2019年(约1700万个交易日)美国普通股的全样本。模型参数根据约60,000个交易日的13D交易数据估计。估计模型再用当日输入变量计算每个股票交易日的ITI。从全样本中排除13D的训练样本(占样本0.35%)。外推时假设ITI学习的日内变量与已实现的知情交易间的关系在全样本中基本成立。需承认,13D交易样本外,信噪比可能会更低。因此,除了捕获知情交易,ITI还可以在更大的无限制样本中反映不知情交易。虽然机器学习都会发生伪阳判断,但该问题在本文情境中更严峻,因为知情交易不可观测,甚至事后也是。因此,本文进行了各种信度检验,表明ITI始终优于现有度量。


2. 收益反转预测
首先,用美国普通股的全样本发现,ITI能预测价格反转的强度。已实现的知情交易与不知情交易导致的价格变化的根本区别在于,不知情交易导致的价格变化预计是短暂的(Hasbrouck, 1988, 1991)。因此,预测在已实现知情交易多的日期,收益比其他交易日的收益反转更少。证据与预测一致,进一步说明ITI捕捉了知情交易。结果在控制收益与换手率、收益与波动率、收益与有效价差间的相互作用后具有稳健性。因此,ITI并非仅是换手率、波动率或流动性的代理指标。


3. 事件日表现

其次,即使在控制了标准的流动性、交易量和波动率指标后,ITI也会在几类信息事件日增加。特别是盈余公告前ITI会增加。ITI能预测盈余公告日的巨大超额收益,说明ITI能反映意外盈余前的知情交易增加。ITI还会在计划外的信息事件(如计划外的信息发布和并购公告)前以及公告后的几日内增加。由于信息处理能力的异质性,信息的披露会增加信息不对称,知情投资者也可利用交易量增加来掩饰其交易。


(四)证伪:ITI并非流动性度量

人们可能会质疑,ITI是否为市场流动性的度量指标?ITI在盈余公告前增加这一证据反驳了该观点,因为流动性在盈余公告前往往会恶化。此外,之前已说明控制了流动性变量后,ITI还会随主动交易的规模而增加。因此,虽然ITI与流动性变量可能相关,因为知情投资者会对流动性择时,但ITI并不等同于流动性度量。


(五)数据驱动法的应用
1. 为知情交易经济学提供证据

首先利用13D交易数据的一个有用特性来说明“耐心”("patient")与“急躁”("impatient")交易的重要区别。在持股超过5%门槛后,须在10日内向SEC提交13D文件。13D申报者因而在临近申报时交易更积极。本文利用数据的这一特征将ITI分解为“耐心”ITI和“急躁”ITI,ITI(耐心)和ITI(急躁)分别在60日填报窗口的前40日和后20日进行训练。研究发现,急躁的知情交易更易被发现。该结果支持了Kaniel and Liu (2006)等的理论,即知情交易者倾向于更积极地下订单,因为其信息视域缩短了。特别是,ITI(耐心)和ITI(急躁)都与换手率呈正相关,ITI(急躁)的正相关性更强。此外,ITI(急躁)与已实现波动率呈正相关,而ITI(耐心)呈相反的模式;ITI(急躁)在盈余公告前两日强劲增长,而ITI(耐心)则没有。这些发现说明,ITI(急躁)能检测出积极的知情交易日期。ITI(急躁)也能检测非法内幕交易(Ahern, 2020)。


2. 揭示知情交易的共性
本文表明,ITI也能检测其他类别的知情交易,例如机会型内幕交易(opportunistic insider trades)和卖空高峰(spikes in short selling)。交易环境的波动可能会在知情交易中产生共性,但控制标准的流动性指标只能解释部分共性。此外,即使控制了在这些数据集上训练的ITI指标,ITI也能检测机会型内幕交易和卖空高峰。因此,一类知情交易可以通过研究其他类型知情交易而获得增量信息。然而,知情交易中的共性力量在事前并不清楚。本文通过比较在13D数据上训练的ITI指标与在其他数据集上训练的ITI指标,首次解决了这个问题。


3. 建模
数据驱动指标揭示的知情交易经济学问题还可用于建模,模型中交易量和绝对订单失衡都与已实现知情交易呈正相关,即使在相互控制的情况下;但波动率与已实现知情交易呈负相关。基于一系列知情交易模型的模拟数据表明,知情交易的这个维度很难捕捉。在所有考虑的模型中,没有一个能够同时匹配这三个关系。值得注意的是,当控制五种众所周知的知情交易指标时,ITI指标仍能显著检测出知情交易日。


4. 预测股票收益
本文通过检验知情交易能否预测未来股票收益,提供了ITI的一个简单应用。在面板回归中,以更高ITI来度量的已实现知情交易增加与更高的未来月度收益相关。前、后十分位ITI组合的Fama-French四因子alpha的差值为每月52个基点,即年化6.4%,t值6.2。其他ITI指标(除了对卖空数据进行训练的ITI)也能正向预测收益。本文结果表明,已实现的知情交易与未来收益正相关,这支持了买比卖股票包含更多知情信息的理论。相比之下,研究结果仅有限支持信息风险定价理论。


结论


本文直接从知情交易数据中学习,提出一种新的度量知情交易的方法。用机器学习算法来识别有知情交易的日期。用与交易量、波动率和流动性相关的一组当日变量来预测知情交易日指标。用观察到的知情交易数据来训练并估计模型,将其外推至包括未直接观测知情交易的股票所有交易日。该过程产生了一种新的度量知情交易的指标——ITI。


研究发现,ITI显著预测样本外知情交易,并且是各种信息事件的显著预测因子。特别是在盈余公告、并购公告和非计划信息发布之前,ITI会增加。此外,高ITI日的收益比其他交易日的收益更少反转,这与知情交易的价格影响是永久性的直觉一致。这些结果证实ITI能作为知情交易的度量指标。


研究表明,本文数据驱动方法能解决知情交易经济学问题。首先,与理论一致,本文发现了急躁交易与耐心交易间的强烈区别证据。其次,一类知情交易可以通过研究其他类知情交易而获得增量信息。再次,本文方法突出了现有模型难以捕捉的知情交易的特定特征。ITI未被现有的基于理论的度量所吸收。这些典型事实为今后研究提供了启示。


ITI可应用于许多环境。本文提供了资产定价的一个应用,考察知情交易是否在股票收益的横截面中定价,因为先前研究的结果存在矛盾。本文表明,ITI增加与月度横截面未来高收益相关,这种可预测性与买、卖股票中的信息含量不对称最为一致。


本文的主要含义是,对知情交易进行数据驱动的机器学习,可以产生有效的知情交易度量指标,并提高大家对知情交易经济学问题的理解。


原文:

Bogousslavsky, Vincent, Vyacheslav Fos, Dmitriy Muravyev, 2024, Informed Trading Intensity,The Journal of Finance 29(2), 903-904.


 

【长按二维码自动识别】查看摘要或原文



本文所属系列和领域(点击阅读)            

系列:国际顶级前沿            

领域资产定价机器学习            



关于我们

微信公众号“金融学前沿论文速递”精选推送国内外金融学顶级期刊最新论文。欢迎转载。本号由上海财经大学讲席教授徐龙炳、陆蓉带领的“上财金融创新团队”负责。联系方式:FinanEx@163.com。

分类检索文献:点击标题下面蓝字“金融学前沿论文速递”,关注,进入公众号,页面下方按“系列”、“领域”或“期刊目录”分类检索。

“系列”包括:国际顶级前沿、国内顶级前沿、ESI高被引系列、趣文推荐系列、专题系列、平台及团队介绍、上财金融风采系列。 

“领域”包括:资产定价、公司金融、行为金融、投资者行为、金融市场、金融中介、金融工具及其他。

“期刊目录”包括:JF、JFE、RFS、《经济研究》、《管理世界》《金融研究》等。 

金融学前沿论文速递


金融学前沿论文速递
精选推送国内外最前沿的金融学论文。服务学术研究、投融资实务和政策决策,推动国内金融学研究快速与国际接轨。关注人数超过14万。本号由上海财经大学讲席教授徐龙炳、陆蓉带领的“上财金融创新团队”负责。
 最新文章