华泰金工 | 回归法估计纯债基金久期

文摘财经 2024-12-13 08:39 北京

截至2024Q3，我国3741只债券型基金总规模超过10万亿元人民币。债券基金的收益风险与其久期密切相关，而债基仅在半年度公布久期数据，因此对于债基久期更高频的测算与跟踪尤为重要。本文在回归法的框架下，基于纯债型基金的净值和债券指数净值构建OLS、Lasso/Ridge、WLS、LAD、WLAD等回归方法，尝试用债券指数来拟合债基的实际成分，从而估算债基久期。经测算基于自动调整回归指数的WLAD模型估计误差较小，或可用于债基久期的日频跟踪。

核心观点

当前久期测算方法有相关系数法、回归法、机器学习法三大类

相关系数法是指，若某些债券指数与债基净值的相关系数大于某个预设阈值，则将这些债券指数作为债基的成分，用相关系数作为权重计算债基久期。回归法是指，将一批债券指数同时纳入回归方程，用回归系数作为权重计算久期。而机器学习法则是将债基的基本信息、债基和债券指数的净值衍生数据作为特征，债基的真实久期作为标签来训练模型，从而对久期进行测算。

回归法中，OLS会整体高估久期，WLS和WLAD表现较佳

本文首先用OLS进行测算，发现相比债基真实久期整体高估。考虑到固定的回归债券指数无法灵活地反映债基真实持仓，我们基于债基的历史持仓风格，在每一期确定不同的回归债券指数，高估问题有所缓解。随后我们发现Lasso/Ridge倾向于压缩回归系数导致测算失真，效果不如OLS。我们进一步测试了WLS，给更近的观测点更高的权重，测算效果有所提升。最后，为了缓解异常净值变化导致回归不准的问题，我们采取LAD/WLAD，久期的估算误差能更进一步降低。

WLAD区分短期和中长期债基后效果更佳，测算发现近期债基久期在上行

WLAD即加权LAD，与OLS不同的是，其损失函数采用的是L1范数而非L2范数。L2范数的平方项会放大“大残差”的影响，而L1范数通常则更为稳健，对异常值更不敏感。而债基净值往往会因为大额申赎、信用违约等产生跳动，在这种情况下，WLAD的回归会比WLS更为准确。本文区分中长期和短期纯债基金，分别对WLAD进行参数优化后，整体模型测算效果进一步提升。在2024年中报下，模型对久期测算绝对误差平均值为0.49年，中位数为0.33年，近期债基整体持债久期有所上升。

正文

01 债基久期的基础概念与估算方法

截至2024Q3，我国共有3741只债券型公募基金，总规模达到10.30万亿元人民币，占公募基金总规模比例为32.42%。其中，纯债型基金数量达到2385只，规模达到7.72万亿人民币，占债券型基金总规模的74.94%，是债券型基金中的重要组成部分。

久期是我们在配置纯债基金时的重要考察因素。久期越长，债券对利率变动的敏感性越高。当利率上升时，久期较长的债券可能会面临更大的价格下跌风险；而当利率下降时，久期长的债券可能会产生更显著的价格增值。以中债-新综合财富指数（1年以下，CBA00111）和中债-新综合财富指数（3-5年，CBA00131）为例，我们可以看到两者净值曲线在收益和风险上的明显差异。正是由于久期能够很大程度地影响债券组合的收益和风险，掌握债基的久期显得尤为重要。

债券久期的定义与债基久期的获取

下面我们简单介绍久期与修正久期的计算方法，说明债券组合修正久期的计算方法，最后我们将介绍如何基于重仓债券和利率敏感性分析计算债券基金的修正久期。在实践中，可以通过Wind金融终端的“基金组合久期(基于利率风险计算)”字段获取债券基金的半年度频率的修正久期数据，或者通过“基金重仓债券组合久期”字段获取季度频率的修正久期（仅基于重仓债券）数据。

麦考利久期与修正久期

久期是指债券支付全部现金流所需要的加权平均时间，可简单理解为投资者收回债券本金和利息的平均时间。麦考利久期的计算公式如下，其中，c_t代表t期的现金流，r代表到期收益率（利率），P代表债券价格：

观察公式，我们不难发现，久期越短，收回本金和利息的期限就越短，不确定因素越少，资金面临的风险越小。在实际研究中，久期能够反映债券价格对市场利率变动的敏感程度。

回顾债券定价公式，债券的价格是未来现金流折现到今天的现值：

将债券价格对利率r求导，

变形，

观察该式，我们发现麦考利久期能够反映债券价格对于利率的敏感程度。但该形式还不够直观，因此引出了修正久期的定义：

因此有，

该式左边是价格变动率，右边是修正久期乘利率变化值的相反数，因此，通过修正久期我们可以清晰观察出债券价格关于利率变化的敏感程度。本文后续所指的久期均为修正久期。

基于重仓券和利率敏感性的债基久期估计

修正久期是关于价格变动率的线性函数，而债券组合的价格变化率是各个债券成分价格变化率的线性组合，因此债券组合的修正久期即为各债券成分修正久期的线性组合，

其中，w_i是各债券成分占组合的权重，D_(mod,i)是第i个债券成分的修正久期。具体到纯债基金， w_i实际上是债券成分i的市值/基金净资产，由于存在杠杆因素的影响，∑w_i可能会大于或小于1。

理想情况下，债券基金的久期应利用全部债券持仓信息，使用上述公式计算得到。然而，债券基金在定期报告中仅披露前五大重仓债券，无法直接通过持仓来获得债基久期。

（1）基于重仓券的久期测算

若前五大重仓债券占基金总值比例较高，则直接使用前五大重仓债券计算组合久期也能获得相对较小的误差。在实际应用中，我们可以从Wind中的“基金重仓债券组合久期”字段来获取数据。

（2）基于利率敏感性的久期测算

目前获取较为准确的债基久期的方法是通过半年报/年报中披露的利率风险的敏感性分析来间接计算。以易方达安心回报A（110027.OF）2023年年报为例，在利率风险的敏感性分析中，披露了当利率降低或升高25个基点时，基金资产净值的变化值。

回顾前文中关于修正久期的公式并进行二阶泰勒展开，可得

以易方达安心回报A为例，其提供了下降和上升25个基点的资产净值变化情况。两个方程，两个未知数，联立即可解出修正久期D_mod和凸度C。即：

两式相减，易得

解得D_mod=1.6606。在实际应用中，我们可以直接从Wind的“基金组合久期(基于利率风险计算)”字段来获取此数据。然而无论是基于重仓券的久期测算，还是基于利率风险计算得到的久期，其最高频率只能是季度获取且较为滞后，而如果想要高频掌握债基的久期及久期变化情况，就需要用其他方法进行估算和跟踪。下节就几类债基久期的估算方法进行简要说明。

债基久期的日度跟踪估算方法概述

相关系数法

相关系数法是指，对于某个债券基金，寻找在过去一段时间内与其相关系数最高（高于某个阈值）的指数，相关系数作为权重，用指数的久期去估算债券基金的久期。

以兴业嘉荣一年定开（009105.OF）为例，其与中证中期信用债指数（000845.CSI）在2022/1/1至2024/11/17的净值走势图如下图4所示，可以看到整体走势高度一致，相关系数达到了99.8%，指数拟合的效果较好。

在这个例子中，尽管指数对净值的拟合效果很好，但是对久期的估算效果却不佳。我们查看2022/6/30-2024/6/30的4个报告期中兴业嘉荣一年定开和中证中期信用债指数的修正久期，如下表5所示。

我们可以看到，仅使用中证中期信用债指数会较大程度高估兴业嘉荣一年定开的真实久期，这是因为该例子中只选取了一种指数进行拟合，尽管拟合效果很好，但是由于一个债券指数仅能覆盖特定范围的久期，其他久期的缺失会导致无法覆盖债基的所有成分，从而使估计准确度偏低。

总结来说，相关系数法在实际应用中有两个主要挑战：1）某些纯债基金可能成分比较复杂，我们可能找不到相关系数较高的债券指数作为拟合成分；2）即使债券指数的相关系数很高，也会因为成分的单一而导致久期估算失真。

回归法

相比于相关系数法仅使用少量的债券指数来拟合，回归法将一系列的债券指数作为自变量来拟合纯债基金的净值表现，该方法能够较好的覆盖到不同久期的债券指数，使得测算结果更加精确，其核心的回归设定如下所示：

其中，r_(f,t)是纯债基金f在t期的收益率，r_(i,t)是债券指数i在t期的收益率，α_f是截距项，ϵ_(f,t)是残差项。约束条件有两条，1）对于每个债券指数的系数，不能小于0，或大于1.4（我国规定公募基金的资产总值不得超过基金净资产的140%）；2）债券指数的回归系数之和不得低于0.8或高于1.4（债券类资产的比例不得低于基金资产的80%）。

对上述回归方程中的β_i进行估计，得到估计量(β_i ) ̂作为债券指数i的权重，估计的久期即为

其中，D_i为第i个债券指数的久期。

机器学习/深度学习法

近年来也看到用机器学习或深度学习模型对债基的久期进行估计，在构建机器学习或深度学习模型的过程中，通常会基于债基的收益风险、基本信息以及债券指数的收益风险等多维度数据来构建特征集。而标签则是债基半年度公布的真实久期。

然而，这一方法面临的一个主要挑战是数据样本量较少。由于债基仅在半年报中披露其真实久期，导致可用于训练模型的数据量相对较少。这种数据的稀缺性可能会严重影响模型的训练效果，因为机器学习和深度学习模型通常需要大量的数据来学习复杂的模式和关系。此外，由于债基的久期受到多种因素的影响，包括市场利率、信用风险、流动性风险等，这些因素的动态变化进一步增加了模型预测的复杂性。

02 基于回归法的债基日度久期估算

各类回归模型用以久期估计的原理简介

简单线性回归（OLS）：最优线性无偏估计

最小二乘法的目标是最小化误差平方和（Sum of Squared Errors, SSE），即寻找一组最优估计量β(k×1 vector)使得误差平方和最小：

普通最小二乘法在满足零条件均值、同方差等高斯马尔科夫假设下，是最优（即估计量方差最小）的线性无偏估计量，在这个理想情况下，普通最小二乘是最有效的估计方法。

Lasso/Ridge回归：有利于缓解多重共线性

Lasso回归和Ridge回归是两种用于处理多重共线性和高维数据的线性回归的扩展方法，多重共线性是指，回归方程自变量中存在相关性。回归中出现多重共线性有两种可能的后果：1）完全多重共线性会导致模型无法估计，此时删掉多余变量即可；2）非完全共线性不影响OLS的无偏性，但会导致估计量的方差变大，使其估计效率降低。在估算久期时，我们的自变量是一系列的债券指数，其收益率之间存在一定的相关性，存在非完全共线性的问题。

Lasso回归和Ridge回归在目标函数中加入了正则化项，从而控制模型复杂度，提高模型的泛化能力。其最小化目标是：

其中，λ是惩罚项权重。Lasso回归的惩罚项是回归系数的L1范数（∑|β_j |），而Ridge回归的惩罚项是L2范数（∑β_j^2）。

Lasso回归能够将部分回归系数压缩到0，从而实现回归自变量自动选择；而Ridge回归倾向于让部分回归系数接近于0，从而在保留所有回归变量的同时减少多重共线性的影响。更进一步地，若自变量高度相关，可以在损失函数中同时加入L1范数和L2范数，则变成了弹性网（Elastic Net）。

加权最小二乘法回归（WLS）：赋予不同观测值不同权重

加权最小二乘法，即给每个观测值i分配一个权重w_i，此时损失函数变成：

加权最小二乘法主要有两个作用：1）当存在异方差且形式已知的情况下，根据不同观测点赋予不同的w_i能够一定程度上缓解异方差的问题；2）给不同观测点赋予不同的权重w_i可以反映不同观测点的重要程度，w_i越大表示该观测点重要性越高。在本文久期测算的应用场景中，我们可以给更接近估算时刻的观测点更高的权重，从而能够更好反映地最新持仓风格。

最小绝对偏差回归（LAD）与加权LAD（WLAD）：减少极端异常值的影响

LAD回归是以最小化预测误差的绝对值之和为目标，同样也可以给每个观测值分配权重以实现类似WLS的效果，损失函数即为：

与OLS/WLS不同的是，损失函数采用的是L1范数而非L2范数。L2范数的平方项会放大“大残差”的影响，而L1范数通常则更为稳健，对异常值更不敏感。如果数据中异常值较多，LAD/加权LAD的表现可能较OLS/WLS更好。考虑到债基的净值数据不仅受到其债券持仓成分的影响，也会受到大额申赎、信用违约的影响而造成净值跳动，可能会存在异常值，在此情况下LAD可能是一个更好的选择。

简化变量法与逐步回归法：另一种缓解多重共线性的方法

这两种方法的主要目的都是为了处理多重共线性的问题。简化变量法的核心逻辑是通过一定规则来筛选解释变量，让解释变量尽可能少的同时，尽可能多地覆盖到债基的不同类型的持仓，即筛选后的解释变量具有较好的代表性且解释变量之间的相关性较低。逐步回归法的核心逻辑是逐步从待选的变量中挑选最重要的逐步加入到解释变量中，一般来说可通过R^2,t,F等指标来判断加入变量的重要性。

各类回归模型的久期估算效果与改进

模型评价标准

与传统回归模型的评价不同，本文不使用拟合优度R^2等指标作为模型评价标准。因为在久期测算中，我们实际上更加注重测算的准确度而非拟合优度。本文主要基于平均绝对误差（MAE）来评价模型。具体来说，MAE的计算公式如下：

MAE的优点是它对所有的误差都给予相同的权重，因此它对异常值不敏感。它可以直接告诉我们预测值与实际值之间的平均误差有多大，MAE越小，表示模型的预测准确度越高。

在每一个半年度报告期，我们对样本集中的每一只基金进行滚动回归，并测算其在当期的久期。我们把该测算久期与真实久期进行比较，计算平均绝对误差（MAE）。

考虑到我们实际使用的是面板数据（债基+时间维度），因此我们主要采取两个评价指标，一是混合样本（所有报告期的所有债基样本）的MAE，二是各报告期绝对误差在截面上的中位数在时序上的平均值。前者是对于所有测算效果的简单平均，后者则剔除了每期中极端异常测算的影响后再进行平均。

基金样本说明

本文研究的纯债基金样本筛选流程如下：

1)该基金的Wind投资类型为中长期纯债基金/短期纯债基金且历史上一直是纯债基金；

2)该基金是初始基金；

3)该基金成立日早于2023/1/1；

4)该基金从2013至今，久期数据大于5条；

5)剔除历史持仓中包含可转债的基金；

6)剔除久期波动率最高的10%的基金（此部分基金久期变化频繁且大，难以通过以往数据进行预测）。

经过上述筛选流程后，最终样本集中包含1441只纯债基金，其中长期纯债型基金1214只，短期纯债型基金227只。

对于净值数据和久期数据，为保证数据质量，我们作以下处理：1）仅使用基金成立三个月后的复权单位净值数据；2）考虑到债基净值精度不高且日度变化较少，我们对债基和债券指数的涨跌幅都做了滚动窗口平均；3）对于每只基金，在时序上计算久期的z-score，去除z-score>3（即，极端异常值）的观测值。

回归基础参数说明

在这小节里，我们将尝试不同的回归方法来找到最优的方法。参照此前的相关研究，我们暂时将模型参数设置为如下：

1)涨跌幅滚动平均区间：5天

2)回归窗口：60天

3）默认的解释变量为以下11只债券指数：

简单线性回归（OLS）：久期测算整体高估

在不同报告期中，使用OLS测算的债基久期的误差分布和绝对误差时序分布如下图7、8所示：

在左边的频率分布直方图中，展示的是所有债基样本从2014/12到2024/6所有半年频的久期测算结果与真实久期的误差分布情况。频率分布直方图越集中在0附近，模型的测算效果越好。在右边的箱型图中，展示的是箱体的上下边界分别是75%（Q3）和25%（Q1）分位数，箱体中的横线代表的是50%分位数（即中位数）；从箱体延伸的上下两条线表示非异常值的范围，上线为Q3+1.5*(Q3-Q1)，下线为Q1-1.5*(Q3-Q1)。箱型图整体越靠下，模型的测算效果越好。

当我们使用最简单的OLS时，结果如上述两图所示。整体MAE为0.76，从频率分布直方图来看，误差分布整体呈现向右偏的特征，即OLS测算的久期整体而言会高估真实久期。从时序来看，模型在各个报告期的表现比较稳定，各个报告期绝对误差分位数的平均值在0.52。同时，从右图我们也发现，部分债基的久期测算误差较大。以华泰紫金丰益中短债007819.OF为例，其估算久期与真实久期对比如下：

在20201231报告期，OLS对于007819.OF的测算出现明显偏差，我们查看当期的回归结果，发现OLS将所有的权重都赋予了CBA05861中债-国债及政策性银行债财富(10年以上)指数，其回归系数高达1.4，然而007819.OF是一只短期纯债型基金，这正是该债基测算久期严重高估的原因。此外，我们进一步查看了该债基在20201231之前的债券持仓情况，发现其主要成份是金融债和企业发行债券，而在我们默认的回归指数（国债/政金债，信用债）中无法较好地反映这两者的净值变化情况。因此，使用固定回归指数的缺点主要有两个：1）指数多为中长久期，导致短久期债基久期被高估，误差分布整体右偏；2）指数分类比较粗糙，无法较好地反映债基中的不同成份。

OLS+自动调整回归指数：久期高估问题有所缓解

考虑到上文中使用默认固定指数存在的问题，此前市场的研究主要采取K-means等聚类方法去选择合适的指数，与其不同的是，我们尝试结合债基以往的持券和久期信息，综合判断使用哪些债券指数进行回归，即设定规则以自动调整回归指数的范围。

我们首先定义以下回归债券指数系列：

接下来，我们定义债基是短久期还是中长久期，规则如下：在每个报告期，若最新的Wind分类为短期纯债型基金或者近2年的平均真实久期小于3年，则认为是短久期债基；否则认为是中长久期债基。

最后，我们结合债基的持有券种情况，为每只基金选择合适的回归指数，具体规则如下：

1)若债基为短久期，

a)若近两年商业银行债的平均持仓占比超过70%，则使用短期商业银行债系列和短期利率债系列；

b)若近两年企业债的平均持仓占比超过70%，则使用短期企业债系列和短期利率债系列；

c)若不满足上述两种情况，则使用短期信用债系列+短期利率债系列；

d)若近两年信用债的平均持仓占比超过90%，则剔除短期利率债系列；

e)若近两年利率债的平均持仓占比超过90%，则剔除短期信用债系列。

2)若债基为中长久期，

a)若近两年商业银行债的平均持仓占比超过70%，则使用中长期商业银行债系列和中长期利率债系列；

b)若近两年企业债的平均持仓占比超过70%，则使用中长期企业债系列和中长期利率债系列；

c)若不满足上述两种情况，则使用中长期信用债系列和中长期利率债系列；

d)若近两年信用债的平均持仓占比超过90%，则剔除中长期利率债系列；

e)若近两年利率债的平均持仓占比超过90%，则剔除中长期信用债系列。

使用OLS和自动调整的回归指数再次进行久期测算，结果如下图11、12所示：

OLS+自动调整回归指数方法整体MAE为0.69，较此前的0.76有明显下降。从频率分布直方图中也能看出，使用自动调整回归指数的OLS的误差分布比默认固定回归指数的OLS的误差分布更加集中于0，右偏现象也有所缓解。从时序上看，各个报告期绝对误差的中位数的平均值为0.49，相比此前也有所改善。我们再次检查华泰紫金丰益中短债007819.OF的误差情况，如下图13所示：

与此前相比，使用自动调整的回归指数确实较大程度地减少了该债基的久期测算误差。进一步查看2020/12/31报告期的回归结果，中债-国债及政策性银行债财富(3-5年)指数的回归系数为0.34，中债-公司信用类债券财富(3-5年)指数的回归系数为1.06，更加符合其真实情况。基于此部分的发现，本文后续所有的测算都会基于自动调整回归指数的方案。

Lasso/Ridge回归：回归系数被压缩，效果不如OLS

即使我们已经根据债基的历史债券持仓和久期信息来自动调整回归指数，回归指数之间仍然可能存在多重共线性的问题，导致回归估计的系数准确性下降。我们尝试不同参数的Lasso回归和Ridge回归，结果如下图14、15所示：

这两张图分别是Lasso回归和Ridge回归的测算结果，在每幅图中，我们展示了当惩罚项变化时的模型表现，其中当惩罚项为0时（即红色箱型图），Lasso/Ridge回归退化为OLS回归。从这两张图中，我们能明显看到，Lasso回归误差整体略高于OLS，当惩罚系数为0.01时，MAE为0.76，各报告期绝对误差中位数的平均数为0.51。而Ridge回归的箱型图明显要高于OLS，当惩罚系数为0.01时，MAE为1.88，各报告期绝对误差中位数的平均数为1.78。此外，Lasso和Ridge回归均呈现出“惩罚系数越大，模型表现越差”的特点。下表16是不同模型的具体测算效果对比：

以华夏鼎丰013780.OF为例，我们来剖析Lasso/Ridge回归表现不佳的原因。013780.OF在使用OLS、Lasso（惩罚系数0.01）、Ridge（惩罚系数0.01）进行测算时，MAE分别为0.92、1.35、1.83，各报告期的误差如下图17所示：

可以看到，在2022/6/30报告期，Lasso和Ridge的测算误差要明显高于OLS，进一步查看当期的回归系数，如下表所示：

观察此表，我们发现反而是OLS选择了最少的回归变量，且把大部份权重赋予了中债-信用债总财富(1-3年)指数；Lasso也赋予了信用债系列更高的权重，信用债内不同久期之前分布较为均匀；而Ridge则更为平滑，赋予了所有回归变量几乎相等的权重。此外，由于惩罚项的存在，Lasso和Ridge都使得回归系数之和降低到0.8（即我们设置的下限），这也与实际情况（013780.OF在2022/6/30的债券市值占基金资产净值比是128.26%）不符。总结而言，回归系数平滑和回归系数压缩到下限可能是导致Lasso/Ridge测算效果不佳的主要原因，因此本文认为这两种方法不太适合应用于债基久期测算。

加权最小二乘法回归（WLS）：测算误差较OLS更佳

截至目前，采用自动调整的回归指数的OLS估计表现较好，但仍有大量的基金的久期测算误差较大。我们在测算久期的时候，实际上是基于债基历史的净值衍生信息进行回归估计债券成分来估计久期；但如果债基的债券成分在短时间内变化比较大的话，基于较长历史区间来回归估计的债券成分或许难以反映最近的债券成分，从而导致偏差。以景顺长城景泰鑫利纯债A（006764.OF）为例，其在2019/6/30-2024/6/30的券种持有明细（各券种的持仓市值与债券投资市值之比）如下图19所示：

该基金在2020/12-2021/6之间债券持仓发生了较大突变，国债持仓从2020/12的0快速攀升到2021/3的65.98%，随后又下降到2021/6的0；企业发行债券从2020/12的56.23%下降到2021/3的0，随后重新攀升到2021/6的94.19%。持有券种的突变使得极度依赖历史窗口净值信息的OLS测算变得不稳定，如下图20所示，006764.OF的久期测算绝对误差在2021/6攀升到6.66，而其他报告期的MAE仅为0.27。因此，我们考虑使用WLS来估计，即，将更高的权重赋予给更近的观测值。具体而言，在回归的60日区间中，我们赋予第一天1的权重，最后一天3的权重，中间观测值的权重则线性递增。使用OLS和WLS对006764.OF的久期测算绝对误差如下图20所示：

可以看到，OLS在2021/6/30报告期的久期测算绝对误差远大于其他时期，而WLS在保持其他报告期测算效果大致不变的情况下，将2021/6/30的测算误差从6.66降低到3.00，MAE从0.91降低到0.65，模型表现有所改进。我们对全部基金使用WLS估计，结果如下：

WLS估计相对OLS有了更进一步的改进，MAE从0.695降低到0.689，各报告期绝对误差中位数的平均数从0.49降低到0.48，但下降幅度有限，这可能是因为我们的回归窗口依然只有60日，观测样本较少，无法更大地发挥WLS的作用。我们将在下一小节里详细探讨回归参数的调整。

最小绝对偏差回归（LAD）与加权LAD（WLAD）：整体测算误差进一步下降

如前文提到的，影响债基净值的因素除了债券持仓外，可能还包括大额申赎和信用违约等。使用L2范数作为损失函数可能会受到这些异常值的影响，从而令回归结果不够稳健。我们尝试LAD和加权LAD来缓解异常净值跳动的影响。

LAD和WLAD的久期测算绝对误差相比WLS均有所下降，LAD和WLAD的MAE分别为0.663和0.656，各报告期绝对误差中位数的平均数分别为0.47和0.45。

03 基于自动调整回归指数的WLAD 模型的参数优化

我们总结前文不同方法的测算结果，基于自动调整回归指数的WLAD 测算效果较佳。因此在这一小节里，我们将针对WLAD进行细节上的调整以及回归参数的改进。

参数分析与回归细节调整

在本部分中，我们将以WLAD为我们的基准模型，对于回归的参数进行调整。在前文中，我们所有的回归参数均为5天的涨跌幅滚动平均区间和60天的回归窗口，下面我们将对此参数进行优化调整，同时考虑不同久期的债基参数设置的异质性。

我们将在每个报告期去判断债基是中长久期还是短久期，规则与前文一致，即，若最新的Wind分类为短期纯债型基金或者近2年的平均真实久期小于3年，则认为是短久期债基；否则认为是中长久期债基。

我们首先考虑净值涨跌幅的滚动区间。涨跌幅滚动区间设置的初衷是为了平滑基金净值异常变动的影响，滚动区间越长，基金和指数净值的变动受到异常情况影响就越少；滚动区间越短，回归确立的债基与指数间的关系就更加精确。为此，我们尝试了不同滚动区间下的模型表现，如下表27所示：

可以看到，不管是对于长久期债基还是短久期债基，将涨跌幅滚动3天进行平均后进行回归效果均更佳。下面，我们将基于涨跌幅滚动3天的基础上，考虑回归窗口长度和最大权重这两个参数。回归窗口长度越长，训练模型的样本越多，回归的结果更加准确；但与此同时，回归窗口长度越长，也意味着用到了更早期的持仓信息，越难反映最新的持仓（久期）情况。最大权重的引入则有利于帮助上述权衡问题，更大的权重可以缓解长回归区间中对新样本关注不足的情况。为此我们尝试了不同的回归区间和最大权重，结果如下表28所示：

综合考虑，我们认为对中长久期债基采用（100天回归窗口+3最大权重），对短久期债基采用（60天回归窗口+3最大权重）最佳。我们采用该异质性参数分别对中长久期债基和短久期债基进行估计，其误差分布如下：

采用上述参数的WLAD测算久期误差的MAE为0.61，绝对误差的中位数平均为0.43。至此，我们认为在回归框架下，这已经是一种较为精准的测算结果。

从时序上看，模型在不同时期下的测算效果较为稳定，在最新报告期（2024/6/30）下，模型对久期测算绝对误差平均值为0.49，中位数为0.33。

从单个债基来看，我们分别以交银裕利纯债A（519786.OF）和大成景安短融A（000128.OF）为例，模型测算的久期与真实久期误差较小，且能够较为准确地反映出久期变化的趋势。

全市场纯债基金的最新久期测算结果：近期整体久期有所上升

使用上述模型和最新净值数据对全市场纯债基金最新久期（2024/11/29）进行测算，结果如下：

上图33、34展示的是短期纯债型基金和中长期纯债型基金在不同报告期的平均测算久期与真实久期。可以看到，从历史上看，模型测算的久期基本与真实久期趋势吻合。截至2024/11/29数据，模型预测短期纯债型基金的平均久期为1.07年，中长期纯债型基金的平均久期为2.74年，相比于2024/6/30的久期均有所上升。

从测算久期分布来看，短期纯债型基金的最新测算久期主要集中在[0.3, 1.2]区间，而中长期纯债型基金主要集中在[1.5, 4]区间。

风险提示：

模型测算结果可能与真实情况差异较大；模型基于历史数据进行测算，未来市场环境变化存在失效风险。本文不涉及对任何金融产品的推荐及建议，投资有风险，入市需谨慎。