针对高维混合型数据的稀疏聚类方法研究

学术   2024-10-21 07:03   广东  
作者介绍

徐少东,中国人民大学统计学院在读博士生。主要研究方向包括异质性分析、网络数据分析、变量选择等。研究成果发表于Biostatistics, Bioinformatics, AOAS等高水平期刊。

今天与大家分享的是一篇发表于2024年AOAS上的文章,文章提出一种针对混合型变量的高维稀疏聚类方法,文章信息为:Wang, F., Xu, S., Qin, Y., Shen, Y., & Li, Y. (2024). Sparse clustering for customer segmentation with high-dimensional mixed-type data. The Annals of Applied Statistics.

1 引言

客群划分(Customer segmentation)是根据客户的共同特征、行为或偏好将客户划分为不同群体的过程。实现客群划分的一个重要方法就是聚类分析(Clustering analysis),这是一种经典的非监督统计方法。一般来说,聚类的任务是将一组观测值分组为若干个簇,使得同一簇中的观测值比其他簇中的观测值更相似。作为消费者细分的重要工具,聚类方法在经济和商业领域有着广泛的应用。例如,Nakano and Kondo (2018) 使用潜在类别聚类方法根据购买渠道和媒体接触点对客户进行细分。Ballestar et al. (2018) 使用层次聚类方法对返现网站客户进行细分。Guttentag et al. (2018) 采用聚类分析来推导共享经济中的消费者类型。Zhu et al. (2021) 采用基于 Kolmogorov-Smirnov 的聚类方法对银行卡交易数据进行细分。使用客户调查数据进行聚类分析,将客户划分为不同的类群,进而基于细分的客群划分向目标客户提供更加个性化的业务或产品。

由于现代数据收集技术的不断发展,企业可以调查得到丰富的客户数据。数据的丰富不仅仅表现在样本的数量上,还体现在变量的多样性和广度上。首先,数据中所包含的变量类型是混合的,既有连续型变量,又有分类型变量等;其次,调查数据包含的变量较多,具有高维性的特征。高维混合型数据给研究人员带来丰富的信息,也带来了分析上的困难与麻烦。

混合类型变量的存在对聚类分析提出了巨大的挑战。这是因为对于混合类型变量,两个观测值之间的距离很难计算。在过去的文献中,许多提出的聚类算法都是针对具有单一类型变量的数据集而设计的。例如,稀疏K均值方法(Witten and Tibshirani,2010)和一些谱聚类方法(Lei and Rinaldo,2015;Zhou and Amini,2019)仅用于聚类连续数据。K-modes方法(Dorman and Maitra,2022)和一些贝叶斯聚类方法(Ye et al.,2018;Lagona and Picone,2022)仅用于聚类分类或连续数据。然而,这些方法不能直接应用于具有混合类型变量的数据集。研究人员也提出了一些解决混合类型变量问题的聚类方法。例如,K-prototype 算法是 K-means 和 K-modes 方法的组合(Huang,1997)。它首先仅计算连续变量或分类变量的距离,然后计算两个距离的加权平均值。然而,K-prototype 方法的一个缺点是,平衡两个距离的权重必须预先定义。McParland and Gormley(2016)采用混合潜在变量模型对混合类型数据进行聚类,该模型可以平衡不同类型变量的权重,但具有很强的分布假设。Foss et al.(2016)提出了一种用于混合类型数据的半参数模型KAMILA。KAMILA 方法可以自适应地选择两类变量的权重,但它假设数据中的连续变量和分类变量相互是条件独立的。

对于高维数据的聚类分析,变量集合中通常存在噪声变量。换句话说,聚类结果实际上通常由变量子集来解释。在聚类学习过程中加入噪声变量可能会削弱信号变量的作用,从而影响聚类的性能。为了解决这个问题,现代聚类分析中经常考虑变量选择。已经存在多种用于聚类分析的变量选择方法。例如,Silvestre et al.(2015)开发了一种同时聚类分类数据和选择相关特征子集的方法。Fop et al.(2017)提出了一种基于模型的多元分类数据聚类方法的变量选择方法。Fu et al.(2021)提出了一种用于使用高斯混合模型对连续数据进行聚类的嵌入式变量选择方法。通过使用变量选择,我们可以提高模型拟合的准确性并更好地解释聚类之间的差异。有关聚类分析特征选择相关工作的综述,请参阅 Alelyani et al. (2018)。

现有的变量选择方法主要针对单一类型变量的数据集。随着混合类型变量数据集的出现,混合类型数据的同时聚类和变量选择引起了研究人员的更多兴趣。例如,Storlie et al.(2018)考虑了在存在许多相关的、混合的连续和离散变量的情况下基于模型的聚类问题。该方法还可以解决缺失值的问题。Marbac et al.(2020)提出了一种基于模型的方法,用于在具有最大综合完整数据似然 (MICL) 标准的混合数据聚类中进行变量选择。然而,这两种方法都对数据分布有很强的假设。在数据分布与模型假设不匹配的情况下,聚类性能可能会大大降低。为了解决这个问题,Chavent et al.(2020) 提出了一种非参数模型,用于对混合类型数据同时进行聚类和变量选择。他们采用了 Chavent et al. (2014) 针对混合类型数据提出的预处理步骤,然后将每个分类变量视为一组适当缩放的连续变量。然而,根据 Foss et al. (2016) 的说法,Chavent et al. (2014) 的方法无法平衡连续变量和分类变量在聚类中的贡献,从而削弱了聚类性能。

基于上述讨论,本文针对高维混合型数据提出了一种稀疏聚类分析的框架,可以实现对多种变量类型的联合聚类分析,同时公平地选择出不同变量类型中的重要变量。为了进行变量选择,所提出方法首先根据调整后的 Davies-Bouldin 指数(DBI,Davies 和 Bouldin,1979)评估每个变量的贡献。具体而言,它通过计算类内距离和类间距离之间的比率来衡量每个变量的贡献。此外,为了处理混合类型数据集,我们为每种变量类型设置单独的惩罚参数,这确保每个变量根据其对聚类的贡献被分配合理的权重。我们将这种稀疏聚类方法命名为 DBI-SC。与以前的聚类方法相比,DBI-SC 方法可以不受数据分布的影响,因此在实践中具有广泛的应用。我们严格证明了 DBI-SC 方法的筛选一致性属性。通过大量模拟验证了经验聚类性能以及变量选择性能。最后,我们将DBI-SC方法应用于代驾服务数据集,实现客群划分分析。

2 基于DBI的稀疏聚类方法

假定数据包含来自于个不同总体的个样本,定义为这个样本的类别标签向量,其中。类别标签在现实的调查中并不能直接得到。假设对每个样本可以调查得到个连续型变量和个分类型变量,第个样本向量用表示,调查数据集用表示。不失一般性,假设第1个到第个变量为连续型,第到第个变量为分类型。连续型变量定义在实数集上。分类型变量根据取值个数的不同有不同的取值空间。如果某个分类型变量存在个不同的取值,则设定其取值空间为。令表示第个样本和第个样本在第个变量上的距离。

基于模型的聚类方法中,不同类型的变量可以使用统一的概率测度进行度量。而在非参数的模型下,对于不同的变量类型我们需要使用不同的距离进行度量。连续型变量使用平方距离,即。而对于分类型变量,我们采用Ahmad and Dey (2007) 提出的共现距离(co-occurence distance)进行度量。共现距离的定义如下:对于第个分类变量及其两个不同取值,其距离定义为:

其中为指示函数。共现距离是通过数据集中其他变量来计算当前分类型变量的不同取值之间的距离。比如,对于“客户喜欢喝的饮料”这个变量中,主观经验告诉我们“可乐”和“雪碧”之间的距离应该会小于“可乐”和“牛奶”,如果使用简单匹配距离,只要取值不同,则两个样本在同一个分类型变量上的距离都是相同的,共现距离可以更加细致的刻画不同取值之间的距离。使用平方距离和共现距离只是一种方案,在本研究提出的框架下,只要是合理的距离度量都是可以选择的。

表示来自于第个总体的样本集合,同时令表示中的元素数量,。第类样本在第个变量上的类内离散程度定义为:

类样本和第类样本在第个变量上的类间离散程度定义为

为了在聚类的同时选择出重要的区分变量,需要引入稀疏聚类的方法框架。本研究以Witten et al.(2010)的稀疏聚类的框架为基础,提出一种针对于混合数据的稀疏聚类方法。定义为数据的第列,即所有个样本在第个变量上的取值。使用表示衡量第个变量区分不同类别样本贡献程度的函数,其中中所使用的参数。则稀疏聚类框架定义为下列优化问题:

其中为变量的权重向量。在稀疏K均值聚类方法中,为聚类标签,而
表示第个变量上的类间平方距离之和。但是在稀疏K均值聚类方法中,只考虑到连续型变量的聚类与变量选择,所以该方法不能直接应用于混合数据。

基于DBI的构造思想,本研究提出一种可以衡量不同类型变量在聚类时贡献程度的准则。DBI是最常用的聚类评价准则之一,其原始定义为

其中为第类的类内离散程度,表示第类与第类样本之间的离散程度。由于DBI衡量的是整体的聚类结果,所以为了得到每一个变量对聚类的贡献程度度量,需要对DBI进行调整。定义第个变量的调整后DBI为
其中分子为类间离散程度,分母为类内离散程度。与DBI不同的是,本研究使用类间离散程度与类内离散程度比率的最大值作为衡量第个变量对聚类贡献程度的参考,这是考虑到单个变量往往不会对区分所有类别都起作用。取最大值后,只要某个变量能够很好的区分出某两类样本,其调整后DBI就会显著高于没有区分能力的噪声变量。

因此,结合稀疏聚类框架以及调整后DBI,本研究提出的针对混合数据的稀疏聚类方法的目标函数为

其中为连续型变量的权重向量,为分类型变量的权重向量,两者分别由两个惩罚参数所控制。

在我们的模型中,我们用调整后DBI对每个变量对聚类的贡献进行度量,然后使用不同的惩罚参数控制不同的变量类型,这两个操作保证了我们可以公平地选择出不同变量类型下的信号变量,不会因为变量类型的不同,导致变量选择的结果偏向某一种变量类型。从理论上我们也证明了本研究提出的模型具有信号变量筛选一致性。

3 模型计算与参数调节

本文设计了一个坐标下降算法进行参数估计。在目标函数中,每个变量的权重分配是基于类间离散程度与类内离散程度的比值。因此,坐标下降算法总体包含两步。第一步,保持权重项不变,使用加权的距离度量获得每个样本的聚类标签。第二步,保持每个样本的聚类标签不变,更新每个变量的权重。该迭代算法总结如下。

基于DBI的稀疏聚类算法

为了能够合理选择两个惩罚参数,本研究提出了一种修正的DBI准则。原本的DBI准则是从整体衡量聚类效果,在此基础上,为了更好地选择变量,对DBI准则进行修正,修正后DBI准则(mDBI)的定义如下:

使用网格搜索,选择出使得mDBI最小的参数组合,即可实现惩罚参数的调节。

4 模拟实验

我们进行了一系列模拟研究来验证 DBI-SC 方法的性能。为了评估 DBI-SC 的性能,我们考虑了三种方法进行比较。第一种是稀疏 K 均值 (S-Kmeans),这是 Witten and Tibshirani (2010) 提出的一种经典稀疏聚类方法。第二种是稀疏交替和聚类方法 (SAS),它基于爬山算法 (Arias-Castro and Pu,2017)。最后一种是 VarSelLCM,这是一种基于模型的方法,它使用最大综合完全数据似然 (MICL) 标准在混合数据聚类问题中执行变量选择 (Marbac et al.,2020)。前两种方法是非参数方法的代表,最后一种方法是基于模型的混合数据聚类中最先进的方法。这三种方法都具有良好的计算性能,变量选择和聚类精度优于其他类似方法。在这三种方法中,稀疏K均值方法仅适用于连续变量。然而,它可以通过将分类变量转换为虚拟变量在一定程度上处理混合类型数据。SAS和VarSelLCM都可以同时对混合类型数据集进行变量选择和聚类。然而,SAS方法只对这两类变量应用了两个简单的距离测量;而VarSelLCM方法假设连续变量必须遵循正态分布。

我们从两个角度评估不同方法的性能:(1)聚类性能和(2)变量选择性能。对于聚类性能,我们计算 Hubert and Arabie(1985)提出的调整后的兰德指数 (ARI) 来评估每种方法下的聚类结果。对于变量选择性能,我们分别计算连续变量和分类变量的真阳性率 (TPR) 和真阴性率 (TNR)。在每个实验设置下,我们生成 B = 100 次重复的数据集,然后报告每种方法获得的每个评估指标的平均值(以及标准差)。

下表展示了当真实类别数为 2,连续型变量服从广义正态多项分布时的结果。其中,使用广义正态多项分布是为了模拟非正态情况下的数据,其概率密度函数为:

其中参数表示 Gamma 函数。根据表格结果可以看出,在不同变量维度下,DBI-SC 方法的表现均优于其他对比方法。更多的模拟实验设定和结果详见论文及附录。

5 实证分析

我们使用本文提出的方法对某国内某互联网代驾公司的服务调研数据进行客群划分。该数据集包含参与代驾服务使用情况调查的 4776 名客户的信息。对于每个客户,我们总共收集了46个连续变量以及65个分类变量。这些变量涵盖了客户的各个方面,包括基本个人信息、他们的娱乐习惯、饮酒行为、代驾服务的使用情况、法律意识以及对代驾服务的需求情况等。图 1的马赛克图显示了不同性别群体在过去六个月内饮酒或使用专车服务的比例。

图 1:不同性别群体在过去六个月内饮酒或使用专车服务的比例的马赛克图。

由于变量数量比较多,且包含连续变量和分类变量,我们采用本文提出的方法进行客户聚类。我们使用 mDBI 准则进行参数的选择。最终确定类别数为 5 类。五个聚类对应的样本量分别为 1537、1039、334、913 和 953。在 111 个变量中,基于本研究方法选出了 7 个连续变量和 10 个分类变量,包括年龄、职业、教育和居住城市等。为了评估不同方法的聚类性能,我们采用了 Silhouette 系数 (SC),其范围从 -1 到 1 (Kaufman and Rousseeuw, 2009)。较高的 Silhouette 系数表示样本与其自身聚类的匹配度较高,与其他聚类的匹配度较低。此外,我们计算了观测发生指数 (OOI) 来研究变量选择的稳定性 (Huang and Ma, 2010)。为了计算 OOI,我们采用了抽样策略。在每次抽样中,随机选择数据集中所有样本的 80%,并记录每种方法获得的选定变量。我们总共重复抽样 500 次,然后使用完整数据计算每个选定变量的出现比例 (即 OOI)。因此,OOI 值越大,选择稳定性越高。SC 和 OOI 的详细结果如图 2 所示。可以看到,我们提出的 DBI-SC 方法具有最高的 SC 和 OOI 值,表明其比其他方法具有更好的聚类性能和选择稳定性。

图 2:不同方法的 Silhouette 系数 (SC) 和观测发生指数 (OOI)。

下表展示了选出的部分变量在各个类别中的取值情况。据此可以总结出各个类别的特征。

  • 类别 1:该类顾客主要为一线城市中青年白领,他们经常因工作原因饮酒。该聚类使用代驾服务的次数相对较多,但平均费用相对较低。

  • 类别 2:该类顾客主要为中年人,居住在二线或三线城市。与类别 1不同的是,该聚类的顾客不经常使用代驾服务。但是,为代驾服务支付的平均费用相对较高。

  • 类别 3:该类顾客主要为一线城市的年轻人。与类别 1相比,他们饮酒频率较低,一般不会在离家3公里以上的地方饮酒。此外,他们从不使用代驾服务。

  • 类别 4:该类顾客主要为居住在二线或三线城市的中老年人,几乎不喝酒,也从未使用过代驾服务。

  • 类别 5:该类顾客主要居住在二线城市,饮酒行为与类别 1非常相似,但很少使用代驾服务,且在5个类中,顾客抵制酒驾的平均评分最低。

最后,根据各个类别的特点,我们可以针对每个类别制定有针对性的营销策略。类别 1中的人是主要客户群体,他们经常使用代驾服务但不愿意支付高昂的价格,因此,我们可以提供优惠券或其他促销手段,鼓励他们使用代驾服务。类别 2中的人对服务质量要求较高,也倾向于接受熟悉的司机提供的服务,因此,我们可以针对这一客户群体推出高质量的个性化代驾服务。类别 3中的人是代驾公司的潜在客户,他们喜欢使用社交网络进行交流和娱乐,因此,我们可以在平台上多做广告。类别 4 中的人不喝酒,他们使用代驾服务的可能性较小。类别 5中的人对酒驾的法律意识较弱,针对这一群体,可以多做酒驾宣传加上优惠券,鼓励他们尝试代驾服务。

5 总结

我们在这篇论文中提出了一个针对高维混合型数据的稀疏聚类框架,通过数值模拟和理论研究证明了模型的优越性。在未来的工作中,我们希望能够将该框架拓展到更复杂的数据结构中去(如空间、时间相依数据等)。所有的详细结果和参考文献见文章。


狗熊会
狗熊会,统计学第二课堂!传播统计学知识,培养统计学人才,推动统计学在产业中的应用!
 最新文章