选择模型和共享参数模型

2024-10-19 08:05   上海  

选择模型


选择模型由 James Heckman 开发,2000 年因这项工作获得诺贝尔经济学奖。


举个例子,给你一个任务,要你研究工资与工作经历之间的关系。你可能会给特定公司的一些员工一份问卷,调查他们的报酬以及各自在目前岗位上的工作年限。或许你会发现报酬多寡与工作年限有非常强的正相关关系。但是这一结果可能并没有多大意义。因为它忽略了变量偏差的问题。假定受教育程度、性别、种族歧视等也是决定工资水平的重要变量(现实确是如此),那么你不仅忽略了这些重要的信息,从而得出的结果并不完全,更要命的是这些被忽略的信息可能恰恰会影响你得出工资与工作资历之间的相关关系。因为,完全也有可能是另一种情况,即较长的工作资历是较高工资的结果,因为高工资使人们不愿意另求它职。如果真是这样,那么前面的结论就是错误的。

赫克曼的主要贡献之一,就是处理样本偏差问题。在上面例子中,可以采取的一个修正办法是,选择一个不会被工资水平所影响的变量如年龄来替代工作资历变量。或者,考虑被调查过的员工与未被调查的员工的情况大相径庭时对结论的影响,如果能找出是哪些因素决定谁来回答问卷(比如也许只有高工资的员工才有时间填写问卷)得出的结论就会精确得多。

到此为止我们谈论的是控制数据收集之规则所带来的选择性样本的结果。但问题不仅是这样,选择性样本也有可能是经济代理人自己行为的后果,这就是自选择问题。提出处理自选择问题的方法是赫克曼的主要贡献之二。

我们仍然用一个例子来说明。比如我们要研究工资和教育程度的关系,显然我们只可能从有工作的人们那儿获得有关工资的数据,我们也可以根据这些数据绘制成图1那样的分布图。图1中W表示工资,X表示受教育程度,可获得工资数据是图中的实心点。这样,我们研究所得到的两者的关系就如虚线所示。
在1974年发表的《影子价格、市场工资与劳动供给》(Shadow Wages, Market Wages and Labor Supply)中,赫克曼设计出一种解决自选择问题的计量经济学方法,确立了他无可争议的学术地位。后来,赫克曼又提出了另一解决自选择问题的方法,即著名的赫克曼矫正法(Heckman Correction,又称两阶段方法)。赫克曼矫正法分两个步骤进行:第一步骤,研究者根据经济学理论设计出一个计算个体工作概率的模型,而该模型的统计估计结果可以用来预测每个个体的概率;第二步骤,研究者将这些被预测个体概率合并为一个额外的解释变量,与教育、年龄等变量一起来矫正自选择问题。这样,估计出的工资关系在统计意义上就很适当了。

我们以前面的例子简单地说明赫克曼矫正法的原理。首先,估计出不同教育水平的人,参加工作的概率(可能性)各有多大,这可以通过经验数据模型得到。然后,删去不工作之人的样本,将余留的样本点依其工作概率的不同,垂直往下位移。工作概率愈小,向下位移愈大;工作概率愈大,向下位移愈小。工作概率百分之百的,不作位移。(图2,实心点下移到由空心点标示的新位置。)
然后,对位移后的样本点,求出其回归线。理论上可以证明,这条回归线,与第一个图中标出的真实关系线,应当是一致的(参见图3)。
heckman两步法过程是:

我们想要了解女性教育对工资的影响,那么这里需要注意到,有些受了教育但也没有参加工作,那这部分样本需要特殊处理。所以,我们就先预测一个女性参加工作的可能性,然后再在那些参加了工作的女性样本中回归工资和教育水平。

当然问题中的重点是,如果在Heckman两步法回归中遇到内生性问题,那我们应该在第二阶段寻求工具变量IV,然后来分开回归就可以解决了。有一篇英文文献原文为:In the first stage, we run 5000 probit equation on Core NTBs (one for each product) explained by the instruments discussed above, to obtain the Mills ratio (the ratio of the probability density function and the cumulative density function of each observation). The second stage equation adds the Mills ratio of the probit model describing the……   

 

         

 


举个例子来解释上述选择模型公式:



Selection_Model2包含2402行code,需要的后台留言。


 

Stata code实现选择模型比较成熟和方法。

参数共享模型

参数共享是深度学习算法中的一种重要技术,通过共享模型的参数来减少模型的复杂度,并提升模型的性能和泛化能力。参数共享的原理是基于特征的局部性假设,认为相邻的特征之间具有相似的统计特性。参数共享在卷积神经网络、循环神经网络和转移学习等领域有广泛的应用。深度学习算法中的参数共享为我们解决复杂任务提供了一种有效的方法,同时也为我们理解深度学习的工作原理提供了重要的启示。


参数共享指的是在模型的不同部分使用相同的参数。在传统的机器学习算法中,每个特征都有自己独立的参数,而在深度学习算法中,通过参数共享,多个特征可以共享同一个参数,从而减少参数的数量。这种共享参数的方式可以有效地减少模型的复杂度,并提高模型的训练速度和泛化能力。


参数共享的原理是基于特征的局部性假设。在深度学习中,我们通常认为相邻的特征之间具有相似的统计特性,因此可以使用相同的参数来处理它们。通过参数共享,模型能够更好地捕捉到数据中的局部模式,提高模型的表达能力和泛化能力。


参数共享在深度学习算法中有广泛的应用,下面介绍几个常见的应用场景:


卷积神经网络(CNN


在卷积神经网络中,参数共享被广泛应用于卷积层。卷积层通过滑动窗口的方式对输入数据进行卷积操作,并使用相同的卷积核对不同的位置进行特征提取。这样一来,卷积层的参数可以在不同的位置上共享,大大减少了参数的数量。参数共享使得CNN能够有效地处理图像等结构化数据,提取出局部的特征。

 

循环神经网络(RNN


在循环神经网络中,参数共享被应用于时间维度上的循环操作。RNN通过共享权重矩阵来处理不同时间步的输入,这样一来,RNN的参数可以在不同的时间步上共享,大大减少了参数的数量。参数共享使得RNN能够对序列数据进行建模,捕捉到序列中的时序信息。 


转移学习(Transfer Learning


转移学习是一种利用已经训练好的模型来解决新任务的方法。在转移学习中,参数共享被应用于将已经训练好的模型的参数迁移到新任务中。通过共享参数,新任务可以从已经学到的知识中受益,并在少量的样本上实现更好的性能。



对于上述共享参数的公式,可以假设有一些潜在(隐藏)因素 b 可以解释缺失机制(当数据缺失时)和所有 Y (缺失和观察到时),这些潜在变量可以与模型中的其他参数一起估计,然后将潜在变量从模型中整合出来以进行边际推断。


共享参数模型由Eli Lilly and Company - Global Statistical Sciences一起开发如下marco

Shared_parameter1包含1583code,需要的后台留言.



本文将用Sas Marco运行三个模型:

1.No linkage,因此假设 MARrandom intercept only)。

2.通过随机截距和随机时间斜率进行linkageboth random intercept and random linear  time slope)。

3.与用于治疗调整的 dropout 模型有额外的交互项(Random intercept, random linear time slope and quadratic time slope)。


Javascript的PyTorch可以实现共享参数模型比较成熟和方便。


Take home message:


1.Javascript的PyTorch实现共享参数模型比较成熟和方便,我们用的模型,在计算机领域和新能源算法模型领域是小巫见大巫;Stata code实现选择模型比较成熟和方法,计量经济学中 stata是主流软件,相当于我们生物统计的 Sas,个人推荐山东大学陈强教授的 Stata 计量经济数据培训。


2.与选择模型和共享参数模型相比,FDA偏向于PMM方法,因为模型简单且解释起来容易被临床医生接受。


3.两种模型借鉴的是经济学和 AI 领域的算法模型。好多统计方法和理论也来自心理学和社会学和农业教授。数学是个万能油,可以兼容任何学科。 交叉学科是大热学科,复合型人才是真人才。学习莫言痛。越学越写,感觉自己之前了解的不透彻。还需继续研读英文原作,然后和别人讨论,继续在项目中历练,不多纠错不断力争上游。


PS:

替朋友招聘一位临床评价主管,有兴趣可以发简历到 1058825200@qq.com。


薪资待遇:25K-30K


岗位职责:1.负责医疗器械注册申报过程中的临床评价工作;2.负责临床评价报告的撰写,文献检索及整合,确保撰写的临床评价报告符合法规相关要求;3.负责与客户针对临床评价问题进行沟通,及时回复客户的问题,并对临床评价报告进行修改,及时协调内外部资源提供解决方案,推动项目有序进行;4.解答器审中心发补中有关临床评价的相关问题;5.国内注册申报和进口注册临床评价工作,境外临床试验数据分析,真实世界数据分析;6.熟练掌握文献检索策略以及检索工具使用,检索国内外医学数据相关文献;任职要求:1.本科及以上学历,临床医学、公共卫生、流行病与卫生统计等医药相关专业,研究生优先;2.具有医疗器械临床评价报告撰写工作完整工作经验3.英语可作为工作语言4.有口腔科和骨科产品经验优先5.工作认真负责,学习能力强,具有独立思考和解决问题的能力。


参考文献:


http://personal.rhul.ac.uk/uhte/006/ec5040/selectivity.pdf

Little, R.J.A. & Rubin, D.B. (1987), Statistical Analysis with Missing Data. New York: John Wiley.


Wu M.C. & Carroll R.J, "Estimation and Comparison of Changes in the Presence of Informative Right Censoring: Modeling the Censoring Process," Biometrics, 1988; 44,175-188


Wu M., & Follmann, D.A. “Use of Summary Measures to Adjust for Informative Missingness in Repeated Measures with Random Effects,” Biometrics, 1999; 55 75-84


Albert P. S. & Follmann, D.A. “Shared Random Effects Models”, Ch19, Longitudinal Data Analysis: A Handbook of Modern Statistical Methods, Chapman & Hall/CRC Press

流行病学与卫生统计学
Pivot数据交流平台,每周分享临床试验研究设计、实施、统计等相关信息。
 最新文章