每月优化升级来咯,这次更新中优化了一些算法以及功能。让我们来看看都更新了什么内容吧!
01
网格寻参:寻参模型简单,数据集维度少,样本量较少时。
随机寻参:寻参模型较复杂,数据集维度较多,样本量较大时。
贝叶斯寻参:寻参模型复杂,数据集维度之间关联性高,样本量较大时。
连续二分网格寻参:提高搜索效率的网格寻参,需要对常规网格寻参参数进行优化时。
连续二分随机寻参:提高搜索效率的随机寻参,需要对常规随机寻参参数进行优化时。
遗传寻参:数据集经过常规寻参可能拥有多个最优参数解,寻参模型复杂,数据集维度多,样本量较大时。
分布式异步组态寻参:能够适应极度复杂的数据集,模型,且不确定性因素较多时。并且使用分布式异步组态寻参方法还可生成自动寻参最优损失曲线。损失曲线的对比能够帮助用户了解不同寻参策略在模型优化过程中的表现和差异,为选择合适的寻参策略提供依据。
02
过采样:过采样技术通过增加少数类样本的数量,使样本分布更加均衡,提高模型对少数类的识别能力。例如,在医学诊断中,通过过采样可以提高对罕见疾病的诊断准确率。SMOTE(合成少数过采样技术)是常用的过采样算法,通过在少数类样本的特征空间中生成新的合成样本,增加样本多样性,避免简单复制样本导致的过拟合问题。
欠采样:欠采样技术通过减少多数类样本的数量,使样本分布更加均衡,降低模型的计算复杂度。例如,在金融欺诈检测中,通过欠采样可以减少正常交易样本的数量,提高模型对欺诈交易的识别速度。随机欠采样是最基本的方法,但可能导致信息丢失。改进的欠采样算法如聚类欠采样,通过聚类算法保留多数类样本中的代表性样本,减少信息损失。
混合采样:混合采样结合了过采样和欠采样的优点,先通过过采样增加少数类样本,再通过欠采样减少多数类样本,使样本分布更加合理。例如,在不平衡数据集的分类任务中,混合采样可以有效提高模型的综合性能。通过调整过采样和欠采样的比例,可以根据具体数据分布和模型需求,灵活优化样本均衡程度,达到最佳的分类效果。
模型均衡法:一些集成学习算法内置了样本均衡功能,如EasyEnsemble,BalanceCascade等,可以直接在模型训练过程中进行样本均衡处理,简化了数据预处理的步骤。例如,使用集成学习方法设置内置均衡器参数,自动调整样本分布。内置均衡器通常结合了多种采样策略和算法优化,能够适应不同类型的不平衡数据集,提高模型的泛化能力和预测准确性。
03
COX回归增加DCA曲线结果。
DCA是一种评估临床预测模型、诊断试验和分子标记物的简单方法。传统的诊断试验指标如:敏感性,特异性和ROC曲线下面积仅测量预测模型的诊断准确性,未能考虑特定模型的临床效用,而 DCA的优势在于它将患者或决策者的偏好整合到分析中。
04
RCS样条会生成4副图,方便我们判断暴露因素与结局因素的非线性趋势的定性分析。
以下将讲解判断具体规则:
1.主线条形态判断:首先观察fig.proball.pdf,判断主线条是直线还是呈现非线性趋势。如果为直线,则无需进一步分析。
2. U型或J型趋势的判断:若主线条呈现U型或J型,则查看fig.ushapall.PDF图,识别最低切点,进一步进行二分类分析,探索不同区间内变量的影响。
3.倒U型趋势的判断:若主线条呈现倒U型,则查看fig.nshapall.PDF,找到最高点,识别关键的切点,进行二分类分析。
4. L型或平稳趋势的判断:若主线条接近L型或平稳,则查看fig.lshapall.PDF,这时通常可以通过提取关键点来进一步定量分析。
05
方便大家区分变量类型,描述性统计增加分类变量选项。
06
岭回归通过在回归模型的目标函数中加入正则化项,对回归系数进行收缩惩罚,从而缓解共线性问题,提高模型的稳定性和预测能力。例如,在岭回归中,通过调整正则化参数alpha,可以控制回归系数的收缩程度,找到模型复杂度和预测误差之间的平衡点。
岭回归的正则化项通常采用L2范数,即回归系数的平方和,使得回归系数向零收缩,但不会完全变为零,保留了所有自变量的信息。
07
近期我们针对平台报错信息进行了优化,原先需要点击反馈过后才能看到报错详情修改为可以直接展示。并且点击头像中的我的反馈即可查看反馈问题的解决方案。
结语
临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。
打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!
扫二维码
关注我们
公众号|极智分析
B站|极智分析