点击蓝字,关注我们
数据分析软件 | JMP
2024 年 8 月 20 日(周二)下午 2:00 -3:00,JMP 将为大家带来免费的线上网络研讨会《DOE 经典案例实战:产品研发与工艺优化的 3 种实验设计方法》,主讲人是 JMP 数据分析师潘老师,点击【阅读原文】即可立刻注册,注册后即可收到回放噢~
今天这篇文章是潘老师特别为大家准备的“课前开胃菜”,相信您无论是否参加此次研讨会,通过阅读本文,都能感受到别样的收获。
为何值得一读
这篇文章包含字数比较多,但十分建议您进行阅读,因为其中前沿内容的引用,将为您改善目前工作流程提供新思路,甚至能借助此创新方法带来突破性的研究点。
您可以选择感兴趣的部分仔细研读,例如:
当下实验设计的新趋势(第一节):基于模型的“传统”实验设计 vs 模型未知的空间填充设计
与机器学习结合(第二、三节):空间填充设计与机器学习结合,适用于具有高度的复杂性和非线性特性的研究对象,比如计算机仿真领域、材料、化工、食品和医药研发领域等。
选择适合的实验设计方法(第四节):传统实验设计和空间填充设计是两种完全不同的实验设计思维方式 —— 基于模型与模型未知,那么如何选择这两种实验设计方法呢?
基于模型与模型未知只是实验设计方法选择的关键一步,想了解更详细内容,可以观看 8 月 20 日的 DOE 直播课程,潘老师将会进行更深入的讲解。
本文作者
潘老师 - JMP 数据分析师
作为实验设计(DOE)的爱好者,日常之一就是关注实验设计大师们的动态,最近在 JMP 实验设计专家 Phil Kay 的 #DOEbyPhilKay 话题下,观察到了一些有趣的新趋势,深受启发,特地赶来和大家分享。
01
从两种文化谈起:
实验设计新趋势
一切探索和觉知都始于这篇大咖云集的帖子1。
Phil Kay 从随机森林模型的发明者 Leo Breiman 的经典语录谈起,从统计建模领域的两种文化2(经典统计建模 vs 机器学习)类比到实验设计领域的两种理念(基于模型的“传统”实验设计 vs 模型未知的空间填充设计),发现两个领域竟然如此相通!
对于为估计指定模型而设计的实验,我们自然而然会采用经典统计建模方法来拟合模型并对其进行解释。而对于没有为任何特定模型设计的实验(即空间填充设计),则应采用某种形式的算法建模(即机器学习)进行分析。
这篇帖子随即引来了洛斯阿拉莫斯国家实验室客座科学家Christine Anderson-Cook和欧莱雅实验设计大咖Victor GUILLER 的评论和认同,Christine 还贴出了她之前撰写的文章《The First Fork in The Road: The choice between model-based or space-filling designed experiments》3,他们的讨论引起了我极大的好奇心,空间填充设计这种鲜为人知的实验设计方法竟然成为了这次讨论的焦点,于是决定一探究竟。
02
奇妙的组合:
空间填充设计与机器学习
空间填充设计4作为一种现代实验设计方法,随着计算机仿真模拟实验的发展而兴起,如今与机器学习相结合,也逐渐应用于复杂非线性系统的建模,正以一种全新的姿态再次进入大众的视野。
现代实验设计方法将设计空间的空间填充作为首要考虑因素,这些现代实验设计方法大致可分为两类:一次性采样方法(one-shot sampling)和自适应采样方法(adaptive sampling),包括球堆积、拉丁超立方、均匀、最低位势、最大熵、高斯过程IMSE最优和快速灵活填充等设计。
1
空间填充设计的特点
普遍存在于计算机仿真模拟实验领域(没有随机误差)
实验点多分布在设计空间内部
适合模型未知的实验
适合构建高度复杂和非线性的机器学习模型
2
空间填充设计与经典实验设计对比
在具有很大随机噪声系统的传统实验中,目标往往是使预测方差最小化,经典实验设计方法(如完全析因、部分析因、中心复合设计)被广泛应用,这些方法旨在最小化由传统实验中未知和不可控变量引起的随机误差。然而,计算机模拟通常不受此类随机性影响,它们涉及更多的系统误差,而非传统实验中遇到的随机误差。因此,由于这种固有的差异,直接将这些经典采样方法应用于确定性计算机模拟实验有时效率不高,甚至不足,可能并不合适。
空间填充设计对于确定性或近似确定性的建模系统非常有效。比如计算机模拟就是确定性系统,对于相同的输入具有相同的输出,没有随机误差。这类模拟可能很复杂,涉及很多具有复杂相互关系的变量。对这些系统设计实验的目标是找到更简单的代理模型(Surrogate Model),该模型足以预测系统在因子的有限范围上的行为5。在针对确定性系统的实验中,没有方差但有偏倚(偏倚是近似模型和真实数学函数之间的差值)。
3
空间填充设计的目标
空间填充设计的目标就是限制偏倚。
一种限制偏倚的方法是让设计点的分布尽量远离彼此,同时它们要保持在实验边界内。
另一种方法是使点均匀分布在相关区域。
实验设计是构建代理模型的关键过程,实验设计方法用于选择进行模拟仿真的样本点。不同实验设计方法生成的样本点可能会产生相同的代理模型,但精度不同。因此,在设计空间中合理分配样本点对于提高模型精度至关重要。
4
空间填充设计的适用场景
空间填充设计不仅高度适配具有确定性特点的计算机仿真模拟领域,在材料、化工、食品和药物研发等领域,研究对象往往具有高度的复杂性和非线性特性,传统的试验设计方法难以满足需求,空间填充设计因其模型未知的特点和独特的合理布点准则,也逐渐成为这些领域研究的理想选择。
基于空间填充设计采集的数据,结合机器学习模型的应用,得以构建非线性的复杂模型,更准确地反映真实世界的物理和化学过程,模型往往具有更强的预测精度和泛化能力。
空间填充设计与机器学习的奇妙组合,逐渐在更加广泛的工程场景应用中展现出巨大的潜力和价值。
03
融合的力量:
从仿真模拟到医药化工
空间填充设计与机器学习的组合,作为一种实验设计采样与代理模型构建方法,正在逐步与更多的行业应用相融合,为我们带来新的惊喜和可能性。
在仿真领域6,7,它帮助工程师们以更低的成本、更快的速度验证设计方案的可行性。
在化工行业8,9,它优化了生产流程,提高了产品质量和产量。
在食品行业10,它助力研发出更符合消费者口味的产品。
在医药行业11,它更是新药研发的重要工具,加速了药物研发的进程。
这些跨界应用,充分展示了空间填充设计在解决实际问题中的实用性与高效性。
04
选择的艺术:
基于模型与模型未知
传统实验设计和空间填充设计是两种完全不同的实验设计思维方式:基于模型与模型未知12。
经典实验设计和最优实验设计方法,会假定某种先验模型,是基于模型的实验设计。而空间填充设计没有先验模型,在设计空间内部合理均匀布点采样,是模型未知的实验设计。
当我们面对现实世界,尤其是工程领域的复杂分析建模场景时,往往需要面临实验设计十字路口的艰难抉择,究竟是选择基于模型的实验设计还是模型未知的实验设计?
1
基于模型
这种类型的实验设计先验地假设一个特定的模型(具有主效应、交互作用项等),然后生成实验点以优化模型系数的估计或最小化模型预测方差。
这种方法假设了一种特定的模型形式(通常是多项式模型),当底层模型是众所周知的,或者对所研究的系统有先验知识时,这种方法很有用。它可能需要更少的实验点,如果想轻松获得可解释的结果,基于模型的实验设计是理想的选择。
例如:响应 Y 受到因子 A 和 B 的统计显著主效应以及 A 和 B 之间统计显著的双因子交互作用的严重影响。
2
模型未知
这种类型的实验设计在实验空间中均匀和随机分布实验点,然后将不同的模型拟合到这些实验点上,以获得最佳的预测模型。
这种方法可能需要大量的实验点,具体取决于所构建模型的复杂性(线性回归、支持向量机、随机森林、神经网络等),不假设任何特定的模型,在底层模型未知或复杂时非常有用。但是这种方法可能对噪声很敏感,使用机器学习模型可能产生过拟合的情况。
例如:实验初期探索阶段,对模型知之甚少;底层模型存在复杂非线性关系,简单多项式模型难以精准描述。
3
两种方法的比较
两种实验设计方法各有所长。
基于模型的实验设计可能更高效,需要更少的数据,但它们更容易受到模型设定错误(Model Misspecification)的影响,在面对复杂或未知的底层模型时可能不那么稳健。
模型未知的实验设计可以更灵活、更稳健地应对模型设定错误,但它们可能需要更多的数据来实现与基于模型的实验设计相当的精度。
这两种实验设计思维方式之间的评估也可能不同,基于模型的实验设计更强调统计显著性(响应曲面设计和混料设计除外),模型未知的实验设计试图在设计空间中获得最佳预测,而不是在模型中找到一个重要因子或效应项,更强调预测准确性(RMSE和其他预测性能指标)。
Christine Anderson-Cook在《The First Fork in The Road: The choice between model-based or space-filling designed experiments》13中也分析了两种思路的主要区别:
基于模型的实验设计强调在设计空间的边缘采样(降低随机误差的影响),通常具有较少的因子水平,更适合构建比较简单的多项式模型。
模型未知的实验设计(空间填充设计)则更强调在设计空间内部合理均匀布点(通常没有随机误差,降低偏差),具有更多的因子水平,适合构建复杂的精细模型。
两种实验设计方法的选择,没有固定的范式,需要根据分析目标具体情况具体分析。了解每种方法的优点和局限性,灵活运用,方能应对纷繁复杂的分析难题!
选择基于模型还是模型未知,只是实验设计旅程中的第一个关键岔路口,实验设计方法的选择需要综合权衡更多因素。但确保启程时朝着正确的方向前进,对抵达目的地至关重要。
05
两种文化的启示:
经典与现代的交响
我们再次来回顾 2001 年Leo Breiman在《Statistical Modeling: The Two Cultures》发表的这段经典语录。当时的统计学界存在两种文化,98% 的统计学家几乎都在使用占主导地位的经典统计建模方法,而以随机森林和支持向量机为代表的新兴机器学习模型鲜为人知,但这两个模型却颠覆了人们对于模型多样性、模型复杂性和预测准确率的传统认知,Leo Breiman 认为应该拥抱新文化,以解决问题的实用主义态度推广机器学习模型的应用。
20 多年过去,以随机森林和支持向量机等算法模型为代表的机器学习迅速发展,应用已经渗透到了各行各业,这些方法将能够更精准地预测实验结果,更快速地发现新规律,从而推动了科学研究和工程应用的飞速发展。经典统计建模与机器学习,两者各有千秋,都仍在各个领域大放异彩,我们不禁感慨于机器学习模型发展之迅速,也不免感叹经典统计建模的不可或缺。
如今空间填充设计与机器学习的结合在解决问题的实用性方面也展现出了巨大的潜力,我们仿佛再次来到了同样的历史节点。在经典实验设计和经典统计建模结合的应用不断深化的同时,现代实验设计与机器学习建模结合的应用也崭露头角。现代实验设计能否一鸣惊人,和经典实验设计携手共进,演奏全新的篇章,让我们拭目以待!
活动推荐
基于模型与模型未知只是实验设计方法选择的关键一步,想了解更详细内容,可以观看 DOE 直播课程,潘老师将会进行更深入的讲解。
千万不要错过下周二的网络研讨会噢!
扫描下方邀请函二维码或点击【阅读原文】,立即预约您的席位!
参考文献
Phil Kay DOE Post | LinkedIn
Breiman, Leo. “Statistical Modeling: The Two Cultures.” Statistical Science, vol. 16, no. 3, 2001, pp. 199–215. JSTOR, http://www.jstor.org/stable/2676681. Accessed 11 Aug. 2024.
The First Fork in The Road. The choice between model-based or space-filling designed experiments. by Christine M. Anderson-Cook and Lu Lu
空间填充设计 - 《中国大百科全书》第三版网络版 (zgbk.com)
Jiang, Ping & Zhou, Qi & Shao, Xinyu. (2020). Surrogate Model-Based Engineering Design and Optimization. 10.1007/978-981-15-0731-1.
An Uncertainty Quantification Case Study Using Space-Filling Designs With Mixtur... - JMP User Community
Using Design of Experiments Methods for Efficient Modeling & Simulation - JMP User Community
A Mixture/Process Experimental Design and SVEM Analysis for an Esterification Reaction
Synergy Between Design of Experiments and Machine Learning for Enhanced Domain Expertise
Designing Mixture Experiments - Part 2 - JMP User Community
CMC, SVEM, Neural Networks, DOE, and Complexity: It’s All About Prediction - (20... - JMP User Community
Solved: Space filling versus optimal DOE - JMP User Community
The First Fork in The Road. The choice between model-based or space-filling designed experiments. by Christine M. Anderson-Cook and Lu Lu
想要获得以上参考文献的链接?
JMP官方微信公众号
敏捷分析 成就无限
分享
收藏
点赞
在看
点击“阅读原文”,立即报名网络研讨会~