高通量实验正在重塑工业AI优化的范式

文摘   2024-11-22 07:03   上海  
思源Source
作者:诌小王@时现智能
有幸参加了今年的科学智能峰会,收获颇多。最让我印象深刻的是,很多实验室已经部署了高通量实验设施,每天能产生几百上千个数据点。这个改变意义重大,它标志着实验和工艺设计优化即将脱离'小数据'时代,而这或许将会重塑工业AI优化的范式

作为一个工业AI从业者,高通量实验的普及让我异常兴奋。数据量不足一直是制约工业AI发展的最大瓶颈,而数据量的解放基本上可以约等于生产力的解放。接下来要做的,就是探索最优的底层AI技术,并打造一个人人可用的工具,把它交到每位实验科学家手中,真正释放他们的创新潜力!

在'小数据'时代,实验和工艺优化主要依赖于基于高斯过程的贝叶斯优化。这是一个经过充分验证的方法:它能很好地处理总实验次数在几十到几百次的场景,在约二十维度以下的参数空间中表现稳定,而且能够给出预测的不确定性,帮助我们在探索(exploration)和利用(exploitation)之间做出权衡。当样本量低的时候,学术界也对高维贝叶斯优化做了较多的探索,虽然大多数方法并未得到充分的工业验证。

但是当我们每天能产生成百上千的数据点时,传统的贝叶斯优化方法就显得力不从心了。首先是计算效率的问题 - 高斯过程的计算复杂度会随着数据量的增加而急剧上升。更重要的是,在这个新的数据量级下,我们需要重新思考优化策略:如何设计每天的成批实验?如何高效利用暴增的数据来提升模型性能?如何在不同实验之间进行知识迁移?这些都是亟待解决的新挑战。

模型选择

在这个新的范式下,我们首先需要重新思考底层AI模型的选择。当数据量从几百条扩展到几万甚至上百万条时,我们需要一个能够随数据量增长而不断提升性能的模型。传统的高斯过程虽然在小数据场景下表现优异,但其计算复杂度使得它难以应对数据量的大幅增长。

更重要的是,在小数据时代,模型的预测性能与优化效果之间并没有很强的相关性。这是因为数据太少,即使在历史数据上取得了不错的预测精度,也很难保证模型具有良好的泛化能力。但在新的范式下,当我们能够自主产生大量数据时,我们可能可以从根本上改变这个情况 - 建立起预测性能和优化效果之间的直接联系。这意味着我们过去十几年在提升预测模型方面积累的丰富经验,都可能可以被用来提升优化效果。

策略优化

当我们每天可以同时产生成百上千个数据点时,如何最优地设计这些实验点成为了一个新的挑战。我们需要在每个批次中平衡探索和利用,同时确保批次内实验点的多样性。这可能需要在优化算法中加入多样性惩罚项,避免在同一批次中选择过于相似的实验点。

这个问题在传统的贝叶斯优化中很少被关注,因为在小数据时代,我们往往是一个点,或者最多几个点为一组来设计实验。但在高通量时代,如何高效地设计大批量实验点,可能会直接决定优化的效果。

知识迁移

当我们可以产生大量高质量的数据时,我们终于可以开始认真思考AI最强大的优势 - 知识迁移。在小数据时代,每个实验的数据量都很有限,我们很难验证模型的迁移效果。但在新的范式下,我们将可能有足够丰富的数据来训练模型,并开始对在优化框架下的迁移学习进行深入探索。

这意味着我们可以开始尝试打通不同实验之间的边界,挖掘它们之间的相似性,可能可以利用这些数据来训练一个基座模型,或者使用多任务学习的方式来充分利用所有的数据信息。这样,当我们开始一个新的实验时,就可以从一个很高的起点出发。

这种知识的累积和迁移,可能会是未来工业AI最核心的竞争力。因为在工业场景中,很多实验和工艺应该都存在着潜在的关联,如果能够有效地利用这些关联,我们就能大大加速优化过程,降低实验成本。

工具开发

最后,要真正释放高通量实验和AI优化的潜力,我们可能还需要一个简单易用的工具。如果类比深度学习的发展历程 - TensorFlow和PyTorch的出现,让AI技术真正走向普及,极大地提升了所有从业者的生产力。技术的革新固然重要,但只有当使用的门槛足够低,才是一个领域蓬勃发展的时候。

在实验和工艺优化这个领域,这一点可能更为重要。除了学科之间的差异外,AI优化本身又是一个非常精细的工作,差之毫厘可能谬以千里。过去的工作大多集中在利用AI做预测本身,而不是在利用AI做优化上面,这使得大家对这块的理解还不够深入,使用门槛也相对较高。

一个通用的、简单的AI优化工具,很可能会是连接实验科学家和最前沿AI优化技术的重要桥梁。



这将会是一个让我们热泪盈眶的新时代。希望更多的企业和AI爱好者能够参与到这场变革中来,携手推动这个领域的发展,让AI+实验科学更快地成为现实。

思源数据科学
Towards AGI
 最新文章