使用新的开源跨学科数据集训练AI人工智能模型像科学家那样思考

百科 2024-12-19 10:00 北京

Polymathic AI（博学人工智能）团队近期发布了两个海量数据集（多模态宇宙、Well），用于训练AI人工智能模型来解决跨科学学科的问题。这些数据集包括来自天体物理学、生物学、流体动力学、声学和化学等数十个来源的数据。

作者：Thomas Sumner 2024-12-2

译者：zzllrr小乐（数学科普公众号）2024-12-7

名为Well的数据集包含的各种模拟现象。视频动画地址 https://vimeo.com/1035234539 图源：Alex Meng、Aaron Watters 、Well合

爆炸的恒星能告诉我们血液如何流经动脉？游动的细菌能告诉我们海洋的各洋流层如何混合？来自大学、科学慈善机构和国家实验室的研究人员合作，在训练AI人工智能模型以寻找和利用看似完全不同的领域之间的可迁移知识以推动科学发现方面取得了重要里程碑。

这项名为Polymathic AI（博学人工智能）的计划 https://polymathic-ai.org ，使用的技术与支持大语言模型（例如 OpenAI 的 ChatGPT 或 Google 的 Gemini）的技术类似。但该项目的模型不是提取文本，而是使用来自天体物理学、生物学、声学、化学、流体动力学等领域的科学数据集进行学习，本质上为模型提供了跨学科的科学知识。

“这些开创性的数据集是迄今为止为这些领域收集的用于机器学习训练的最多样化的大规模高质量数据集合，”Polymathic AI成员、纽约市Flatiron（熨斗）研究所的研究工程师Michael McCabe表示。“整理这些数据集是创建多学科AI模型的关键一步，这将使我们能够发现有关宇宙的新事物。”

今天，Polymathic AI团队向公众发布了两个开源训练数据集，总计115 TB，来自数十个来源，供科学界用于训练AI模型并实现新的科学发现。（相比之下，GPT-3使用45TB 未压缩、未格式化的文本进行训练，经过过滤后最终约为0.5TB。）

“免费提供的数据集是开发复杂机器学习模型的空前资源，这些模型随后可以解决各种科学问题，”Polymathic AI成员、Flatiron研究所CCM计算数学中心研究员Ruben Ohana表示。“机器学习社区一直是开源的；这就是为什么它与其他领域相比发展如此之快的原因。我们认为，共享这些开源数据将使机器学习和科学界受益。这是一个双赢的局面——你拥有可以开发新模型的机器学习，同时，科学界也可以看到机器学习能为他们做些什么。”

完整的数据集可从Flatiron研究所免费下载，并可在托管AI模型和数据集的平台Hugging Face上访问。Polymathic AI团队在两篇论文中 https://nips.cc/virtual/2024/poster/97791 提供了有关数据集的更多信息，这两篇论文已被接受在12月于加拿大温哥华举行的顶级机器学习会议NeurIPS https://neurips.cc 上发表。

McCabe表示：“我们一次又一次地看到，推动机器学习发展的最有效方法是接受艰难的挑战，并让更广泛的研究社区能够接受这些挑战。每次发布新的基准时，它最初似乎都是一个难以克服的问题，但一旦挑战被更广泛的社区接受，我们就会看到越来越多的人深入研究，比任何单个团体单独行动速度更快地加速进步。”

博学人工智能项目由西蒙斯基金会及其Flatiron研究所、纽约大学、剑桥大学、普林斯顿大学、法国国家科学研究中心和劳伦斯伯克利国家实验室的研究人员负责运营。

机器学习等人工智能工具在科学研究中越来越常见，今年的两项诺贝尔奖 https://www.nobelprize.org/all-nobel-prizes-2024/ 也都授予了它们。不过，这些工具通常是为特定应用而专门构建的，并使用该领域的数据进行训练。而博学人工智能项目则旨在开发真正博学的模型，就像专业知识横跨多个领域的人一样。该项目团队本身就体现了智力的多样性，有物理学家、天体物理学家、数学家、计算机科学家和神经科学家。

两个新的训练数据集中的第一个专注于天体物理学。该数据集被称为“多模态宇宙” https://github.com/MultimodalUniverse/MultimodalUniverse/ ，包含数亿个天文观测和测量数据 https://huggingface.co/MultimodalUniverse ，例如美国宇航局詹姆斯·韦伯太空望远镜拍摄的星系肖像和欧洲航天局盖亚航天器对我们银河系恒星的测量结果。

“机器学习在天体物理学领域已经出现了大约10年，但它仍然很难跨仪器、跨任务、跨科学学科使用，”Polymathic AI研究科学家Francois Lanusse表示。“像多模态宇宙这样的数据集将使我们能够构建能够原生理解所有这些数据的模型，并可用作天体物理学的瑞士军刀。”

总的来说，数据集高达100TB，是一项艰巨的任务。“我们的工作来自大约十几个研究所和二十几位研究人员，为机器学习成为现代天文学的核心组成部分铺平了道路，”Polymathic AI成员、牛津大学施密特人工智能研究员Micah Bowles说。“只有通过Polymathic AI团队以及来自世界各地的许多专业天文学家的广泛合作，才能收集到这个数据集。”

另一个集合称为Well https://github.com/PolymathicAI/the_well/ ，包含来自16个不同数据集的超过15TB的数据 https://polymathic-ai.org/the_well/ 。这些数据集包含生物系统、流体动力学、声散射、超新星爆炸和其他复杂过程的数值模拟（原始文件为HDF5 格式）。虽然这些不同的数据集乍一看似乎毫无关联，但它们都需要对称为偏微分方程的数学方程进行建模。此类方程出现在与从量子力学到胚胎发育等所有领域相关的问题中，即使对于超级计算机来说也极难求解。Well的目标之一是使AI模型能够快速准确地得出这些方程的近似解。

“该数据集涵盖了各种物理模拟，旨在解决当前机器学习模型的关键局限性，”CCM研究员、Polymathic AI成员Rudy Morel表示。“我们渴望看到在所有这些场景中表现良好的模型，因为这将是向前迈出的重要一步。”

各种模拟数据集举例如下：

1. 声散射

声学方程

这些可变系数声学方程描述了声压波在由具有不同散射特性的多种材料组成的区域中的传播。这个问题出现在源优化中，它是反问题 - 即从波的散射中识别材料特性 - 是地质学和雷达设计中的一个重要问题。其中ρ=材料密度，u,v分别为x,y方向上的速度，p=压力，K=体积弹性率。

声散射（不连续）

波通过不连续介质传播。大多数现有的计算物理机器学习数据集都非常平滑，这里提出的声学挑战提供了具有挑战性的不连续场景，这些场景通过可变密度来近似复杂的几何结构。

声散射（杂物）

杂物会改变波的传播速度，但仅限于小的不规则区域。

声散射（迷宫）

压力波从点源出现，并穿过由低密度迷宫路径和高密度迷宫墙组成的域传播。这主要是作为机器学习方法的挑战而构建的，尽管它与建筑物中的最佳放置问题（如 WiFi）具有相似的属性。

声散射（迷宫）遍历

2. 活性物质

浸在斯托克斯流体中的棒状活性粒子

3. 红色超巨星对流包络

大质量恒星演化成红超巨星，它们具有较大的半径和光度，以及低密度、湍流、对流包络。这些模拟模拟了（本质上是3D）对流特性，并提供了对超新星爆炸前源的见解。

其中ρ=气体密度，v=流速，P_gas=气体压力张量，P_gas=气体压力标量，E=总气体能量密度，G_r^0, G_r = 辐射四力的类时间和类空间分量，n=光子传播方向，I=频率积分强度，它是时间、空间坐标和光子传播方向的函数。

4. 欧拉多象限 - 黎曼问题（可压缩，无粘性流体）

其中ρ=密度，u,v分别是x,y方向的速度分量，e=能量、p=压力、γ=气体常数、A>0 是熵的函数。

刻画激波的形成和相互作用。多尺度冲击。

边界条件：开放

边界条件：周期性

5. Gray-Scott反应-扩散方程中的模式形成

Gray-Scott方程是一组耦合反应-扩散方程，描述了两种化学物质A和B，它们的浓度随空间和时间而变化。f和k这两个参数控制反应中的“补料” 和 “杀灭” 速率。根据这两个参数，在解中可以产生定性不同的静态和动态模式。这些方程式中隐藏着丰富的模式形成景观。

6. 2D楼梯上的亥姆霍兹方程

周期性表面对非周期声源散射的第一个高阶精确解，与其在波导应用（天线、光栅衍射、光子/声子晶体、噪声消除、地震滤波等）中的应用有关。

在无限周期性边界附近精确求解偏微分方程会带来数值挑战，因为这些表面充当波导，允许模式从源头传播很长距离。此属性使得（无限）解域的数值截断不可行，因为它会引起较大的人工反射，从而产生误差。只有当入射波也是周期性的（例如平面波）时，才可以进行周期化（将计算域减少到一个基本单元），但对于非周期源（例如点源）则不行。然而，从点源计算高阶精确散射解将具有科学意义，因为它模拟了遥感、光栅衍射、天线或声学/光子超材料等应用。结合使用Floquet-Bloch变换（也称为阵列扫描方法）和边界积分方程方法来缓解这些挑战，并将散射解恢复为由其表面波数参数化的准周期解系列的积分。这种方法的优点是，每个准周期解都可以通过周期化快速计算，并通过高阶正交准确计算。

该仿真刻画了俘获声波的存在，即沿波纹表面引导的模式。还表明，俘获模式的表面波数与入射辐射的频率不同，即它们刻画了俘获模式的色散关系。

7. 磁流体动力学（MHD）可压缩湍流

其中ρ=密度，v=速度，B=磁场，I=单位矩阵，p=气体压力。

这是在可压缩极限（亚音速、超音速、亚Alfven速度、超Alfven速度）内的MHD流体流动。

太阳风、星系形成和星际介质（ISM）动力学的重要组成部分是磁流体动力学（MHD）湍流。该数据集由无自重的等温MHD模拟（例如在漫射ISM中发现）组成。

8. 行星浅水效应（SWE - shallow water effect）

球面上的受力高粘性旋转的浅水，具有类似地球的地形和每日/每年的周期性受力。

其中h=压力表面高度与平均值的偏差，H=平均高度，u=二维速度，Ω=科里奥利（Coriolis）参数，即地转偏向力参数，F=受力。

浅水方程基本上是3D流的2D近似值，其中水平长度尺度明显长于竖直长度尺度。它们是通过对不可压缩的Navier-Stokes方程进行深度积分得出的。积分维度仅作为变量保留在方程中，用于描述流上方压力表面的高度。长期以来，这些方程一直被用作单个气压级大气建模中原始方程的简单近似，最著名的是Williamson威廉姆森测试问题。这种情况可以看作类似于威廉姆森问题7，因从ERA5（欧洲中期天气预报中心）中的hPa 500压力水平得出初始条件。然后，使用真实的地形和两个级别的周期性来模拟。

球面几何和类行星地形和受力构成了真实世界大气动力学的代表，其中真实动力学是已知的。数据集具有年度和每日周期性，迫使模型处理足够的上下文长度来学习这些模式，即明确地具有时间感知能力。此外，该系统变得稳定，使其成为探索模型长期稳定性的良好系统。

9. 中子星合并后

标准辐射传输方程

这里的模拟是全三维广义相对论中微子辐射磁流体动力学的轴对称快照。该等离子体物理学对有限体积处理，带有曲线网格上的磁场约束传输。该系统是假设核统计平衡（NSE）的表格式核方程封闭的。辐射场通过蒙特卡洛输运处理，这是一种粒子方法。粒子不包含在此数据集中，但它们的影响在流体上显示为源项。

10. Rayleigh-Bénard 对流

这些PDE由Rayleigh和Prandtl 数通过热扩散率κ和粘度ν参数化。其中1/κ²=瑞利数 * 普朗特数，1/ν²=瑞利数 / 普朗特数。Δ=∇⋅∇ 是空间拉普拉斯算子，b=浮力，u=(u_x, u_y)（水平和垂直）速度，p=压力，e_z=垂直方向上的单位向量，有附加约束∫p=0。

Rayleigh-Bénard（瑞利-贝纳德）对流涉及流体动力学和热力学，从下方加热的水平流体层中可以看到，由于温度梯度而形成对流元胞。随着下板加热而上板冷却，热能产生密度变化，从而启动流体运动。这导致贝纳德元胞，表现出暖流体上升和冷流体的下降。浮力、传导和粘度的相互作用导致复杂的流体运动，包括漩涡和边界层。

Rayleigh-Bénard 对流数据集为热梯度下的流体动力学提供了有价值的见解，揭示了湍流涡流和对流元胞等现象。这种元胞的位置对初始条件下的微小变化高度敏感。了解这些动力学对于工程和环境科学的应用至关重要。

11. Rayleigh-Taylor 不稳定性

在具有相同分子扩散率的混溶流体的情况中，流动由连续性、动量和不可压缩性方程控制：

其中，ρ=密度，u=速度，p=压力，g=重力，κ=分子扩散系数，τ=偏应力张量，ν=运动粘度，I=单位矩阵。

谱形和分量相对Rayleigh-Taylor湍流发展的影响。考虑一系列Atwood数和初始扰动的Rayleigh-Taylor不稳定性，所有这些都是随机相位具有对数正态水平能谱。该数据集研究了均值、标准差和随机相位的差异如何影响到随之而来的湍流的转变和统计。

在这个数据集中，物理趣味性有三个关键方面。首先，相干性对其他随机初始条件的影响。其次，初始能谱的形状对流动结构的影响。最后，从 Boussinesq到非Boussinesq状态的转变，其中混合宽度从对称增长过渡到不对称增长。

12. 周期性剪切流

其中Δ=∇⋅∇ 是空间拉普拉斯算子，u=(u_x, u_y)（水平和垂直）速度，s=示踪剂，p=压力，有附加约束∫p=0。

这些PDE由Reynolds数和Schmidt数通过粘度ν和扩散率D参数化。ν=1/Reynolds数，D=ν/Schmidt数。

剪切流（shear flow）是一种流体，其特征是相邻流体层以不同的速度相互滑动而连续变形。这种现象常见于各种自然和工程系统，例如河流、大气边界层和涉及流体传输的工业过程。该数据集探索了由不可压缩的Navier-Stokes方程控制的二维周期性剪切流。

剪切流是流体力学和湍流中存在的非线性现象。预测不同雷诺数和施密特数下的剪切流行为对于空气动力学、汽车、生物医学领域的许多应用至关重要。此外，这种流动在大雷诺数下是不稳定的。

13. 星系中湍流星际介质中的超新星爆炸

密集的冷气体云中的冲击波。

其中P、ρ、u是压力。r=位置，a_visc=粘度产生的加速度，Φ=重力势，Γ=每单位体积的辐射热流入，Λ=每单位体积的辐射热流出。

仿真求解了单原子理想气体压缩内部的爆炸，该气体遵循比热比γ=5/3 的状态方程。这些模拟中的气体模拟了银河系中的星际介质。在模拟开始时，超新星的热能被倾倒在模拟盒的中心。热（∼10⁷ K）气体立即加速并产生冲击波。由于热气体的速度变为超音速，因此需要非常精细的分辨率和小时间步长来解析动力学。物理量也分布在7个数量级中，这需要大量的仿真步骤。

该模拟被设计为超新星爆炸，即大质量恒星在最后一刻在具有大密度对比的高密度造星分子云中的爆炸。假设单原子理想气体的绝热压缩。为了模拟爆炸，巨大的热能（10⁵¹erg）被注入到计算盒的中心，并产生冲击波，从而扫除称为超新星反馈的环境气体和外壳。超新星和周围气体之间的这些相互作用很有趣，因为恒星是在密集和寒冷的地区形成的。

然而，计算冲击波的传播需要很小的时间步长来计算和许多积分步骤。当超新星反馈被纳入星系模拟时，使用了一些使用局部高分辨率模拟拟合的函数。

在星系模拟的背景下，热能和动量的时间演变很重要。这些物理量不一定守恒，因为考虑了辐射冷却和加热，并且热能正在无缝地转化为动量。

14. 星系中的湍流星际介质

星系不同演化阶段中星际介质中的湍流（方程组同上例）。

这些模拟是一种湍流流体，对星系中的星际介质引力进行建模。这些流体形成致密的细丝，形成新的恒星。制造新细丝的时间尺度和频率因冷却强度而异。它由金属量（金属丰度）、密度和温度参数化。

仿真中考虑了重力、流体动力学和辐射冷却/加热。辐射冷却/加热通过金属丰度进行参数化，金属丰度是比氦重元素的比率。较大和金属丰度分别对应于星系和宇宙的后期和早期阶段。它还会影响冷却/加热的时间尺度和恒星形成速率。例如，恒星的形成发生在密集和寒冷的地区。凭借强大的冷却/加热速率，密集区域会迅速冷却并产生新的恒星。相反，在冷却/加热较弱的情况下，当气体被压缩时，它会被加热并阻止新恒星的产生。

在冷/热强的冷气的情况下，很容易产生密集的区域，这需要较小的时间步长和大量的积分步骤。这使得很难获得更高的分辨率。

新的模拟器应该能够检测到恒星形成的潜在区域/新生恒星的潜在数量，因为恒星形成区域非常密集，需要非常小的时间步长，这会导致大量的计算步骤。

15. 湍流辐射层 - 2D

其中ρ=密度， v=二维速度，P=压力，E=总能量，t_cool=冷却时间。

在天体物理系统中，热气体相对于冷气体移动，这导致混合，混合填充了高度反应性的中温气体——在这种情况下，它会迅速冷却。

二维

三维

在这个模拟中，底部有冷的浓密气体，顶部有热的稀气体。它们以亚音速相对移动。这种设置对于Kelvin Helmholtz是不稳定的，Kelvin Helmholtz不稳定性萌生于模拟之间有变化的小尺度噪声。热气体和冷气体都处于热平衡状态，因为加热和冷却是完全平衡的。然而，一旦由于开尔文-亥姆霍兹不稳定性引起的湍流而发生混合，中间温度就会变得拥挤。这种中温气体不处于热平衡状态，冷却优于加热。这导致从热相到冷相的净质量通量。这个过程发生在星际介质中，而在环星系介质中，当冷云穿过周围的热介质时。通过了解总冷却和传质如何随冷却速率的变化，我们能够限制这个过程如何控制星系内部和周围气体的整体相结构、能量和动力学。

16. 二维通道流中粘弹性流体的多重稳定性

其中u*=(u*,v*)是流向和壁法向的速度分量， p*=压力，C*=正定构象张量，它表示聚合物分子端到端向量产生的集成平均值。在2D中，求解出张量的4个分量：c*_xx, c*_yy, c*_zz, c*_xy，T(C*)=FENE-P模型给出的聚合物应力张量。

粘弹性流动中的多重稳定性，即根据初始条件，对于同一组参数观察到四种不同的吸引子（统计稳定状态）。

弹性惯性湍流（EIT，Elasto-inertial turbulence）是最近发现的一种在稀聚合物溶液中观察到的二维混沌流态。二维直接数值模拟显示了（最多）四个共存的吸引子：层态（LAM，laminar）、稳态箭头状态（SAR，steady arrowhead regime）、弹性惯性湍流（EIT）和“混沌箭头状态”（CAR，chaotic arrowhead regime）。SAR对于此处考虑的所有参数都是稳定的，而最后一对（混沌）流状态在视觉上非常相似，并且只能通过CAR状态中存在弱聚合物箭头结构来区分。两种混沌状态都由相同的近壁机制维持，弱箭头不起作用。该数据集包括四个吸引子以及两个边缘状态的快照。边缘状态是存在于两个吸引子盆地之间边界上的不稳定状态，即所谓的边缘流形。边缘状态在流形之外有一个不稳定的方向，并且是相关的，因为它正好位于边界上，从而分隔了定性不同的流动行为。本数据集中的边缘状态是通过层态（LAM）与EIT之间以及EIT与SAR之间的边缘跟踪获得的。

数据中令研究者感兴趣的现象是：（i）EIT和CAR中粘弹性流动中的混沌动力学。另请注意，它们是单独的状态。（ii）对于同一组参数的多重稳定性，流根据初始条件有四种不同的行为。

尾声

Ohana表示，收集这些数据是一项挑战。该团队与科学家合作，为该项目收集和创建数据。“数值模拟的创造者有时会因为过度炒作而对机器学习持怀疑态度，但他们对它以及它如何使他们的研究受益并加速科学发现感到好奇，”他说。

Polymathic AI团队本身现在正在使用这些数据集来训练AI模型。在接下来的几个月里，他们将把这些模型部署到各种任务上，看看这些全面、训练有素的AI在解决复杂的科学问题方面有多成功。

“了解机器学习模型如何在来自不同物理系统的数据集之间进行概括和插值是一项令人兴奋的研究挑战，”CCM研究员、Polymathic AI成员Régaldo-Saint Blancard说。

Polymathic AI团队已开始使用这些数据集训练机器学习模型，Polymathic AI项目负责人Shirley Ho表示：“早期结果非常令人兴奋。” Shirley Ho是Flatiron研究所计算天体物理中心的团队负责人。“我也很期待看到其他AI科学家会如何处理这些数据集。就像蛋白质数据库催生了 AlphaFold一样，我很高兴看到Well和多模态宇宙数据集将帮助创造什么。” Ho将在NeurIPS会议上发表演讲，重点介绍这项工作的用途和巨大潜力。

参考资料

https://www.simonsfoundation.org/2024/12/02/new-datasets-will-train-ai-models-to-think-like-scientists/

https://vimeo.com/1035234539

https://polymathic-ai.org

https://polymathic-ai.org/the_well/

https://huggingface.co/MultimodalUniverse

https://nips.cc/virtual/2024/poster/97791

https://neurips.cc

https://github.com/MultimodalUniverse/MultimodalUniverse/

https://github.com/PolymathicAI/the_well/

https://www.nobelprize.org/all-nobel-prizes-2024/

END

更多精彩文章请点击下面“蓝字”标题查看：

《物理与工程》期刊是专注于物理教育教学研究的学术期刊，是中国科技核心期刊，1981年创刊，欢迎踊跃投稿，期刊投审稿采编平台：

http://gkwl.cbpt.cnki.net

欢迎关注

《物理与工程》微信公众号

物理与工程

《物理与工程》期刊由教育部主管，清华大学主办，教育部大学物理教指委直接领导，主编是王青教授。主要发表物理教育教学研究论文以及物理与工程中的学术论文，是中国科技核心期刊，1980年创办，1981年创刊。