首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

水和算法有何相似？用物理学来理解大语言模型

学术 2024-10-14 11:55 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 白菜叶

十几岁时，捷克共和国的 Lenka Zdeborová 在艾萨克·阿西莫夫的一本小说中瞥见了自己的未来。阿西莫夫的《基地》系列中的一个角色发明了一种数学方法，通过平均数十亿人的随机行为来预测整个文明的发展道路。

Zdeborová 回忆说，这个概念让她有一种「令人着迷的感觉」——当她后来遇到一种可以真正应用于理解大量不可预测元素的方法时，这种感觉又回来了。

「我意识到，『天哪，阿西莫夫只是在描述统计物理学。』」她说，统计物理学是一门利用适用于单个分子的规则来描述物质宏观特性的学科。作为布拉格查理大学 (Charles University) 的物理学硕士生，她对数学的预测能力十分着迷。

后来，在攻读博士学位期间，Zdeborová 的导师向她展示了一篇论文，该论文将统计物理学的技术应用于理论计算机科学——计算和算法行为的数学研究。熟悉的感觉又回来了。

论文链接：https://www.science.org/doi/abs/10.1126/science.1073287

「那篇论文让我完全着迷。」Zdeborová 说道，「我一直认为，要想从事计算机科学，你必须是一名黑客，并且了解 Linux 的一切。我意识到理论计算机科学和理论物理一样令人着迷，于是我说道，『好吧，这就是我想做的事情。』」

Zdeborová 目前领导瑞士洛桑联邦理工学院的统计计算物理实验室。她目前的工作重点是研究物质相变的物理原理（例如水冻结成冰）如何帮助模拟算法的行为，尤其是机器学习中使用的算法。

媒体与 Zdeborová 谈论了水和算法之间的相似之处、使用物理学来理解大型语言模型以及追求不合理的科学目标。为便于理解，采访内容经过了压缩和编辑。

Q：你的工作跨越了学科界限，那么你认为自己是物理学家、计算机科学家还是数学家？

我想说以上都是。我感兴趣的问题主要在计算机科学和机器学习领域。但在理论计算机科学中，一切都应该得到正式证明，直到最后一个细节。而如今的机器学习已经不再发生这种情况了——它太复杂了。

因此，从方法的角度来看，我觉得自己像一个理论物理学家，因为就像在物理学中一样，你可以尝试用数学上严谨的理论来解释现象，即使它们可能没有正式的数学证明。

Q：统计物理学如何帮助你理解计算机科学？

理论计算机科学通常教给学生的是关注最坏的情况——问题难以计算的情况。这就是这个领域的起源；也是我们取得美好成果的地方。但最坏情况和典型情况是有区别的。

机器学习就是一个明显的例子。因此，即使对于高维数据（例如，我们想要检测疾病的某些标记物的数百万像素的医学成像），问题的相关实例在计算上通常也不像最坏情况那么困难。

统计物理学正是从这里开始发挥作用的，因为从历史上看，统计物理学是处理这些高维问题的科学领域。当你想描述许多分子同时相互作用的行为时，统计物理学就会提出概率分布。

这些是数学对象，以非常相似的形式出现在计算机科学中，描述执行给定算法时数据位如何交互。统计物理学起源于一个世纪前，当时计算机科学还不存在。幸运的是，到 21 世纪我攻读博士学位时，这两个学科已经意识到它们之间有多少共同之处。

Q：他们有什么共同点？

在这两种情况下，从微观描述中提取系统的宏观行为都很困难。

虽然牛顿定律和量子力学可以非常详细地描述水分子如何相互作用，但我们如何得出水在零摄氏度时会结冰的结论呢？

这根本不明显！甚至到了 20 世纪 40 年代，这个问题仍未得到解决。关于水的相变，尤其是在高压下的相变，仍有许多问题有待解答。

同样，在计算机科学中，存在一些定义非常简单的问题，算法也相对简单，我们不知道它们在什么条件下会起作用。在我的博士论文中，我们研究了图着色问题，一个 5 岁的孩子就能理解。

你有一些点，有些点通过边连接起来，这样就形成了一个图。你想用三种颜色中的一种给每个点上色。如果两个点连接起来，它们就不能有相同的颜色。那么你能给图上色吗？

对于解决这个问题的任何给定算法，你都可以理解它，甚至编写代码，它也会运行。但如果我问：「你能告诉我这个算法什么时候有效，什么时候无效吗？」对于大多数算法，我们不知道。这就是理论计算机科学的总体现状：即使对于像这样的简单问题，当我们开始询问有关算法行为的自然问题时，我们常常没有答案。

Q：如果完全理解算法如此困难，相变如何能有所帮助呢？

我们研究的相变并不是物理上的，比如水变成冰。但它们是类似的，在某些条件下，系统的行为会发生急剧、突然的变化。在神经网络中，最先要描述的转变之一是学习效率如何取决于训练数据的数量。

你采用一个从高维数据（如具有数百万像素的图像）中学习的神经网络，然后在某些简化的设置下分析网络需要多少个训练样本才能学习到一定精度的函数。

你会得到一个我们所说的阶段转变，即系统最佳性能的突然变化。这些条件会告诉你学习的难易程度，以及寻找更好的算法是否有意义。

Q：这种方法是否帮助你了解了这些复杂系统的新知识？

在最近的工作中，我们确实发现大型语言模型的简化版本的性能存在相变，但同样有趣的是相变两侧两个阶段的性质。

论文链接：https://arxiv.org/abs/2402.03902

在物理学中，相变的数学描述中有一些量，我们称之为序参量。它们能让你了解相变的真正含义。这让我们明白磁性与原子排列有关：在一个相中，整体排列很大，而在另一个（非磁性）相中，没有排列。

这就是我们在语言模型的数学描述中出现的美妙之处。有两个顺序参数，每个参数都有精确的含义。一个顺序参数决定了学习是否在很大程度上依赖于句子中单词的位置。另一个顺序参数具体是关于每个单词的含义，即语义。

当我们观察相变时，我们发现，在训练示例的某个阈值以下，只有位置才是重要的，而不是语义。如果我们有更多高于该阈值的示例，那么只有语义才是重要的。

因此，从某种意义上说，这是位置学习和语义学习之间的一种新型相变，我们可以在简化的语言模型中对其进行描述。对我来说，这是理解大型语言模型中出现的属性的一小步，比如突然能够做算术、用希腊语回答问题或诸如此类的事情。

Q：你认为这些小步骤能够给你带来什么结果呢？

我非常喜欢的类比是热力学。18 世纪蒸汽机的出现引发了工业革命：铁路、公司和许多东西都依靠蒸汽机运转，而这一切都发生在人们不了解热力学的情况下。那是几十年后的事情了，灵感来自于想要了解蒸汽机。从那以后，许多其他物理学诞生了。

这可能是一个完全不合理的目标，但你知道，总得有人提出机器学习的热力学理论。我很想成为那个人。如果不是我，而是别人，那也很好。但我一定会努力实现这个目标。

相关内容：https://www.quantamagazine.org/the-computer-scientist-who-builds-big-pictures-from-small-details-20241007/

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503265&idx=2&sn=02186bdba7032afde772b38e40f77d43

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

最新文章

普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

贝佐斯、OpenAI领投，给机器人装AI「大脑」的Physical Intelligence获4亿美元融资

精准预测RNA可变剪接，浙大多模态深度学习模型SpTransformer登Nature子刊

创新能力超越AI Scientist，上海AI Lab「AI 科研团队」VirSci来了

类GPT化学语言模型，9秒生成100种化合物，微软AI药物设计平台登Nature子刊

为233种疾病推荐候选药物，中国科学院深度生成模型助力药物发现，登Nature子刊

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉