德国数学家马丁·格罗切尔(Martin Grötschel)近日接受采访,回顾了他在数学应用方面的广泛职业生涯,回顾了数学如何转向更加数据驱动的方法,并展望了该领域的未来。文末附录2024-6月当期的MaRDI简讯稿《我没有数据》,译之以飨读者。
采访日期:2024-6-19(MaRDI) 受访者:Martin Grötschel(马丁·格罗切尔),柏林工业大学数学家(已退休)、柏林楚泽研究所前所长、欧洲科学院院士、中国科学院外籍院士,在组合优化、多面组合学和运筹学方面的研究而闻名 采访者:Daniel Ramos(丹尼尔·拉莫斯),MaRDI(数学研究数据倡议)、IMAGINARY gGmbH(德国Oberwolfach数学研究所发起的一个致力于开放和互动数学的非营利组织) CCO(首席内容官) 译者:zzllrr小乐(数学科普公众号)2024-6-24 |
---|
Q:您好,感谢Martin今天在这个MarRDI时事通讯访谈中与我们谈论“我没有数据”这个话题。第一个问题是,用两句话介绍一下您是谁?
A:好的,我是一个数学家,有着广泛的数学和其他兴趣,同时也为科学界提供了其他行政职能。
最初,我的研究集中在数学理论上,但很快我就意识到数学是一个未被充分利用的工具箱,它可以在几乎任何地方使用,以改善我们的生活。
Q:谢谢。研究数据(尤其除了出版物之外)在您的研究生涯中扮演了什么角色?我们谈论的是软件、源代码、数据库、论文的补充材料等等。
A:好的,我从1970年代末开始开发和实施算法时,我注意到作者们对自己代码的实际效率提出了狂妄的主张。这些陈述通常基于自制的数据,这些数据不对其他人开放。许多严肃认真的研究人员看到了收集实际数据并使其对整个研究界公开的必要性。在这方面,Netlib仓库是一个先驱,它在1980年代中期为线性规划代码提供了实例。不久之后,TSPLIB使旅行推销员问题的真实实例可用,并且创建了其他许多此类最优化方面的库,并作为代码开发和代码比较的测试床为社区服务。这在我的一个非常重要的数据仓库MIPLIB中继续进行,MIP即混合整数规划(Mixed Integer Programming),是一个具有多种应用的领域。最初,这些数据来自研究界,但很快工业和商业最优化软件公司也为此数据集做出了贡献,并积极参与了混合整数规划的有用测试床的开发。这改变了算法的开发和使用方式,真正改进了最优化领域的研究,并且现在在我们领域的许多分支中继续进行着。
Q:好的。那么您说说,数据的来源是如何变化的,数学家的实践在过去20或30年里是如何变化的?
A:好的,我更愿意看一个更长的时间范围。数学真正开始变化是在1950年代,伴随着计算机的可用性。新的领域涌现了,如科学计算、计量经济学或运筹学,小的数学领域经历了爆炸性的增长,如图论、离散数学、最优化和控制论。并且有对经典领域的重新定位。例如计算群论、计算实代数几何、计算数论和统计学。计算机证明被成功尝试,并且变得清晰,数学几乎可以在任何地方应用。好的数学软件被提供。它从公开可用的计算机代数系统开始。许多成功的系统变得商业化,实际上价格昂贵,但它们确实为各种数学问题提供了优秀的软件,并且确实可以解决许多应用。在过去的20年里,最大的变化是开放的理念。它从研究论文的开放获取开始。现在我们看开放数据、开放软件和开放科学。我真的很高兴这个发展开始了。许多数学家在这些发展中发挥了重要作用,我希望他们继续这样做。然而,还有一些数学家保持着非常传统的工作方式。
Q:对于那些认为并不拥有值得管理的科研数据,并且认为这与他们无关的数学家,您会说什么?
A:答案很简单。我会说他们没有跟上时代的步伐,没有充分利用这些数据中关于数学的信息。这是一个简单的答案,我对那些说他们并不使用数据的人没有评论。
Q:您认为数学家和数学研究数据的未来将如何?它将在未来如何被使用?
A:好的,我思考这个问题。当然,预测未来是困难的,但我相信当前的人工智能繁荣将对数学产生持久的影响。有一个非常棒的访谈,由Christoph Drösser与Terence Tao(陶哲轩)进行的,它于2024年3月发表在《科学光谱 Spektrum der Wissenschaft》上,几天前也出现在《科学美国人 Scientific American》上。陶解释了他如何看待未来的发展。他说,人工智能将成为数学家的副驾驶。我没有时间在这里解释这个短语。然而,我建议阅读这个访谈,毫无疑问,数学数据将变得越来越重要,AI开发的工具将改变数学家未来的工作方式。数学研究将变得更加协作。它将类似于复杂计算机软件系统的开发,而不像传统的在象牙塔中用铅笔和纸的工作。象牙塔将被软件系统所取代,不仅仅是单一软件,而是一套庞大的软件系统。一个这样的新兴例子是Lean系统。这些系统将能够访问巨大的、精心编码和检查的数学知识和相关数据集。它们能够,或者将会能够管理、逻辑检查和控制大量数学家的贡献,这些数学家各自提供他们的专业知识来共同进攻巨大的挑战。这个过程需要时间,毫无疑问,但我期望数学研究将朝着这个方向发展,我期待着开发这些系统,以便将数学的广泛知识汇集在一起,并帮助其他科学的发展。我确实相信AI工具可以帮助实现这个目标。
Q:只为跟进一下:您认为这是未来一代的光明未来吗?您认为对下一代来说会更好吗?
A:光明的未来是什么意思呢?当然,个人研究有一些美妙的特点,我们都知道那些在某个阁楼里坐着做出伟大工作的人的故事。但是当我看到我自己的工作,特别是在应用中,很明显,没有一个单独的个体能够解决这些问题。通常的做法是,你聚集具有不同知识的人,并试图将这些知识汇集在一起,以解决真正的问题。这些软件系统将有助于此。我坚信这会发生,也必须发生,因为我们所处时代的大挑战不是你可以发挥一次天赋即可解决的问题。这是一项繁琐的工作,需要将来自许多领域的人们的知识汇集在一起进行跨学科的工作。将要开发的软件系统将有助于解决我们面前的问题。从这方面来说,我认为这是一个光明的未来。我们将能够更好地装备起来,解决我们时代的问题。
Q:非常感谢您的回答,感谢您今天与我们在一起。谢谢。
A:好的,也谢谢您。再见。
图源:Ariel Cotton,已获得CC BY-SA 4.0许可
附录:2024-6 MaRDI简讯《我没有数据?》 |
---|
“我是一名数学家,我不使用任何数据。改变我的主意。”
在MaRDI团队,我们不断向数学家的普通受众传达项目的目标和使命。我们描述了数据在现代数学中的重要性和FAIR原则,并展示了MaRDI将为MaRDI任务领域中的一些关键社区提供的服务示例:计算代数,数值分析,统计学和跨学科数学。
然而,我们的听众通常由在数学其他领域工作的数学家组成,也许是拓扑学、数论、调和分析或逻辑学......他们认为自己不是非常重度的数据用户。事实上,“我没有数据”这句话是许多数学家都会赞同的说法。
在这篇文章中,我们转录了“无数据”数学家和“研究数据使徒”之间的虚构(但现实)问题和答案。
我以“传统”的方式做数学。我阅读文章和书籍,与合作者讨论,思考问题,并最终撰写和发表论文。我不使用任何数据!
也许我们需要澄清这些术语。我们将“研究数据”称为为验证原始研究结果而收集、观察、生成或创建的任何信息。
如果你想到一个为统计分析而收集的大型实验记录数据库,或者如果你想到一个程序的源代码,是的,这些可以是研究数据的例子。但是,还有许多其他类型的研究数据。
您可能使用 LaTeX 来撰写文章,并使用 BibTeX 来管理您的参考书目列表。您可以使用zbMATH或MathSciNet来查找参考书目,并使用arXiv来发现新论文或发布预印本。您的LaTeX源文件和参考书目列表是研究数据的示例。如果没有数据管理思维,你就不会有像zbMATH或arXiv这样的服务。
但是,在您的研究中,数据比电子手稿更多。如果您找到某些数学对象的分类,则该列表就是研究数据。如果你对这样的对象进行可视化,那就是研究数据。你陈述和证明的每个定理都可以被认为是一个独立的抽象研究数据。如果您有自己的工作流程来收集、处理、分析和报告一些科学数据,那么该工作流程本身就是有效的研究数据。
许多数学对象(函数、多面体、群)都具有可以在定理中解决的属性。例如,“由于该函数的积分可以由常数C<1 限定......”。这些属性收集在数据存储库(DLMF 等)中,这些存储库提供一致且统一的引用来收集这些数据。
您应该将研究数据视为可以标记、处理和构建以在研究领域创建知识的任何信息。这种观点对于构建和使用每个数学家都可以从中受益的新技术和基础设施很有用。
我想你说“一切都是数据”是为了给人一种印象,即 MaRDI 和其他研究数据项目非常重要......但是你的“数据定义”对我有什么影响?
这不仅仅是为了讨论所下的定义。我们相信,有一种新的研究数据文化,来自各个领域的数学家都应该参与其中。研究数据文化是一种思考我们如何组织和构建所有人类数学知识、如何存储和检索这些知识、我们需要的技术基础设施,以及最终如何使研究更轻松、更高效的方式。
想象一下,您正在寻找研究中需要的一些信息。当你寻找一个结果时,“数据单位”将是一个定理(可能连同它的证明、参考书目、作者身份......),而不是一篇文章或一本书。因此,考虑您的数据由定理而不是文章组成更有用。
然后,你的定理将适合你所在领域的一个更大的理论。当然,你可以在你的文章中解释这一点,并链接到你的参考书目中的参考文献,但你可能不会链接到特定的定理,有时你可能会错过一些相关的参考文献,当然你不能追溯链接到未来的工作。通过将结果视为数据,并允许知识基础结构对其进行索引和处理,您的结果将被置于更好的上下文中,以便其他人查找、访问和复用它们。您将参考其他人的结果,其他人也将参考您的结果。此外,它们将更好地顺应该领域的演变和进步。
我认为MaRDI是关于构建基础设施来管理大型数据库和代码项目。既然我不使用数据库或程序,我为什么要对MaRDI感兴趣?
MaRDI远不止于此。诚然,处理这些类型数据(大型数据库、大型源代码项目等)的数学家需要可靠的基础设施来托管和共享数据,需要使数据可互操作的标准,以及在大型项目中协作工作的方式。MaRDI通过设置任务组来满足这些需求,这些任务组在每个领域(例如,在计算机代数或统计学中)开发必要的基础设施。
但正如我们上面提到的,还有许多其他类型的数据:数学对象的分类、文献(书籍和文章)、可视化、工作流程文档等。MaRDI采用整体方法来研究数据,并满足整个数学界的需求。
例如,MaRDI的哲学基础是FAIR原则。首字母缩略词 FAIR 的意思是研究数据应该是可查找的、可访问的、可互操作的和可复用的,我们关于应用于数学研究的这些原则的文章,请参考小乐数学科普:数学研究者的现代工具箱 by 德国MaRDI(数学研究数据倡议)。这些原则现在被广泛接受为所有科学学科研究数据的黄金标准,它们是德国所有其他NFDI联盟和其他国际研究数据计划的基础。
遵循FAIR原则与所有研究人员都息息相关。您的结果(您的数据)应该可供其他研究人员找到,这意味着要关心数字标识符和索引服务。委派和推送第三方搜索引擎并不是一个明智的策略。你的研究应该是可访问的,这意味着你应该关注出版模型、数据的完整性或元数据结构。您的数据应该是可互操作的,这意味着您应该遵循社区中的常见做法来交换数据。至少,这可能意味着遵循结果的通用符号和惯例,以便它们可以在文献中以最少的上下文改编进行翻译。最后,您应该始终牢记,最重要的 FAIR 原则是可复用性。可复用性是可验证性的基础。记录你的思维过程。分享见解与分享事实同样重要。不被复用的研究是贫瘠的。
MaRDI旨在通过提高对这些原则的认识并鼓励讨论来设计最佳实践或解决具体实际案例中的挑战,从而传播这种研究数据文化。由于这些讨论影响到所有数学家,因此对MaRDI感兴趣是有充分理由的。
此外,MaRDI致力于开发最能帮助数学家的服务。除了为上述任务领域开发的特定服务外,MaRDI还通过其主要和中央的MaRDI门户面向所有数学家,这是一个知识库,可以从研究数据的角度更好地管理所有数学知识。MaRDI还为可能影响数学和研究数据范式的社区架起了桥梁,例如形式化数学社区,该社区在逻辑或理论计算机科学以外的数学领域发挥着越来越大的作用。
你为什么要谈论政治/哲学/伦理问题?MaRDI不应该只是一个技术项目吗?
为了为未来的数学研究数据建立基础设施,规划必须伴随着对指导原则的认真反思。我们之前提到的FAIR原则不是具体实现的技术规范,而是研究人员应该应用于其研究数据的一套哲学规则。执行和指导原则不能是独立的。
MaRDI鼓励辩论,并呼吁研究人员决定有关研究数据的挑战性情况。例如,哪些是最佳出版实践?研究人员应该在传统期刊上发表文章吗?在开放获取期刊中?他们是否也应该在arXiv等预印本服务上发布一个版本(与最终版本相同或初步版本)?是否应该接受按发布付费的做法?在这种情况下,我们如何确保出版质量?这些问题是与处理研究数据相关的一个特定主题;因此,它们属于MaRDI感兴趣的领域。
MaRDI不会规定这些问题的绝对答案,但它会试图激发和促进社区中关于这些微妙话题的讨论。它将促进整个数学家社区可以达成一致的原则和共同点。然后,MaRDI将帮助建立必要的基础设施,将这些原则付诸实践。
MaRDI既不是监管机构,也不是提供产品和解决方案的公司。MaRDI是一个数学家社区。更准确地说,MaRDI是一组不同的数学家社区(计算机代数、数值分析、统计学和机器学习、跨学科数学),他们合作创建共同的基础设施并促进数学研究数据的文化。MaRDI的范围在德国,但它有一个明确的普遍使命,来自任何地方的其他数学家社区将来可能会补充MaRDI。因此,MaRDI是一个技术项目,当其成员,即面临特定挑战的研究人员,为要构建的基础设施定义技术规范时。但MaRDI始终是一个社会和哲学项目,因为它的成员致力于为未来的数学研究构建工具。
那么,我应该以“数据”为题重写论文吗?
研究文章和书籍是并且可能永远是研究人员之间交流结果的主要手段。你应该在写论文时考虑你的同行数学家,他们会阅读它们。你的研究论文是证明某些定理的第一个地方。它给你作者的信用,因此,它建立了一个新的数学知识领域。但与此同时,您的论文可以包含多种类型的数据,这些数据可以提取、自动处理,并可能包含在其他知识库中。
想象一下,你的论文证明了一个关于所有维度6的流形的分类结果,这些流形满足你最喜欢的一组属性。其他维度呢?稍微不同的属性呢?你的结果符合许多数学家为之做出贡献的更广阔的图景。在某些时候,将所有这些结果收集到某个地方以获得更完整的演示是有意义的。这可以是一篇调查文章/书籍,但有时最好以目录的形式提供。在这种情况下,它将是按其不变量或某些特征分类的所有流形的列表。该目录将用作一般索引,用于查找有关您最喜欢的流形的已知信息,并且从此目录中,您可以获得对原始文章的引用。
我们可以更进一步,问目录是否是我们可以追求的最佳信息结构。在MaRDI,我们支持知识图谱作为表示所有数学知识的一种方式。在知识图谱中,每个节点都是一条信息(一个流形、一个流形列表、一个作者、一篇文章、一个算法、一个数据库、一个定理......),每一条边都是一个知识关系(这个列表包含这个流形,这个流形在这篇文章中研究,这篇文章是这个作者写的......)
您可以通过思考和准备您的研究数据以包含在其中来帮助构建所有数学的知识图谱。
我尝试了MaRDI门户来搜索我的一个研究主题。它返回了几篇看起来非常像 zbMATH Open 的文章参考文献。为什么我们需要另一个搜索引擎?
首先,请记住,门户网站仍在开发中。其次,您获得看起来像 zbMATH Open 的文章参考文献也就不足为奇了。这正是它们的来源。MaRDI并不打算取代zbMATH或任何其他目录或数据库,相反,它旨在将它们集成到一个地方,具有更丰富的结构。
zbMATH 是一个目录,MaRDI 门户是一个知识图谱。MaRDI 知识图谱已经(部分)包括 zbMATH 目录、swMATH 软件目录、数学函数数字图书馆 (DLMF)、综合R存档网络(CRAN) 和离散几何对象的 polyDB 数据库。最终,它还将包括其他来源,如arXiv等。MaRDI 知识图谱导入这些来源的条目,并在知识图谱中为它们提供结构。图表上的一些链接已经由来源提供,例如一篇文章参考文献指向参考书目中引用的其他文章。MaRDI KG 面临的挑战是在图形的不同部分之间填充更多链接,例如“此R库使用本文中描述的算法”。
想象一下这个未来:您通过阅读调查、参加会议或关注参考资料来了解一个新主题;你认为它可能对你的研究有用。通过一些查询,您可以找到在该研究方向上发表的所有内容。您还可以找到哪些研究人员和大学或研究机构在该领域工作,以防您想取得联系。您可以轻松即时地访问所有这些出版物。您查询一些分散在许多出版物中的一般信息(例如,对我最喜欢的任何维度流形的了解)。您可以获得涵盖所有相关文献的答案。优化查询后,您可以获得更准确的结果,指向与您相关的特定定理。通过自动计算找到的结果(定理以及示例、列表、可视化等)附带代码,您可以在计算机虚拟机中轻松运行和验证。可以找到可以用作解决具体问题的纯工具的数学算法,并且可以即插即用到任何软件项目中。数据库和数学对象列表与出版物相关联,所有结果都是可验证的(甚至可能带有正式的数学附录)。知识图谱为您提供了当前数学知识格局的准确快照,并且来自不同领域的丰富联系。您不仅可以依靠知识图谱作为获取参考文献的支持工具,还可以将其作为学习和促进数学研究的主要工具。这个未来还没有到来,但它是那些建立MaRDI的人的驱动力。
参考资料 |
---|
https://vimeo.com/962020198
https://www.mardi4nfdi.de/community/newsletter?opennl=999,995
https://www.imaginary.org/de/about
小乐数学科普:数学研究者的现代工具箱 by 德国MaRDI(数学研究数据倡议)
近期文章 |
---|
· 开放 · 友好 · 多元 · 普适 · 守拙 ·
让数学
更加
易学易练
易教易研
易赏易玩
易见易得
易传易及
欢迎评论、点赞、在看、在听
收藏、分享、转载、投稿
点击左下角 阅读原文
查看原始文章出处
点击zzllrr小乐
公众号主页
右上角
设为星标★
数学科普不迷路!