21岁计算机学生借助AI破解千年前被烧毁的卷轴

文摘   2024-12-20 02:12   湖北  




摩  登  语  言  学

Modern_Linguistics


语言是人类文明的基石,是民族团结的粘合剂,也是矛盾冲突中的排头兵。

露易丝•班克斯/《降临》
该手稿已经隐藏了2000年。

2023年10月12日,21岁的计算机科学学生卢克·法里托尔(Luke Farritor)首次成功解读了未曾打开的赫库兰尼姆卷轴上的第一个单词,这一突破使获得维苏威挑战赛70万美元大奖的目标变得指日可待。

赫库兰尼姆纸莎草纸是公元79年维苏威火山爆发时被掩埋和碳化的古卷轴,藏于庞贝附近一座私人别墅的图书馆中。近2000年来,这座古代唯一留存的图书馆被20米厚的火山泥掩埋在地下。18世纪,这些卷轴被挖掘出来,虽然因为火山爆发被保存了下来,但它们非常脆弱,稍有处理不当就会变成粉末。如何阅读不能打开的卷轴?几百年来,这个问题一直没有答案。
直到2023年8月,维苏威挑战赛的参赛者卢克·法里托尔(Luke Farritor)成为两千年来第一个看到这些卷轴中完整单词的人。为此,我们授予了卢克4万美元的首字母奖(First Letters Prize),该奖项要求参赛者在卷轴4平方厘米的区域内找到至少10个字母。
Luke Farritor 提交的成果
卢克在 EduceLab 拿着卷轴
不久之后,另一位参赛者尤瑟夫·纳德尔(Youssef Nader)独立地在同一区域发现了相同的单词,结果更加清晰,赢得了1万美元的二等奖金。
尤瑟夫的结果更清楚
这些突破都受到了参赛者凯西·汉德默(Casey Handmer)的启发,他是第一个在卷轴中找到大量令人信服的墨迹证据的人(可参考他的博客文章和视频)。他的见解直接导致了卢克的发现,并加深了对墨迹的理解。我们授予他1万美元的首墨奖(First Ink Prize)。祝贺凯西、卢克和尤瑟夫!
那么我们是如何走到这一步的,这些模型是如何工作的呢?让我们从一点历史开始。
EduceLab扫描
我们的故事始于2019年,肯塔基大学EduceLab的布伦特·西尔斯教授在粒子加速器中对赫库兰尼姆卷轴进行了成像,生成分辨率高达4微米的3D CT扫描。
Seales 教授和团队在粒子加速器上扫描
他的团队还扫描和拍摄了带有可见墨迹的独立卷轴碎片,从而提供了一个真实的数据集。
在分离片段的地面实况数据上训练机器学习模型。摘自Stephen Parsons的博士论文。
肯塔基大学教授西尔斯和他的团队在粒子加速器上进行扫描。肯塔基大学教授西尔斯的研究生斯蒂芬·帕森斯(Stephen Parsons)使用机器学习模型对CT扫描中的墨迹进行检测,并在独立碎片上取得了成功。这一成功引起了科技企业家纳特·弗里德曼和丹尼尔·格罗斯的注意,他们发起维苏威挑战赛来加速这一进程。他们于2023年3月发起了一场公开竞赛,并颁发了70万美元的大奖,以及多个小奖项,用于开发开源工具和技术。
夏季初,一个小型的注释者团队(“分割团队”)加入了我们的工作。他们开始使用最初由EduceLab构建并由我们的社区改进的工具来映射卷轴的3D结构。到7月,我们已经分割并“虚拟扁平化”了数百平方厘米的纸莎草纸。
从分段目录电子表格中绘制卷轴的进度,单位为面积(平方厘米)。
凯西的裂纹图案
8月初,前JPL创业公司创始人兼博学家凯西·汉德默(Casey Handmer)在一篇博客文章中写道,他发现了一种看起来像墨迹的“裂纹图案”。
凯西通过长时间盯着分割后的CT扫描发现了这种图案。这是一个重大而令人惊讶的发现。斯蒂芬·帕森斯之前曾在独立碎片中看到过墨迹的直接证据,但尚未在卷轴中发现。
凯西是2000年来第一个在未打开的卷轴中发现墨迹和字母的人。
上图是可见墨迹的裂纹纹理。下图显示了墨迹位置。可能是 "pi",也可能是大写字母 "eta "的底部。摘自凯西的博文。
卢克-法里托的模型
在此之后,几位参赛者寻找更多的裂纹,但似乎非常罕见。卢克·法里托尔,一位在星舰基地工作的大学学生和SpaceX暑期实习生,从Dwarkesh Patel对Nat的播客采访中听说过维苏威挑战赛。
他看到凯西的裂纹图案在Discord上被讨论,并开始夜以继日训练一个机器学习模型。随着每一条新发现的裂纹,模型得到了改进,在卷轴中揭示了更多的裂纹——一个发现和改进的循环。
他找到了几十个墨迹笔画和一些完整的字母,可以作为训练数据进行标记。
左图:纸莎草纤维背景上可见裂开的墨迹。右图是二进制油墨标签。
不久之后,该模型开始揭示肉眼看不到的裂纹痕迹。很快,这些痕迹开始形成字母和单词的暗示。
然后,卢克向我们的首字母奖提交了一份申请,该奖项要求参赛者在4平方厘米的区域内找到至少10个字母。这是他第一次提交的:
上图隐约显示出ΠΟΡΦΥΡΑϹ(porphyras)一词
当西尔斯教授向我们的纸莎草学家团队展示这张图片时,他们惊呼起来:尽管字母很模糊,他们立即读出了“porphyras”这个词。
经过彻底的技术审查,我们将他的新图片发送给纸莎草学家小组。他们独立且一致地标注了13个字母,尽管置信度各不相同:
每个正方形代表一个评论。绿色:置信度超过 80%。黄色:50-80%置信度。红色:置信度低于 50%。
事实上,这个词经得起审查。“Porphyras”是一个令人兴奋的词:它意味着“紫色”,在古代文本中非常罕见。
一位纸莎草学家指出:“序列πορφυ̣ρ̣ας̣可能是πορφύ̣ρ̣ας̣(名词,紫色染料或紫色布)或πορφυ̣ρ̣ᾶς̣(形容词,紫色的)。由于缺乏上下文,不能排除πορφύ̣ρ̣α ς̣κ[或πορφυ̣ρ̣ᾶ ς̣κ[。” 如果你想在图像中找到这些字母,请记住,我们现代的字符看起来有点不同。这种古代文字的字母看起来更像这样:ΠΟΡΦΥΡΑϹ。请注意,当时的文本没有使用空格,这使得确定单词边界更加困难。
尤瑟夫的发现
与此同时,另一位参赛者尤瑟夫·纳德尔(Youssef Nader),一位在柏林的埃及生物机器人研究生,采用了不同的方法。受凯西和卢克的发现的激励,他筛选了Kaggle上墨迹检测奖的获奖作品,该奖项专注于改进斯蒂芬·帕森斯对独立碎片中机器学习的方法。他使用域迁移技术来适应这些模型到卷轴:在卷轴数据上进行无监督预训练,然后在碎片标签上进行微调。
粒子加速器正在扫描其中一个已知地面实况的分离碎片
他提交了他的“墨迹检测后续奖”的想法,并赢得了一个小奖。这个想法似乎很有前景,但据我们所知,事情就是这样了。几周后,尤瑟夫向首字母奖提交了自己的申请。他看到了卢克的早期结果,这些结果已经在X和Discord上分享,并决定专注于卷轴内的同一区域。
利用来自Kaggle竞赛的修改后的模型,他设法找到了一些字母,尽管完全不依赖于凯西手动寻找裂纹的方法。然后,他将看起来像字母形状的东西标注为标签数据。
尤瑟夫最早的图片
他的第一组设想的墨水标签
他迭代地重复这个伪标记过程,导致对卷轴内多个片段的推测性标签。在这些标签上训练的模型能够从卷轴内检测墨迹,最终去除了来自独立卷轴碎片的训练数据。
最终仅在内部卷轴片段上训练的模型产生了下面的图像,确保了尤瑟夫的获奖。
尤瑟夫最后提交的结果
这一次,纸莎草学家对这些字母的意见更加一致。他们甚至开始推测上面的可能单词(ανυοντα/ANYONTA,“实现”)和下面的单词(ομοιων/OMOIωN,“相似”)。
如果这些单词确实是我们认为的那样,那么这份纸莎草卷轴可能包含一篇全新的文本,是现代世界从未见过的。
为什么我们成功了?
在这些发现的关键路径中,不同人的许多贡献都发挥了作用。我们的竞赛和开源相结合(通过“进度奖”)似乎有效!为了强调一些关键贡献:
  • 尤瑟夫使用了Kaggle竞赛中的一个模型,并受到卢克的结果的启发,看向了同一区域。

  • 卢克寻找裂纹的灵感直接来自凯西的工作。

  • 凯西能够查看许多张纸莎草纸,因为我们的分割团队已经绘制了数百平方厘米的区域。

  • 分割团队能够绘制大量纸莎草纸,因为参赛者构建了由“分割工具奖”获奖者(朱利安·席利格、查克、姚晓(音译)等)开发的工具。

  • 分割工具的进步是可能的,因为参赛者在西尔斯教授团队构建的现有开源工具(塞斯·帕克、斯蒂芬·帕森斯等人的工作)的基础上进行了构建。当然,如果没有西尔斯博士和他的团队以及他们的资助者所奠定并继续支持的基础,竞赛本身就不可能实现。

回顾一下我们走到这一步的原因,似乎我们到目前为止在举办这次竞赛中所做的几乎每件事都是承重的。我们不太确定该怎么理解!也许进展比我们事后看来更脆弱,成功比我们想象的更偶然。
下一步是什么?
分割团队和参赛者们继续取得进展。几天前,尤瑟夫的模型生成了一个清晰度和尺寸都令人震惊的新图像:
尤瑟夫的最新图像(变体),来自片段20230929220924和20231005123333。
在这张图像中,您可以清楚地看到四列半文本,由边距分隔。现在可以看到更多的字母,尽管并非所有字母都立即可读。我们的纸莎草学团队正在努力进一步调查这一结果,我们很快就会有更新。
这些进步表明,70万美元的大奖触手可及。我们的乐观情绪达到了历史最高点。
现在是参与的最佳时机!加入我们充满活力的Discord社区,注册通过Substack接收新闻通讯,或在X上关注@scrollprize。要开始,请下载一些数据,浏览一些教程,并通过查看获奖者和社区工具来了解参赛者的进展。
您会是解锁数百卷卷轴中知识的人吗?——将古代文本的数量增加一倍——以及可能还有数千卷尚未挖掘的卷轴,成为罗马帝国的最后一位英雄,同时赢得70万美元?
比赛开始了……

时间October 12th, 2023

来源

https://scrollprize.org/firstletters

翻译双子座

编辑丨扬薇儿

 往期文章 


 付费文章 


摩登语言学
语言是人类文明的基石,是民族团结的粘合剂,也是矛盾冲突中的排头兵。——露易丝•班克斯/《降临》(商务合作请加V:novice_0213)
 最新文章