原文:https://resobscura.substack.com/p/llm-based-educational-games-will?utm_source=profile&utm_medium=reader2 作者:Benjamin Breen 发表时间:2024 年 5 月 14 日
LLM(Large Language Models)
大型语言模型,指的是能够处理和生成自然语言文本的复杂机器学习模型。这些模型通常通过在大量文本数据上训练,学习语言的模式和结构,以用于诸如翻译、文本生成、问答系统等任务。
生成式AI(Generative AI)
一种人工智能技术,它能够基于现有的数据生成新的、原创的内容。这种技术可以用于创造各种类型的数据,包括文本、图像、音频、视频和音乐等。(典型的如:ChatGPT、Kimi、文心一言、通义等)
LLM与生成式AI关系:
大型语言模型(LLM)通常作为生成式AI应用程序的基础模型,尤其是在文本生成领域。它们提供了生成和理解自然语言的能力,这是许多生成式AI应用的核心。
文章详细介绍了作者在加州大学圣塔克鲁兹分校使用ChatGPT和其他LLM工具创建“HistoryLens”项目的经历。
探讨了教育游戏与LLM结合的潜力,尤其是在生成式人工智能的辅助下。
提出了三种教育游戏的概念:年轻的达尔文游戏、墨西哥城药房和网络间谍。
讨论了LLM在评估学生输入和提供反馈方面的潜力。
讲师创建一个“提示”,其中融合了一套标准规则与特定的背景、事件和/或历史来源,以符合课程内容。
学生们可以独自或成对工作,将此提示粘贴到 ChatGPT 或他们选择的LLM中,然后根据指定的背景、日期和来源决定如何在基于文本的互动情景中行动。
通过群组和班级讨论,以及一系列后续作业,包括事实核查模拟和研究引发的问题,学生能够整合、批判和反思这一经历,同时也获得了与生成式人工智能复杂用例的持续经验。
我已经写过为什么我认为LLMs是如此有趣的教育角色扮演工具,所以我不会在这里重复论点。但在实践中会是什么样子呢?到目前为止,我在 HistoryLens 上进行的课堂实验主要是为了弄清楚 AI 启用的历史模拟的基本概念是否有意义。AI 模型能否胜任?学生喜欢吗?它是否增强了他们对课程内容的理解,还是削弱了?
由于这些问题仍然大多没有答案,我迄今一直专注于基础知识。但如果我们要开发完全实现LLM功能的教育游戏,会是什么样子呢?
以下是我描述的三种游戏想法,我可以想象将其作为课程的一个重要组成部分。例如,年轻达尔文以下将适合我教授的名为“帝国热带地区”课程中,该课程涉及热带地带、帝国主义和科学革命。
您可以单击这里访问一个包含与每个想法对应的提示的 Google 文档。将提示输入到您选择的LLM中(Claude、Gemini 和 ChatGPT 都可以),以亲身体验。但请记住,这只是一个概念验证:在每种情况下,我想象中的实际游戏将包括图形用户界面和其他功能,如保存或切换历史上真实的语言。
想法#1:🐢 年轻的达尔文
游戏设定在加拉帕戈斯群岛,让玩家扮演年轻的查尔斯·达尔文,探索各种栖息地,通过一系列表情符号组成的网格收集和分类自然标本。游戏还包括管理达尔文的口渴和疲劳,以及遇到偶发的随机事件,这些事件会打乱达尔文的计划。玩家撰写日记来描述他们的发现。胜利条件:在受伤、意外或事件迫使你返回“小猎犬号”之前,收集十个标本并撰写足够高质量的日志条目。
这个想法是基于当前LLMs能够使用带标签的表情符号创建粗糙地图的能力而自然产生的。我最初写了一个提示,模拟年轻的查尔斯·达尔文漫步查塔姆岛,在那里他首次观察到他著名的雀鸟和加拉帕戈斯龟。我尝试让 AI“创建一幅地图,展示达尔文此刻能够辨别的各种生物,使用表情符号网格,类似于旧游戏《模拟生命》的风格”,并对结果感到迷人(请参见本文后面的屏幕截图示例)。
这个想法将把这个提示发展成一个独立的游戏,游戏中达尔文在查塔姆岛的简化、类似网格的地图上移动,地图上生活着一系列不断变化的生物(历史达尔文写过的实际物种)。玩家将观察这些物种。但至关重要的是,游戏并不会在这里结束。玩家随后将撰写日记条目,这些条目将借鉴实际历史来源的原始研究,如达尔文的日记和其他影响他的自然学家的作品。通过撰写准确反映 1830 年代科学家思维和理论的条目来“赢得”游戏。更多关于如何实现这一点的内容请参见下文。
你扮演十七世纪墨西哥城的女药剂师玛利亚·德·利马。游戏的核心是根据伽伦医学的技术混合药物,治疗患有各种疾病的患者。玩家可以从历史药物列表中进行选择,并准备药方,GPT 模型会评估其药方的历史准确性和有效性。挑战在于管理店铺的声誉,避免揭露玛利亚的过去,并保持财务稳定。胜利条件:玩家需要在经历 20 个回合后存活下来,才能躲过审判会的追捕,避免因患者结果不佳而失去执照,或者因资金耗尽而输掉比赛。
这个想法源自于我第一本关于早期现代药物贸易的书,该书在很大程度上依赖于 17 世纪药剂师的档案记录。我特别感兴趣的是在这里以一个真实但鲜为人知的历史人物玛利亚·科埃略作为灵感:她是一位葡萄牙药剂师,因被指控秘密信奉犹太教而在 1660 年代被宗教裁判所起诉,并被驱逐到巴西。这是我在书籍研究中使用的手稿图片,可能描绘的是玛利亚或左侧的一个亲戚。
葡萄牙国家图书馆 MS 2259, “Jozeph Coelho 的药方”(1668 年),第 76 页。
玛丽亚在新世界中伪造了新身份,最终在墨西哥城经营一家新的药店,会怎样?这个游戏是否真的可以利用类似上面手稿中提供的 17 世纪药品价格和清单呢?
想法#3:🕵🏼网络间谍
在二战后的纽约市,1946 年梅西控制论大会的背景下,选择扮演人类学家玛格丽特·米德或者一个虚构的 OSS 特工,可能是苏联间谍,基于真实故事的简·福斯特·兹拉托夫斯基。玩家与其他会议与会者交谈,并做出影响他们目标的战略选择。玛格丽特·米德的目标是开发关于机器智能的突破性见解,而基于简·福斯特的角色必须在为苏联从事间谍活动或者揭露纽约存在苏联间谍的情况之间做出选择。游戏发生在会议的整整一天内,事件和对话直接基于真实事件。
我计划写一篇后续文章,详细介绍这样一个游戏可能如何运作,所以我不会在这里详细介绍。我很享受制作这个游戏的模拟(主要是修改和排列由 DALL-E 图像生成模型制作的像素艺术)。
在这三种情况下,我设想游戏本身在图形方面非常简单。《请查收》是 UI 和游戏机制的良好模型,其基于具有固定属性的角色的静态图像,但对话和互动事件将由LLM编写。但实际上,这种类型的游戏最接近的模拟是更像是模拟联合国或对过去反应系统,一套教育角色扮演场景和教案。
我的目标是将这些概念转化为历史思维和写作的核心游戏机制。这是以前不可能的,因为历史学习并非死记硬背事实,而是评估、批判和重新组合新旧数据。游戏可以相对容易地检查玩家是否得分了 x 分或从多项选择题中选择了正确答案。但无论规则多么复杂,旧的视频和棋盘游戏永远无法判断玩家是否写出了历史准确或修辞精湛的内容。
例如,让我们看看现有的几款以达尔文为主题的棋盘游戏之一。其中最新、最受欢迎的是名为达尔文之旅的游戏。正如游戏描述所述,“每位工作者都必须学习各种学科,以执行游戏中的多项行动,如探险、通信和发现标本,从而为人类的生物知识做出贡献。”
但这并不意味着通过实际学习或应用知识就能赢得比赛。相反,教育方面是通过一组相同的“知识”和“研究代币”来体现的。
现在,尽管如此,实际上似乎可以创建一个达尔文游戏,其中获胜需要玩家进行对达尔文著作的原创研究,然后以书面形式运用他们所学到的内容。
例如,一个LLM可能会收到类似这样的输入:
您正在评估一款名为“年轻达尔文”的基于文本的教育游戏中玩家的输入。玩家扮演达尔文的角色,在查塔姆岛漫步,寻找自然物。玩家根据他们观察、写作和理论化所遇到的各个物种的能力在一系列日记条目中写下它们来得分(0-10 分制)。关键评估标准是玩家的日记条目如何准确地反映了 1830 年代关于自然界的知识和思维方式。玩家被允许独立研究达尔文的实际日记和著作。请根据此基础评估以下日记条目,为其分配 0(最低分)到 10(最高分)的分数。用两句话简洁地解释您的评分,包括具体和具体的批评和/或更正。学生的日记记录如下
这将导致一个介于 0 和 10 之间的数值分数,以及一个相当详细的解释,这些分数可以被累加起来,以确定玩家何时“获胜”。
我已经将这个问题描述为一个假设,但事实上,现有的人工智能系统已经可以实现这一点。例如,在我上面链接的用于与 ChatGPT 一起使用的 Young Darwin 原型版本中,我发现了一只靠近我的雀鸟。这是地图上的🐦符号。
我走向它,然后要求并得到了详细描述。在查看LLM的输出并进行自己对达尔文关于加拉帕戈斯群岛雀的实际记载的研究后,我写了一篇日记——尽管这些内容很有名,但实际上只有几句话。
这是我写的内容,试图以年轻达尔文的声音和知识为基础
1835 年 9 月 17 日。今天早上降落在查塔姆岛,这是加拉帕戈斯群岛中最东边的岛屿。这里是一片充满火山玄武岩、岩石和沙子的荒凉崎岖之地,偶尔会有仙人掌或矮树丛点缀其间。气候干燥而炎热。我现在观察到一种非常奇特的地面雀鸟,我想做个记录。这些雀鸟体型小而不显眼,在这样的环境中却显得格外醒目。我相信我以前从未观察过这个特定的物种。羽毛颜色相当深。它大致与麻雀大小相当,是一种相当活跃的鸟,不停地啁啾。
我估计每次叫声大约持续三秒钟。我尚无法确定这个标本是雄性还是雌性,但是暗淡的黑褐色调似乎暗示着这是一只雌性。这只鸟最引人注目的特征是其强壮的喙,显然非常适合啄食我观察到的附近的小种子,而事实上当我发现它时,它正忙着吃东西和啄食这些种子。在我的经验中,或者在我阅读布丰、洪堡等人的著作时,我没有见过其他任何一种雀鸟,其喙相对于身体大小如此之大。
这是 GPT-4 对我的日记条目进行评分和评估的结果:
评分:8/10
解释:这篇日记条目展示了对观察细节的深刻把握,并且很好地符合了19世纪30年代的科学探究风格。提到了布丰和洪堡等著名自然学者,使其牢固地定位在达尔文时代的智力背景之中。对雀鸟的行为和身体特征,特别是强壮的喙的描述,恰当地被注意到,反映了19世纪自然史中对形态特征的关注。
然而,有小的改进点:
基于羽毛颜色对性别的假设可能需要澄清,因为在达尔文的时代,这种区分并不被很好地理解,可能反映了对鸟类性别二态性的更现代的解释。
日记条目如果能更明确地将观察到的特征与它们潜在的适应意义联系起来,将更有益,这是达尔文关于自然选择的思考的关键方面,尽管到1835年他还没有完全阐述这一理论。
通常讨论机器评估和评分文本的能力时,会将其置于评分学生作业的背景下。我不希望当前的人工智能工具直接参与评分论文,在这一点上我绝对不是孤单的。但是当涉及对教育游戏中的复杂输入进行评估时,我认为这是一个值得拥抱和探索的显著新能力。
视频游戏的可操作性一直可以归结为数字计算。在游戏中的每一个事件背后,都有一个公式决定你是成功还是失败。这个基本事实极大地限制了你可以为游戏世界提供的输入方式。你按时按下按钮跳跃或击中目标了吗?你移动光标到正确的 x 和 y 坐标了吗?这些一直是视频游戏所依赖的问题。
现在,我们有全新的标准来评判游戏世界中的成功或失败。因为LLMs能够模拟对一篇文章(或演讲,或视觉艺术品)的主观评价,这意味着未来游戏的胜利条件可以超越数学领域,进入语言领域。现在甚至可以想象通过发表令人信服的演讲或绘制美丽的画作来赢得游戏。目前关于LLMs在游戏中的作用的讨论往往集中在它们在为 NPC 等生成对话方面的潜在作用上。但对于教育游戏,我觉得评估方面开辟的新可能性更加有趣。
关于这个话题还有很多要说,但我会在这里停下来,并在未来的帖子中继续。如果您对以上任何方面感兴趣,请与我联系。
对于AI+历史教育期待您在本文下一起讨论呀~