据PNAS官网显示,来自杜克大学的Christopher Andrew Bail在国际顶尖学术期刊《美国国家科学院院刊》(Proceedings of the National Academy of Sciences, 简称PNAS) 上发表观点,“Can Generative AI improve social science?”,系统总结并分析了生成式人工智能可能对社会科学研究产生的影响。
Title: Can Generative AI improve social science?
生成式AI能够推动社会科学发展吗?
Christopher Andrew Bail
杜克大学
Generative AI that can produce realistic text, images, and other human-like outputs is currently transforming many different industries. Yet it is not yet known how such tools might influence social science research. I argue Generative AI has the potential to improve survey research, online experiments, automated content analyses, agent-based models, and other techniques commonly used to study human behavior. In the second section of this article, I discuss the many limitations of Generative AI. I examine how bias in the data used to train these tools can negatively impact social science research—as well as a range of other challenges related to ethics, replication, environmental impact, and the proliferation of low-quality research. I conclude by arguing that social scientists can address many of these limitations by creating open-source infrastructure for research on human behavior. Such infrastructure is not only necessary to ensure broad access to high-quality research tools, I argue, but also because the progress of AI will require deeper understanding of the social forces that guide human behavior.
能够生成逼真文本、图像及其他类似人类输出的生成式人工智能,目前正在改变众多不同行业。然而,尚不清楚此类工具会如何影响社会科学研究。本文认为生成式人工智能有潜力改进调查研究、在线实验、自动内容分析、基于主体的模型以及其他常用于研究人类行为的技术。在本文的第二部分,将讨论生成式人工智能的诸多局限性。会审视用于训练这些工具的数据中的偏差如何对社会科学研究产生负面影响,以及一系列与伦理、可重复性、环境影响和低质量研究泛滥相关的其他挑战。最后,本文认为社会科学家可以通过创建用于人类行为研究的开源基础设施来应对其中许多局限性。提出这样的基础设施不仅对于确保广泛获取高质量研究工具是必要的,还因为人工智能的进步将需要更深入地理解引导人类行为的社会力量。
生成式人工智能技术能够生成逼真的文本、图像、音乐和其他创意形式,持续吸引着广大受众。许多人推测这种技术将影响从创意和法律写作到计算生物学等一系列行业和学科。然而,社会学家、政治学家、经济学家和其他社会科学家才刚刚开始探索生成式人工智能将如何改变他们的研究。本文认为这些工具可能会推进社会科学研究的规模、范围和速度,并可能促成新的科学探究形式。同时,本文评估了生成式人工智能在社会科学研究中的诸多局限性,并讨论了学者们在探索这一有前途的新技术时如何降低风险。
在本文的第一部分,为社会科学家提供了生成式人工智能的简要历史。在第二部分,探讨生成式人工智能是否能有效地模拟人类行为以用于社会科学研究。评估了这些工具是否对调查研究有用,或在在线实验中创建实验启动刺激是否有帮助。接下来,回顾了最近使用生成式人工智能模型模拟动态人类行为的研究。这些研究包括人类受访者与生成式人工智能交互的实验,或研究人员促使模型相互交互以研究涌现群体行为的模拟。认为此类研究可能有助于社会科学家开始逆向工程人类的 “社会感知”,即我们如何在不同社会环境中形成对可接受行为的共同理解。最后,认为生成式人工智能有可能改变自动文本分析。由于生成式人工智能工具能够快速分析大量不同语言的文档组,提出它们可能会显著扩大社会科学家可以研究的研究问题范围。
在本文的第三部分,转向与生成式人工智能相关的各种局限性和潜在危险。围绕这项新技术的许多公众讨论都集中在 “奇点” 的可能性上,即人工智能模型超越人类智能并威胁我们的福祉。许多学者认为,这种担忧回避了短期内已经发生的有据可查的社会危害。这些危害包括生成式人工智能对受污名化群体表现出强烈偏见、传播错误信息、可能加剧社会不平等或气候变化等负面结果。讨论了这些问题如何可能对社会科学研究的质量、效率、可解释性和可复制性产生负面影响,并引发了关于伦理和人类受试者保护的新问题。还评估了这些模型产生和传播 “垃圾科学” 的可能性,这可能会在未来几年阻碍科学探究。认为减轻这些风险具有挑战性,因为训练生成式人工智能的过程在很大程度上是不透明的,而且用于检测人工智能生成内容的准确工具尚未在大规模上有效。
在本文的最后一部分,认为社会科学家可以通过创建自己的开源基础设施来应对使用生成式人工智能进行研究的许多挑战。通过开发自己的生成式人工智能模型,社会科学家可以更有效地诊断模型训练过程如何影响对人类行为的科学分析,并确保这些新工具根据科学利益而发展,而不仅仅是目前生产许多最流行模型的公司的利益。最重要的是,认为开源基础设施可以创建一个学者社区,致力于确定使用生成式人工智能进行研究的最佳实践,防止这些工具重现学术等级制度,并使社会科学家能够制定应对未来挑战的解决方案,防止这些工具被用于恶意目的。
需要注意几点。首先,本文的分析仅限于社会科学,因此不涉及生成式人工智能可能影响其他领域的多种方式。其次,本文关注生成式人工智能对科学研究的影响,而不是其对社会生活的更广泛影响,这当然是另一个值得分析的主题。第三,生成式人工智能研究领域变化如此之快,以至于任何对其潜力的评估都可能很快过时,其可能的风险或危险信息也是如此。
“生成式人工智能” 这一术语描述了由统计学、计算机科学和工程领域的研究人员开发的一系列广泛的工具,有时也被称为 “基础模型”。从高层次来看,这个术语标志着机器学习技术的使用从模式识别(即创建工具来识别文本、图像或其他非结构化数据集中的潜在模式)向通过在大型数据集(通常从在线来源收集)上训练的算法生成自由形式的文本、图像和视频的转变。像 ChatGPT 这样的大型语言模型(LLM)摄取大量基于文本的数据,并根据文本段落中其他语言模式的存在来确定一个单词(或一组单词)出现的概率。随着技术的进步,人工智能研究人员能够在越来越大量的文本上训练此类模型,并采用强大的新 “变压器” 架构,像 GPT - 3 这样的工具在预测最有可能跟随不同 “提示”(旨在塑造 LLM 输出的短文本,如问题)的语言方面变得更加熟练。因此,LLM 类似于过去十年在搜索引擎、应用程序和其他数字空间中普遍存在的 “自动完成” 技术,但规模更大,训练过程也更复杂,下面将详细介绍。虽然学者们争论 LLM 是否 “理解” 它们产生的输出,但许多人对它们在对话环境中模仿人类、综合不同信息源和进行基本推理的能力印象深刻。
在图像方面也有类似的进展,在视频方面进展相对较小。与根据其他单词计算单词出现的概率不同,创建全新图像的生成式人工智能工具使用不同颜色或大小像素的共现来组合一系列合成视觉效果。这些包括合成人脸、经典艺术品的复制品,或在创意产业中引起人们兴奋和担忧的超现实且有时极具创新性的艺术形式。像 DALL - E 和 Stable Diffusion 这样的模型通过文本提示创建此类视觉内容,搜索单词共现模式和像素排列之间的联系,使用户能够请求高度专业化的视觉内容。
尽管生成式人工智能模型存在明显的缺陷,但在某些情况下它们似乎能够模仿人类。计算机科学家艾伦・图灵是最早提出通过判断人类是否能够区分人类或人工智能产生的内容来评估人工智能的人之一。Kreps 等人使用 GPT - 2(ChatGPT 的前身,生成的文本质量较低)研究了研究参与者是否能够区分由该 LLM 和人类受访者生成的关于美国外交政策的简短陈述。他们发现 GPT - 2 能够成功模仿人类,甚至可以撰写关于国际事务的长篇新闻报道,其可信度与真正记者撰写的报道相当。在最近的一项研究中,Jakesch 等人检查了人类调查受访者是否能够辨别关于招聘广告和在线约会资料的文本是由人类还是 LLM 创作的。他们在一系列实验中表明,人类在很大程度上无法确定此类文本是由人类还是 LLM 撰写的。最后,Zhou 等人表明 GPT - 3 可以轻松生成关于 COVID - 19 的错误信息,并且能够逃过大多数社交媒体平台的检测。最近的研究表明,人工智能生成的内容即使是虚假或误导性的,也会影响人类的态度。
尽管生成式人工智能成功模仿人类存在明显的潜在危害,但这些相同的能力对于社会科学家的研究目的可能是有用的。例如,社会科学实验通常包括旨在引导人类受访者以某种方式行事或表现出某种情感的文本或图像。例如,一位研究人员若想研究情绪如何影响对政治广告活动的反应,可能希望在询问投票意向之前向受访者展示旨在引发恐惧的文本或图像。或者,一位旨在评估招聘中的种族歧视的研究人员可能希望向研究参与者展示两张图像,一张是白人求职者,另一张是非洲裔美国求职者,然后评估参与者对两位候选人就业能力的看法(在其他条件相同的情况下)。生成式人工智能可能有助于创建此类场景或图像,特别是在研究人员的迭代反馈下,以提高这些启动刺激的外部有效性和可比性,或者保护可能在此类研究中使用其图像的真实人类的隐私。
创建一段引人注目的短文或单张图像对于生成式人工智能来说是一个相对较低的门槛(但它仍然经常无法通过)。较短的文本为生成式人工智能工具提供了更少的犯错或产生幻觉(或半真半假)的机会,从而降低了它们模仿人类的能力。然而,也有证据表明生成式人工智能在更复杂的人类行为方面表现得相当不错。例如,Argyle 等人表明 GPT - 3 可以准确模仿来自不同人口背景的全国代表性民意调查的受访者。例如,向此类工具提供受访者特征的详细信息,会使它们以与具有相同属性的真实受访者非常相似的方式回应民意调查。一些人认为,这种 “硅样本” 可以用于生成比许多大学研究人员使用的便利样本更多样化的样本,并且还可能允许研究人员实施更长的调查工具,因为 LLM 具有潜在的无限注意力跨度。同时,最近的研究表明 GPT 3.5 turbo 能够准确估计人群中的态度均值,但低估了方差,夸大了极端态度。另一项研究表明,LLM 在是非问题上存在肯定性偏差。研究还表明,LLM 对某些人口子群体的代表比其他子群体更准确。然而,这些研究没有使用最新的模型,并且只关注一个国家:美国。理解 LLM 和人类对调查的反应差异可能尤为重要,因为这些工具正被恶意行为者训练来模仿受访者,以操纵调查行业。虽然硅样本不会很快取代对人类受访者的调查研究,但它们在将调查发送给大量人类受访者之前进行预测试(这可能成本高昂)或 imputing 缺失数据方面可能仍然非常有用。一些人认为生成式人工智能也是创建调查问题或设计用于测量抽象社会概念的多项目量表的有用工具。
也有证据表明生成式人工智能可以用于重现实验。例如,Horton 认为使用 GPT - 3 创建的合成研究受访者可以用于重现行为经济学中的几个经典研究。同样,Aher 等人表明 GPT - 3 也可以重现经典的社会心理学实验,包括臭名昭著的米尔格拉姆实验,尽管他们认为它无法重现 “群体智慧” 现象。还有其他研究表明,LLM 可以复制认知科学和道德研究中的经典实验,并在囚徒困境和其他行为博弈中复制人类行为。Ashokkumar 等人发现,在 482 项研究中观察到的处理效应与 GPT - 4 生成的响应之间的相关性为 0.86。此外,他们发现这种相关性在已发表和未发表的研究中以及跨人口子群体中都成立。因此,随着模型规模的增加以及研究人员尝试使用更丰富的数据形式(如深度定性访谈或详细的生活史)提示 LLM,生成式人工智能模仿人类的能力可能会提高。下面将更详细地讨论在这些努力中保护用户隐私的挑战。
生成式人工智能是否能够在更复杂的社会环境(如人际对话)中成功模仿人类则不太清楚。这是一个重要的问题,因为图灵测试通常是在一个人类可以与人工智能聊天机器人和另一个人类进行交互并提问以区分它们的环境中进行的。早期创建能够通过图灵测试的聊天机器人的尝试大多失败了。基于规则的聊天机器人,如 1968 年发明的 ELIZA,通过识别用户输入中的关键词并将其与鼓励用户自我反思的一组响应链接来提供罗杰斯式心理治疗,但缺乏以引人注目的方式回应突发或动态对话转折的能力。在 21 世纪初和 2010 年代,遵循这种简单规则的聊天机器人逐渐被那些从自然语言使用中学习的聊天机器人所取代。但直到最近,这些聊天机器人似乎也无法通过图灵测试,因为它们难以生成原创内容,经常转移话题,或者未能遵循人类对话中的其他惯例,这使得它们很容易被识别。生成式人工智能有潜力创建更逼真的类人交互,因为许多此类工具是在大量描述人类交互的数据上进行训练的,并且由于最近的技术创新(如变压器模型)。
多人在线游戏是对生成式人工智能在社会环境中生成看似合理的人类行为能力的一个粗略测试。虽然此类游戏肯定不能模拟社会科学家感兴趣的所有人类行为,但它们可能为评估这些工具在更复杂环境中的表现提供一个有用的基线。在生成式人工智能出现之前,视频游戏中的可信角色是通过简单规则或 “强化学习” 创建的,其中人工智能角色根据与人类玩家的过去经验调整其行为。这种行为的关键是一个人工智能代理能够回忆先前事件或展示工作记忆的系统。这种人工智能在视频游戏中已经存在一段时间了,并且人工智能系统在许多简单游戏(如西洋双陆棋、国际象棋和 AlphaGo)中多年来甚至超越了人类玩家的能力。最近,研究人员表明,LLM 也可以学习在需要复杂推理和高级策略才能击败人类玩家的游戏(如外交)中使用自然语言。
另一项研究考察了在多人游戏中引入人工智能代理如何影响与之一起玩的人类的行为。Dell’Aqua、Kogut 和 Perkowski 研究了一个合作烹饪游戏,其中人工智能的表现已知超过人类玩家。当在团队环境中引入人工智能代理时,研究人员发现与全人类团队相比,当代理在他们的团队中时,人类代理的表现更差。作者认为,引入人工智能代理使人类玩家的协调更加困难,并在团队成员之间产生了更少的信任。相反,Traeger 等人发现,经过训练在协作任务中表现不佳的自动代理实际上可以改善人类团队成员的行为。可能是比人类更熟练地完成任务的人工智能会引起挫折和内斗,而表现出较低能力的人工智能则会鼓励人类产生同理心并进行协作以克服团队的不良表现。
如果一组自动代理在一致行动时能够创建可信的群体行为,这也可能促成新的研究形式。许多社会科学理论描述了塑造个体行为的群体层面的过程。但是,招募大量人员进行交互通常在后勤上是不可能的,或者成本过高,或者两者兼而有之。虽然生成式人工智能可能永远无法复制人类群体的自发行为,但研究人员仍然可以在在线空间中部署一组机器人来近似这种行为。Allamong 等人提供了这种研究的概念证明。这些研究人员有兴趣研究社交媒体用户在被与他们政治观点不同的人包围时的行为。但是,招募具有不同信仰的社交媒体用户相互交互是极其困难的。相反,Allamong 等人构建了一个社交媒体研究平台,在该平台上招募受访者与被提示模仿对立政党成员的 LLM 进行十分钟的交互。虽然在研究的知情同意对话中告知受访者他们可能会与自动账户进行交互,但大多数参与者对他们是否与人类或机器人进行交互表示不确定。由于研究样本量较小,这些发现是初步的,但研究设计表明,如果研究人员实时仔细监测人类与人工智能的交互以防止幻觉或滥用,LLM 可能对进行群体层面过程的研究有用。
最近的研究表明,生成式人工智能工具本身也可能对模拟大量人类人口有用。这可能会丰富 “基于主体的建模”(ABM)范式,在该范式中,研究人员创建合成社会来研究社会过程。这个已有数十年历史的传统要求研究人员使用计算机代码创建一个社会环境(如社交网络、社区或市场)的仿制品。研究人员还根据人类行为理论规定的一组规则创建在这样的环境中相互作用的主体。例如,研究人员可能会为一个主体分配两个身份群体之一的成员身份,然后模拟他们之间的领土控制权争夺。在这样的模型中,主体可以被分配诸如最大化自身利益(或其所属群体的利益)等行为,并且可以系统地改变这些参数,以确定更广泛社会环境中可能的结果范围。
基于主体的模型的一个关键优势是它们允许研究人员探索假设情景并识别可以创造宏观层面模式(如居住隔离)的个体层面模式(如群体内偏见)。早期的 ABM 使用遵循简单规则的主体,例如如果外群体的人搬进他们的社区,他们就会搬到新的社区。最近的工作采用了更复杂的主体,这些主体可以有许多特征,并使用类似人类的决策过程(如有限理性)遵循多个规则。然而,ABM 经常因未能捕捉人类行为的全谱而受到批评。例如,ABM 中的传统主体不使用语言、解释社会背景或相互进行对话。
最近的研究表明,LLM 可以用于解决基于模拟的研究的一些局限性。Park 等人创建了一个模拟环境,其中几十个由多个 GPT 3.5 turbo 实例独立驱动的主体在一个虚构的小镇环境中相互作用。研究人员为主体赋予了个性和特征(如 “一个爱社交的药剂师”),并开发了一个软件基础设施,使主体能够拥有总结过去与其他主体交互的记忆。随着模拟的进行,这些主体不仅形成了日常生活规律(如起床和吃早餐),还展示了涌现的群体属性。例如,一个主体宣布她要举办派对,其他主体开始讨论是否参加。其中一个主体甚至邀请另一个主体约会参加这个活动,其他主体则参与了关于这个新兴浪漫关系的八卦。虽然这项研究创建了一个相对简单的社会环境,主体数量较少,但它提供了一个概念证明,即生成式人工智能有潜力推进社会模拟研究。
最近的研究表明,LLM 可以集成到 ABM 中,以开发或测试更复杂的人类行为理论。例如,Törnberg 等人创建了一个模拟社交媒体平台,有五百个主体,其行为使用美国国家选举研究(ANES)的数据进行校准。主体被提示根据 ANES 受访者的社交媒体习惯和政治观点阅读新闻故事、发布内容或点赞。这项研究既重现了社交媒体平台上已知的动态,又模拟了如果使用优化共识而非用户参与的替代新闻推送算法会发生什么。同样,Gao等人使用现实世界的社交媒体数据校准模型,声称该模型成功预测了关于性别歧视和核能的信息和情绪传播。另一项研究表明,大语言模型可以重现社交媒体上的社会运动动态。
由于大多数大语言模型可能是用大量社交媒体数据训练的,在这些平台上重现已知的人类动态可能代表了评估这些工具更广泛地改进 ABM 前景的下限。然而,一些最近的研究表明,大语言模型可以在模拟经济和劳动力市场中重现竞争动态、组织内的信息传播和决策以及危机应对。最后,最近有几项努力生成基于主体建模的软件框架,这可以降低社会科学家的进入成本,他们希望将这种研究设计进一步扩展到更多的研究问题。
同时,将大语言模型集成到 ABM 中可能会重新引发关于后者的已有争论。学者们经常争论,如果可以用简约模型创建感兴趣的涌现群体动态,增加主体的复杂性是否可取。同样不清楚的是,应该如何评估大语言模型在 ABM 中的表现。大语言模型在 ABM 中重现已知群体动态就足够了吗?或者,应该根据它们预测现实世界结果的能力来评估它们吗?如果大语言模型的结果可以被多个模型确认,我们会对其更有信心吗?如果是这样,大语言模型的概率性质可能会使学者们难以重现彼此的发现,正如下面将更详细讨论的那样。未来的研究还需要确定大语言模型是否使 ABM 对随机性更敏感,或者它们是否更真实地代表了如此多人类行为的不可预测性。
如果这些问题能够得到解决,整合大语言模型和 ABM 可以开辟新的研究途径。这种方法可以用于研究在现实生活中很难研究的主题(如社交媒体上的暴力极端主义),或研究很难接触到的人群(如暴力极端分子)。模拟也可以为我们在这些主题上的少量观察性研究提供信息,并且也可以使用这些观察数据进行校准。通过模拟研究确定的涌现群体行为反过来可以进一步为观察性数据收集提供信息,或者潜在地为旨在防止此类行为的社会干预提供信息。需要更多的研究来确定基于大语言模型的模拟是否足够现实,以便在这些努力中有用,特别是因为许多难以研究的人群可能在用于创建生成式人工智能的训练数据中没有得到很好的代表。
无论生成式人工智能是否能够有效模拟人类行为,它也可能帮助社会科学家完成其他常见的研究任务,如基于文本数据的内容分析。Wu等人证明,GPT - 3.5 可以通过分析美国民选官员的公开声明来准确分类他们的意识形态。他们将随机配对的民选官员的名字传递给模型,并要求它识别哪一个 “更保守” 或 “更自由”。结果与使用唱名投票测量民选官员意识形态的流行的 DW - Nominate 方法非常接近,但也在经常投票反对其政党极端派别的温和派中发现了更多细微差别。同样,Yang和Menczer认为 GPT - 3.5 可以准确编码媒体来源的可信度。Gilardi等人认为 GPT 3.5 - turbo 可以准确测量推文的主题、作者的立场或观点以及以叙事方式组织信息的 “框架”。除了将推文的全文传递给 GPT 3.5 - turbo 之外,这些研究人员还将通常分配给人类编码员的编码指令作为提示提供给模型。他们发现,这个模型比在亚马逊 Mechanical Turk 上接受此类材料培训的人类工作者表现更好,尽管已知这些编码员不如在小组环境中由研究人员直接培训的编码员准确。Mellon等人将几个著名的大语言模型的编码性能与接受过高度培训的编码员进行了比较,这些编码员被指示分析关于英国选举的声明。他们发现,大语言模型在大约 95% 的时间内产生了相同的分类。Argyle等人还证明,大语言模型在使用移动聊天平台对多人之间的非结构化对话主题进行编码方面具有相当大的潜力。
Ziems等人提供了迄今为止对大语言模型编码文本能力的最系统分析。使用由社会学、政治学和心理学等社会科学领域以及历史、文学和语言学等非社会科学领域的专家编码的数据集,他们比较了大语言模型重现人类专家注释者工作的能力。总体而言,他们发现大语言模型表现良好,特别是在编码由政治学家和社会学家创建的数据方面。不出所料,他们发现最新的模型表现最好。然而,大语言模型似乎对某些主题分配的代码比其他主题更准确,这可能是它们训练方式的产物。这些模型无需任何特定培训就能重现人类的编码决策是令人鼓舞的,但齐姆斯等人认为,使用大语言模型仍需要一定程度的人类监督,并熟悉特定任务的提示工程。有用的是,这些作者还提出了一个可重复的数据分析管道,用于对未来的模型和其他数据集进行持续评估。社会科学家也开始确定使用大语言模型进行编码任务的最佳实践。例如,Törnberg提供了如何使用 API 设置编码工作流程的实用指南,并就如何为社会科学编码任务编写提示提供了详细建议。
上述研究表明,文本分析可能是生成式人工智能改善社会科学研究最有前途的途径之一。大语言模型目前还不能与专家人类编码员的准确性相媲美,这意味着它们不会很快取代传统的文本分析。但是人类编码员也容易出现各种有据可查的错误,从主观偏见到不一致和注意力不集中,特别是当研究人员组织小团队以协调的方式对文档进行编码时。大语言模型也可能产生偏差和不一致,正如下面将更详细讨论的那样。但是大语言模型可以使社会科学家以前所未有的速度检查规模空前的文本集。例如,社会科学家现在有可能在短时间内对整个文本集进行编码,而不是对文档进行随机抽样。大语言模型似乎还能够用世界上许多最主要的语言执行编码任务,以及执行通常分配给人类研究助理的其他基本任务,如数据编码或数据输入(在补充信息中有更详细的讨论)。需要更多的研究来评估大语言模型在文本分析中的潜力,并评估下面将更详细讨论的可能的隐私问题。但就目前而言,它们似乎准备对社会科学家使用基于文本的数据提出的问题范围产生重大影响。能够将图像内容转换为文本的多模态模型表明,这些编码能力可能很快也适用于其他媒介。
到目前为止,本文对生成式人工智能改善社会科学的潜力持乐观态度。但是这些工具存在有据可查的局限性,可能会对社会科学研究产生负面影响。在以下各节中,将详细讨论这些局限性。
1. 生成式人工智能存在人类偏见
大多数人工智能工具是使用人类创建的数据进行训练的,因此经常表现出广泛的偏见和认知错误。生成式人工智能引发了对偏见的更高担忧,因为这些工具是在互联网上由人类创建的大量数据上进行训练的,而群体间的偏见在互联网上普遍存在。评估生成式人工智能中偏见的规模和方向的一种方法是要求大语言模型完成民意调查。Santurkar等人要求由 OpenAI 和 A121 Labs 训练的一系列大语言模型回答在美国进行的大量调查中的问题。他们比较了模型对堕胎、枪支管制和一系列其他主题的问题的回答。他们发现,大多数大语言模型的回答比普通人群更自由,反映了那些更年轻、受教育程度更高的人的观点。大语言模型尤其不太可能表现出 65 岁以上、丧偶或摩门教徒的回答。其他研究人员表明,大语言模型往往对女性和少数族裔存在偏见。大语言模型似乎也有独特的个性特征,特别是它们比神经质的人更外向和合群。这可能是因为许多大语言模型是考虑到客户服务应用而创建的。
Santurkar等人表明,使用提示工程可以部分解决大语言模型中的偏见,例如要求模型扮演特定群体的角色(如来自德克萨斯州的富有的共和党人)。这与早期的研究相呼应,早期研究表明,从人工智能工具中消除偏见可能比从人类群体中消除偏见更容易。然而,这些策略关键取决于研究人员首先识别偏见的能力。当训练最流行的生成式人工智能模型(如 GPT - 4)的过程在很大程度上是未知的时,这并非易事。
对于社会科学家来说,一个关键问题是生成式人工智能的偏见对于研究目的是 “缺陷” 还是 “特征”。我们经常设计实验来研究偏见对态度或行为的影响。如果能够仔细控制生成式人工智能工具中的偏见(这是一个主要假设),它可以让研究人员在实证环境中研究其影响(例如,调查受访者评估一个假设的求职者)。也有可能生成式人工智能在 “逆向工程” 某些类型的偏见方面可能有用。例如,对针对广泛提示产生的代词进行实验,有可能识别新型的性别歧视,特别是在产生生成式人工智能工具训练数据的在线环境中。另一方面,生成式人工智能工具无法准确代表边缘化群体的人可能会阻碍社会科学研究。那些希望大语言模型可以帮助研究人员评估他们在更多样化人群中的干预措施影响的人可能会对这种模仿的质量感到失望,因为训练数据不足。
但还有另一个挑战:训练生成式人工智能模型的最重要阶段之一是其开发者通过 “微调” 或 “带有人类反馈的强化学习” 为其提供反馈。例如,人工智能公司通常试图训练他们的模型避免发表种族主义言论。这个过程通常是在幕后通过 “红队” 攻击进行的,旨在诱使模型产生有偏见、危险或非法的内容。开发者然后创建工作流程来防止模型讨论此类内容。虽然这些防护措施可能提高了生成式人工智能工具在公共使用中的安全性,但它们可能会阻碍社会科学家利用偏见进行研究的能力。例如,想要使用大语言模型模仿有偏见的群体的研究人员可能会发现这些工具不愿意扮演这样的角色,因为它们已经根据受过高等教育的自由主义者的规范偏好进行了微调,这些人可能比其他人更关心保护边缘化群体。在大多数专有大语言模型被训练为有用的聊天助手的程度上,它们可能在其他难以察觉的方面也与典型的人类群体不同。例如,一项研究表明,大语言模型比人类表现出更理性的行为。但也有一些证据表明可能存在相反的问题:微调大语言模型以通过图灵测试可能会使它们更有可能分享不准确的信息。
2.生成式人工智能会产生 “垃圾科学” 吗?
恶意行为者在短期内使用生成式人工智能传播错误信息的可能性非常令人担忧,因为像大语言模型这样的工具非常擅长大规模模仿人类。但是,生成式人工智能自信地产生不准确信息的能力从长远来看也可能产生潜在的问题。随着互联网上越来越多地充斥着由人工智能生成的有偏见或不准确的文本和图像,什么能阻止未来的模型在这些有缺陷的数据上进行自我训练呢?一个最近的例子展示了这种情况可能如何发生,Stack Overflow 是一个软件开发者用来互相帮助编写代码的流行的 “问答” 网站。当对生成式人工智能编写代码的能力的热情达到顶峰时,一些用户创建了机器人,自动将人们关于软件的问题传递给大语言模型。虽然大语言模型产生的许多答案质量很高,但其他答案完全错误。该网站很快宣布了一项新政策,禁止使用大语言模型,以防止用户难以区分好坏信息的情况。
依赖大语言模型进行文献综述、生成新研究问题或总结他们无法阅读的大型文本集的研究人员可能会面临类似的问题。期刊和资助机构可能会发现自己被大语言模型创建的低质量 “垃圾科学” 所淹没。计算机科学家已经开始创建数字 “水印” 来标记人工智能生成的内容。水印已经在创建图像的生成式人工智能模型中使用,但在大语言模型中实施起来有些困难。一个建议是为大语言模型创建一个 “口音”,给它们一个尽可能使用的单词列表,以便人们能够追溯识别不是由人类生成的内容。但即使这个建议也很难大规模实施。每个开发大语言模型的实体不仅必须同意使用水印,还需要相互协调。大型公司可能会通过政府监管被鼓励这样做。但是这种协调无法检测到由有足够技能自行开发较小模型的个人创建的大语言模型。
3.使用生成式人工智能进行研究是否符合伦理?
对于社会科学家来说,最紧迫的问题之一是使用生成式人工智能进行研究是否符合伦理。这个问题尤为重要,因为许多生成式人工智能工具表现出的偏见不仅令人反感(如种族主义或厌女症),还可能产生幻觉并分享不准确的信息,这些信息可能会被研究参与者在社交媒体平台或其他地方传播。虽然对于以仔细监督的方式使用生成式人工智能的社会科学家来说,这些问题可能不太重要(例如,使用 DALL - E 生成可能用于调查实验的人的图片),但在人类研究参与者可能在无监督的情况下与大语言模型进行对话的情况下,这些问题就变得更加重要了。另一方面,需要人类相互交互的研究也有可能使研究参与者接触到冒犯性语言、错误信息或滥用。事实上,有人可能会认为,与在交互环境中谨慎提示的生成式人工智能相比,在真实人类群体中发生这种行为的风险可能更大。
另一个重要问题是,研究人员在让研究参与者接触生成式人工智能之前是否必须始终获得知情同意。对于任何研究,如果受访者可能接触到由大语言模型生成的错误信息或辱骂性语言,这种做法似乎至关重要。然而,在研究中披露生成式人工智能的作用也会降低其模拟人类行为的科学效用。这是因为在研究背景下披露生成式人工智能的存在会使研究人员难以确定研究参与者的态度和行为是由他们与合成代理的交互经验塑造的,还是由他们对人工智能的更广泛态度塑造的。
解决这个问题的一种方法可能是设计研究,在研究中告知研究参与者他们可能会在研究中与人工智能进行交互,但在交互环境中使用人类和人工智能代理的混合。即使是这种策略,也存在人工智能代理可能在人类参与者之间引发冲突的风险。其中一些风险可以通过目前一些大语言模型可用的内容 moderation 过滤器以及对用于指导研究环境中的大语言模型的提示进行严格测试来减轻。然而,鉴于这些模型的概率性质以及在线环境中滥用和骚扰可能发生的不断变化的方式,这些策略需要非常谨慎。
另一种策略是设计研究,使生成式人工智能在人类参与者之间充当调解人。例如,Argyle等人招募了一大批对枪支管制有相反观点的美国人参加在线论坛上的对等聊天。在实验条件下,每对中的一个人会看到由 GPT - 3 对他们即将发送给合作伙伴的消息进行的重新表述。这些重新表述采用了来自社会科学的基于证据的见解,关于如何使关于有争议问题的对话不那么两极分化(如积极倾听)。研究人员发现,这种干预使关于枪支管制的对话对那些合作伙伴使用 GPT - 3 建议的人来说更有成效且压力更小。这种干预不需要欺骗,因为不需要模仿人类来评估研究问题。此外,研究人员没有强迫人类参与者接受 GPT - 3 提出的重新表述;相反,他们可以从几个中进行选择、编辑他们的原始消息或拒绝所有这些。
最后一种策略可能是使用生成式人工智能来尝试诊断可能的伦理问题。前面提到研究人员证明 GPT - 3 可以表现出臭名昭著的Milgram实验参与者的反应。在这项研究中,研究参与者被要求对另一个他们看不到的参与者施加致命电击。Milgram表明,许多受访者出于对权威的尊重愿意这样做,但这项研究因在参与者中造成创伤而受到广泛批评。如果今天尝试进行一项关于一个尚未被广泛视为不道德的问题的类似实验,GPT - 3 可以在使用人类参与者启动研究之前用于模拟结果吗?如果是这样,这样的模拟可以帮助研究人员事先评估伦理问题的可能性吗?因为大语言模型是使用回顾性数据进行训练的,它们在预测即将出现的伦理问题方面可能效用有限,但它们仍然可以帮助研究人员从彼此的错误中学习。同样,这些工具可能对检测剽窃或数据造假也有用。
虽然生成式人工智能可能帮助我们解决一些伦理问题,如使用模拟来研究危险的社会干预,但它也引发了关于隐私和保密的新担忧。如果研究人员使用 GPT - 4 对一系列关于敏感话题(如亲密伴侣暴力)的深度访谈进行编码,这些访谈的全文可能会被记录在不受与大学研究人员相同的保护人类受试者标准约束的私人公司内部。更糟糕的是,这些数据可能会被出售给其他公司。
最后一个伦理问题是生成式人工智能对气候变化的影响。2019 年的一项研究表明,训练一个单一的大语言模型可能会产生与五辆汽车一生排放量相当的二氧化碳。由于自 2019 年以来生成式人工智能模型的规模大幅增长,社会科学家必须仔细考虑开发此类技术可能带来的更大环境成本,即使最近的工程进步使训练过程更加高效。然而,也必须权衡训练模型的成本与它们所创造的效率。例如,一项研究表明,人工智能在写作和绘图方面的碳排放量比人类低。
4.使用生成式人工智能进行研究是否可复制?
开放科学运动的一个关键支柱是研究人员应该设计能够被他人复制的研究。虽然生成式人工智能可能帮助研究人员提高其研究设计的外部有效性,但这可能以牺牲内部有效性为代价,即不同组研究人员重现或复制彼此结果的能力。正如本文开头所提到的,上面讨论的许多研究都是预印本,尚未经过同行评审,更不用说复制了。因此,确定这些研究中有多少在几年后能够被复制应该是任何评估生成式人工智能对社会科学潜力的人关注的核心问题。
使用生成式人工智能进行研究难以复制有几个原因。首先,这些模型本质上是概率性的。即使是一个研究人员连续使用相同的提示,也应该预期大语言模型会产生不同的响应。大语言模型产生异质结果的趋势可以通过 “温度” 参数部分控制,该参数调节模型输出的可预测性。目前,对于这个参数的什么值是合适的并没有标准。较低的值可能会产生更可靠的结果,但在实地实验中使用大语言模型与人类交互的研究人员可能不希望它们变得过于重复。研究表明,提示措辞的细微差异也会在同一大语言模型中产生非常不同的输出。幸运的是,研究人员正在通过自动处理来识别提示变化的敏感性方面取得进展,这些自动处理会干扰文本或改变提供的上下文量。但据我所知,在社会科学或任何其他领域,尚未确定此类敏感性分析的最佳实践。
大多数大语言模型也会随时间产生不同的结果。这是因为它们中的许多都在不断进行微调,以使它们更有效或创建新的防范偏见或非法行为的保障措施。这可能会在大语言模型中产生 “漂移”,即提高模型在一个领域的性能可能会改变它们在另一个领域产生的输出。最后,社会科学家必须考虑更广泛形式的时间有效性。随着大语言模型以不同方式响应于用户行为以及世界上正在发生的事件而演变,这将为那些努力使用生成式人工智能进行可复制研究的人带来另一个重大挑战。
除了评估同一模型内结果的可复制性之外,社会科学家还应该考虑跨多个模型结果的稳定性。已经有一些证据表明不同的模型会产生截然不同的结果。例如,Ziems等人报告了 ChatGPT 和谷歌的 FLAN 模型在跨一系列社会科学领域重现专家对定性文档编码的能力方面存在显著差异。同样,Santurkar等人报告了不同大语言模型在准确代表不同调查中的人口群体方面存在显著差异。由于训练和微调大型专有模型的过程非常不透明,因此很难解释这种跨模型差异的来源。至少,学者们应该清楚地报告他们使用的大语言模型的版本以及他们进行分析的具体时间。
如上文所述,生成式人工智能在社会科学研究中存在许多局限性,而我们才刚刚开始了解其中的大部分。社会科学家如何共同努力,在不牺牲其带来的诸多机会的前提下,最大限度地降低使用生成式人工智能进行研究的风险呢?实现这一目标需要更深入地了解生成式人工智能工具是如何构建和微调的。然而,关于 GPT - 4 和其他领先的专有模型的此类信息仍然是严密保守的行业机密。事实上,OpenAI 甚至没有披露关于 GPT - 4 的最基本信息,如它的大小或参数数量。
如果社会科学家依赖专有模型,我们也有可能将我们的努力与企业利益的起伏联系在一起。目前,Meta 和谷歌已经向公众提供了他们的两个模型:Llama 和 Gemma。这些模型有详细的文档记录,并与科学论文一起发布,这可以帮助社会科学家评估它们的潜力。Meta 甚至发布了关于模型内部工作原理的详细信息,如它用于响应提示的数字权重。这使研究人员能够更好地控制微调过程,并研究大语言模型是如何工作的。然而,Meta 最近停止提供关于用于训练 Llama 的数据集的信息,并且不像开源软件那样无限制地提供许可证。这可能预示着即将到来的挑战。不能保证 Meta 不会突然限制对其生成式人工智能工具的访问,或者像其同行一样开始向研究人员收取访问费用。虽然富裕机构的研究人员可能能够负担得起此类费用,但许多其他人可能无法承担,从而在学术等级制度中重现不平等。
对技术公司从慷慨的数据共享模式转变为高度限制模式的担忧是有先例的。社交媒体公司的例子就很有启发性。在 21 世纪初,许多公司与研究人员共享了大量数据。这促成了全新的学术研究形式,社会科学家和行业内的研究人员经常相互合作,并在会议上展示他们的工作。近年来,大多数大型社交媒体公司的数据共享做法已经停止。我帮助创建的推特学术开发者计划曾经允许社会科学家收集大量数据。现在,对于大多数研究人员来说,访问少得多的数据都变得极其昂贵。
一种替代方案是社会科学家开发自己的开源生成式人工智能模型。这样的努力可以基于 Hugging Face 编目的开源生成式人工智能工具的近期 proliferation。除了免费使用之外,大多数开源模型比其专有对应物提供了更多的透明度。这不仅使研究人员能够更好地理解用于训练和微调生成式人工智能的过程,还可以使他们完全控制这些过程。由 Mistral 创建的一些较新的模型甚至提供了 “原始” 的模型权重,即未经过微调的权重。社会科学家可以构建类似的模型,以更好地控制模型何时以及如何产生偏见,特别是在研究环境中,大公司内置到模型中的价值观可能会抑制研究。社会科学家还可以共同努力为生成式人工智能工具创建训练数据,这将使我们能够对其行为进行更深入的控制。开源模型也有隐私优势。研究人员使用的提示可以得到仔细保护,而不是被潜在地转售给第三方或用于开发未来的模型。
开源模型还经常创建和维持一个有共同关切的人群社区。社会科学家不必猜测专有模型何时以及如何表现出偏见,也不必无休止地测试不同的提示以实现研究目标,而是可以共同努力确定生成式人工智能工具在社会科学研究中的局限性。关于生成式人工智能的透明公开讨论也可以帮助研究人员评估上述一些其他风险,如错误信息的传播。社会科学家还可以设计开源生成式人工智能工具,通过运行旨在测试某些训练和微调过程是否使学者能够更容易地重现彼此工作的实验,最大限度地提高研究可复制的机会。
社会科学家考虑构建自己的基础设施的另一个原因是,开源生成式人工智能工具的质量和性能在最近几个月有了显著提高。虽然评估大语言模型性能的基准存在激烈的争论,但值得注意的是,Llama 3 和 R Command + 以及其他免费可用的模型在许多领域开始接近专有模型的性能。更重要的是,最近的两项分析表明,开源模型在上述一些社会科学应用中表现良好,如编码非结构化文本。一项研究表明,开源模型在注释新闻文章和推文方面比众包工人表现更好,尽管在这些任务上它们的表现略逊于 ChatGPT。另一项研究表明,开源模型 FLAN 在一些文本编码任务上比由人类专家创建的真实标签的专有模型表现更好。
另一方面,开源模型可能会带来一系列新的风险。许多人担心公开发布模型权重或训练大语言模型的过程会使恶意行为者能够构建定制的大语言模型,在社交媒体上传播错误信息、进行个性化的网络钓鱼活动、创建未经同意的色情内容或获取有关生物技术和武器的危险信息。然而,几组领先的学者和政策专家认为,与互联网上已经容易获得的信息相比,这些风险是微不足道的。
尽管如此,一套用于社会科学研究的开源工具需要由熟悉生成式人工智能风险和优势的不同学者群体进行仔细的领导。这个委员会可以负责确定模型和训练过程的哪些组件应该公开发布,以及是否应该限制对某些此类信息的访问以防止滥用。委员会还可以权衡构建大型模型的好处与目前训练和运行它们所需的电力相关的环境成本。这样的努力需要一个更广泛的组织来实施委员会的决定,因此需要大量的财政资源。它需要管理员和其他工作人员负责控制对模型的访问并创建学者使用它所需的基础设施(如 API 和云服务)。它还需要技术人员来开发和维护这些工具。如果能够实现这样一个组织,它不仅将改善广大学者获得最先进技术的机会,还将提高我们将开放科学和伦理的学科标准纳入生成式人工智能研究的能力。
这样一个组织还可以探索更广泛的公共利益,如创建一个大型的人类人口硅样本,研究人员可以用它来对人类受试者进行初步测试,或者一个用于将大语言模型集成到基于主体的模型中的开源代码库。
很少有技术像生成式人工智能一样既引起了如此多的兴奋,又引发了如此多的担忧。炒作周期动态表明,对这些工具的期望可能很快达到峰值,然后随着用户对其局限性更加熟悉而迅速下降。预计社会科学家将在识别这些陷阱方面继续发挥关键作用,因为他们在研究偏见和错误信息等主题方面有丰富的经验。但也希望社会科学家不会过于关注生成式人工智能的局限性,而忽视了对其潜力的充分评估。这些工具每创造一个新问题,也有可能解决许多其他问题。如果这些工具的能力以目前速度的一小部分继续扩展,生成式人工智能可能会比许多研究人员意识到的更快成为社会科学家工具包中的固定装置。
最重要的是,鼓励社会科学家不要将自己仅仅视为生成式人工智能的 “终端用户”。预测人工智能研究的未来将需要训练模型以更好地理解社会关系科学,例如,一个人工智能代理在群体环境中应该如何交互,其目标不仅仅是为单个用户提供效用,而是应对与涌现群体行为相关的更复杂挑战。如果这一预测正确,社会科学家可能很快会发现自己处于 “逆向工程” 社会学家William H. Sewell Jr.所说的 “社会感知” 的努力的中心。也就是说,生成式人工智能检测和应对指导如此多人类行为的理所当然的社会规范和期望的能力,尤其是那些很少被我们的笔(或键盘)捕捉到的能力。这将需要更深入地理解个体主体的行为是如何受到社会网络、机构、组织和其他个体外因素的约束的,这些因素是人类行为科学的基石。
疯狂暗示↓↓↓↓↓↓↓↓↓↓↓