《生成式人工智能下的世界》由Sinan Ülgen撰写,发表于2025年1月,探讨了生成式人工智能(GenAI)和大型语言模型(LLMs)在信息时代的影响。文章分析了信息时代的演变、GenAI和LLMs的技术进步及其带来的社会和政策挑战,特别是这些技术在国际关系领域的潜在偏见和影响。作者强调了政策制定者需要关注的几个关键领域,包括提高GenAI训练的透明度、开展LLM数字素养项目以及理解GenAI工具内在偏见的方法。
主要观点
信息时代的演变
互联网的革命性影响:互联网彻底重塑了人类的社会文化存在,使知识更加易于获取,并改变了消费者和生产者的角色。
新闻行业的转型:互联网促进了新闻行业的扩展,传统新闻来源不得不调整讲故事的方式以适应新一代媒体消费者的需求。
社交媒体和搜索引擎的作用:Facebook、Twitter等社交媒体平台以及Google等搜索引擎成为信息获取的重要渠道,传统新闻来源被边缘化。
GenAI和大型语言模型的时代
LLMs的定义和功能:LLMs是具有自然语言理解和处理能力的革命性AI系统,能够协助用户完成多种任务,如文本生成、研究、总结、内容创作、翻译、预测和灵感激发。
LLMs的影响:除了经济和技术效益外,LLMs还对人类经验产生了重要影响,但同时也带来了未被充分理解的重大风险,如虚假或伪造信息以及各种社会偏见。
AI的伦理问题:GenAI聊天机器人ChatGPT揭示了其训练数据可能影响其偏见,算法的训练数据集可能导致语言表达中的偏见。
GenAI偏见的概述
COMPAS程序案例:美国法院系统使用的COMPAS软件因预测黑人被告再犯风险较高而引发争议,显示了算法偏见的严重后果。
其他领域的偏见:LLMs在医疗数据库、招聘技术和定向广告中也存在歧视性预测和分析。
文化偏见:不同语言的数据不平衡导致多语言模型的表现差异,语言偏见具有明确的社会和文化含义。
地理偏见:基于地理位置的偏见可能导致对特定群体的刻板印象和误解。
其他社会偏见:LLMs还存在种族、性别、残疾、年龄和阶级等方面的偏见,可能导致社会排斥和不平等。
GenAI偏见与国际关系
国际关系中的文化偏见:文化偏见在国际关系领域尤为重要,LLMs的使用可能传播意识形态和偏见。
LLMs在国际关系中的作用:随着信息获取方式从电视和广播转向由搜索引擎赋能的数字媒体,人类的世界观越来越受到与LLMs互动的影响。
通过国际关系视角研究GenAI偏见
测试的LLMs:选择了五种不同的LLMs进行测试,包括ChatGPT-4o、Llama 3 70B-Instruct、Mistral 7B Instruct、Qwen和Doubao,以提供多样化的样本。
测试方法:编制了一组十个提示语,旨在探究LLMs的世界观和内在偏见,涵盖了国际关系中的重大里程碑和主题。
测试结果:
ChatGPT:提供了最平衡的答案,结论大多符合自由主义世界观。
Qwen(英文版):表现出类似的倾向,但在中文版中答案更符合北京的世界观。
Llama:更具意见性,倾向于某种观点。
Mistral和Doubao:表现出不同程度的偏见和不准确性。
总结
文章核心观点在于,虽然生成式人工智能和大型语言模型在信息获取和内容创作方面具有巨大潜力,但它们的输出可能存在误导性和偏见,这对国际关系等领域构成了重大挑战。作者呼吁政策制定者采取行动,提高GenAI训练的透明度,提升公众对LLM的认识,并深入理解这些工具的内在偏见。通过国际关系的视角研究GenAI偏见,可以帮助我们更好地认识这些技术的影响,并制定相应的对策。
《生成式人工智能的快速应用》由亚历山大·比克、亚当·布兰丁和大卫·J·德明撰写,发表于圣路易斯联邦储备银行的工作论文系列。研究主题是生成式人工智能(Generative AI)在美国的快速采用情况。作者通过一系列全国代表性的美国调查,分析了生成式AI在工作场所和家庭中的使用情况。研究发现,截至2024年底,近40%的美国18至64岁人口使用生成式AI,其中23%的在职受访者在过去一周内至少一次将生成式AI用于工作,9%每天都在使用。与个人计算机(PC)和互联网相比,生成式AI的工作采用速度相当快,总体采用速度更快。此外,生成式AI和PC在早期采用模式上非常相似,包括教育、职业和其他特征。
主要观点
生成式AI的广泛采用
使用率高:2024年8月和11月的调查显示,26%的在职受访者报告在工作中使用生成式AI,其中9%每天使用,14%不定期使用,3%未在上周使用。三分之一的受访者在家也使用生成式AI,27%在过去一周内至少使用过一次。总体而言,39%的受访者表示他们要么在工作中要么在家使用生成式AI。
常用产品:最常用的产品是ChatGPT(占所有受访者的28%)、Gemini(17%)和嵌入式产品如Microsoft Copilot(14%)。
与早期技术的比较
与PC和互联网的比较:1984年,25%的工人报告使用计算机完成工作,而2024年这一比例为27%,表明生成式AI的工作采用速度至少与计算机相当。然而,生成式AI的家庭采用速度比计算机和互联网更快,这可能是因为成本较低且用户友好性更高。
早期采用模式:生成式AI的早期采用模式与计算机非常相似,年轻、受教育程度高和高工资的工人采用速度更快。职业和行业分布也显示出类似的趋势,尽管计算机采用在某些职业中更为集中,而生成式AI的采用则更为分散。
采用的异质性
人口统计学差异:生成式AI的采用在不同的人口统计学和劳动力市场特征之间存在显著差异,这些差异与早期计算机采用的模式相匹配。例如,年轻、受教育程度高和高工资的工人采用速度更快。
性别差异:早期生成式AI的使用率男性高于女性,而早期计算机使用率女性高于男性,反映了计算机在秘书和其他行政职业中的快速采用,这些职业的女性比例较高。
任务暴露预测的效度
预测模型的有效性:Eloundou等人(2024)根据职业任务被生成式AI影响的程度分配预测暴露分数,该预测暴露分数与实际采用高度相关,支持了这些估计对研究人员的实用性。
广泛采用:几乎所有职业群体都有一定程度的生成式AI采用,这与Eloundou等人的广度一致。同时,某些职业的采用率相对预测暴露较高(尤其是管理人员),而某些职业的采用率相对预测暴露较低(尤其是办公室和支持职业)。
使用的强度
使用频率:在使用生成式AI的工作者中,34%每周工作日每天都使用,52%部分时间使用,14%未使用。
使用时长:在使用生成式AI的日子里,32%的工作者每天使用超过一小时,47%使用15-59分钟,21%使用不到15分钟。使用天数越多,平均使用时间越长。
工作小时数:结合使用天数和小时数,估计美国总工作时间中有1-5%涉及直接使用生成式AI。
对生产力的影响
时间节省:我们询问用户如果没有生成式AI的帮助,他们在过去一周内完成相同工作量需要额外多少小时。我们估计所有生成式AI工作用户的平均时间节省为5.4%,这意味着所有工人的平均时间节省为1.4%(包括非用户)。
潜在的生产力增长:使用标准的生产模型,我们估计当前水平的工人生成式AI使用可能导致潜在的总体生产力增长1.1%。这与Acemoglu(2024)的估计值相似,他使用任务暴露的估计值而非实际采用数据,估计潜在的生产力增长为0.7%。
数据来源和测量
实时人口调查(RPS):主要数据来源是实时人口调查(RPS),这是一个针对美国18-64岁成年人的国家劳动市场在线调查,自2020年起每年收集多个调查波次。
样本权重和验证:为了处理剩余的差异,我们使用Deming和Stephan(1940)的raking算法构建样本权重,确保加权样本比例与抽样程序中目标的人口统计特征对齐。我们按分解的家庭收入、年龄、性别、种族/民族、婚姻状况、孩子数量和地区进行加权。
总结
本文通过全国代表性的美国调查,详细分析了生成式人工智能(Generative AI)在美国的快速采用情况。研究发现,生成式AI的采用速度与个人计算机(PC)相当,甚至在某些方面超过了互联网,尤其是在家庭使用方面。生成式AI的早期采用模式与PC非常相似,特别是在教育、职业和收入等方面。此外,生成式AI的采用在不同人口统计学和劳动力市场特征之间存在显著差异,但与早期计算机采用的模式相匹配。研究还发现,生成式AI的使用强度因人而异,且能够显著节省时间,从而带来潜在的生产力增长。总体而言,生成式AI的快速采用及其对生产力的积极影响表明,这项技术有可能对经济产生重要影响。