系统总结人工智能!

文摘   2024-09-05 09:00   福建  

人工智能(AI),数字计算机或计算机控制的机器人执行通常与智能生物相关的任务的能力。该术语经常用于开发具有人类智力过程特征的系统,例如推理,发现意义,概括或从过去经验中学习的能力。自20世纪40年代发展以来,数字计算机已经被编程来执行非常复杂的任务,如发现数学定理的证明或下国际象棋,非常熟练。尽管计算机处理速度和内存容量不断进步,但在更广泛的领域或需要大量日常知识的任务中,还没有程序可以完全匹配人类的灵活性。另一方面,一些程序在执行某些特定任务时已经达到了人类专家和专业人员的性能水平,因此在这种有限意义上的人工智能可以在医疗诊断,计算机搜索引擎,语音或手写识别和聊天机器人等各种应用中找到。

什么是智能?

除了最简单的人类行为之外,所有的人类行为都被认为是智力的表现,而即使是最复杂的昆虫行为也通常不被认为是智力的表现。有什么区别?想想掘地蜂的行为,Sphex icheloneus。当雌蜂带着食物回到洞穴时,她首先把食物放在门槛上,检查洞穴内是否有入侵者,只有在没有人的情况下,才把食物带进去。如果黄蜂在洞穴里,食物被移到离洞口几英寸远的地方,黄蜂本能行为的真实的本质就显露出来了:当它出来时,食物被移走了,它就会重复整个过程。智能在黄蜂身上明显缺失必须包括适应新环境的能力。

(Read雷·库兹韦尔(Ray Kurzweil)的《大英百科全书》(Britannica)论文《非生物人类的未来》(The Future of“Nonbiological Man”)。

心理学家通常不只是用一个特征来描述人类的智力,而是用许多不同能力的组合来描述。人工智能的研究主要集中在智能的以下组成部分:学习,推理,解决问题感知和使用语言

学习

有许多不同形式的学习应用于人工智能。最简单的方法是通过尝试和错误来学习。例如,一个简单的计算机程序可以解决一个棋友问题,它可以随机地走几步棋,直到找到一个棋友为止,然后程序可以把解和位置一起存储起来,这样,下次计算机遇到同样的位置时,它就可以回忆起这个解。这种简单地记忆单个项目和程序的方法被称为死记硬背,在计算机上实现起来相对容易。更具挑战性的是实现所谓的泛化的问题。概括涉及将过去的经验应用于类似的新情况。例如,通过死记硬背来学习常规英语动词的过去式的程序将无法产生诸如jump之类的单词的过去式,除非该程序之前被呈现为jumped,而能够概括的程序可以学习以辅音结尾的常规动词的“add-艾德”规则,从而根据使用类似动词的经验形成jump的过去式。

(Read尤瓦尔·诺亚·赫拉利(Yuval Noah Harari)在《大英百科全书》上发表的关于“无意识人”的未来的文章。

推理

推理就是根据情况作出适当的推论。推理分为演绎推理和归纳推理。前者的一个例子是,“弗雷德必须在博物馆或咖啡馆。他不在咖啡馆里;因此,他在博物馆里,“而后者是,“以前的这种事故是由仪器故障引起的。这次事故也是同一类型,所以很可能是仪器故障造成的。”这两种推理形式之间最重要的区别是,在演绎的情况下,前提的真实性保证了结论的真实性,而在归纳的情况下,前提的真实性支持结论,但不提供绝对的保证。归纳推理在科学中很常见,收集数据并开发试验性模型来描述和预测未来的行为,直到异常数据的出现迫使模型被修改。演绎推理在数学和逻辑中很常见,其中不可反驳的定理的复杂结构是从一小部分基本公理和规则中建立起来的。

在计算机编程以进行推理方面已经取得了相当大的成功。然而,真正的推理不仅仅涉及推论:它涉及与特定问题的解决方案相关的推论。这是AI面临的最大难题之一。

解决问题

问题解决,特别是在人工智能中,可以被描述为通过一系列可能的行动进行系统搜索,以达到一些预定义的目标或解决方案。解决问题的方法分为专用和通用。特殊目的的方法是为特定问题量身定制的,通常利用问题所嵌入的情况的非常具体的特征。相比之下,通用方法适用于各种各样的问题。人工智能中使用的一种通用技术是手段-目的分析--逐步或增量地减少当前状态和最终目标之间的差异。程序从一系列方法中选择动作--对于简单的机器人来说,这可能包括PICKUP、PUTDOWN、MOVEFORWARD、MOVEBACK、MOVELEFT和MOVERIGHT--直到达到目标。

人工智能程序已经解决了许多不同的问题。一些例子是在棋盘游戏中找到获胜的移动(或移动序列),设计数学证明,以及在计算机生成的世界中操纵“虚拟对象”。

感知

在感知中,环境通过各种感觉器官(真实的或人造的)进行扫描,并且场景被分解为具有各种空间关系的单独对象。分析是复杂的,因为一个物体可能会出现不同的取决于它被观察的角度,在场景中的照明的方向和强度,以及有多少对象与周围的领域形成对比。目前,人工感知已经足够先进,使光学传感器能够识别个人,并使自动驾驶汽车能够在开放的道路上以中等速度行驶。

语言

语言是一个符号系统,它具有约定俗成的意义。从这个意义上说,语言不必局限于口语。例如,交通标志形成了一种迷你语言,在一些国家,“”的意思是“前方危险”,这是一种惯例。语言的独特之处在于,语言单位按照惯例拥有意义,而语言意义与所谓的自然意义大不相同,例如“那些云意味着下雨”和“压力下降意味着阀门失灵”。

与鸟鸣和交通标志相比,成熟的人类语言的一个重要特征是它们的生产力。一种能产性语言可以表达出各种各样的句子。

像ChatGPT这样的大型语言模型可以用人类语言流利地回答问题和陈述。虽然这些模型实际上并不像人类那样理解语言,而只是选择比其他人更可能的单词,但它们已经达到了与正常人无法区分的程度。那么,如果连一台使用母语的计算机都不能理解,那么真正的理解又包括什么呢?对于这个难题,没有普遍同意的答案。

AI的方法和目标

符号与联结主义方法

人工智能研究遵循两种不同的,在某种程度上相互竞争的方法,符号(或“自上而下”)方法和连接主义(或“自下而上”)方法。自上而下的方法试图通过分析独立于大脑生物结构的认知来复制智力,即从符号的处理角度来分析符号标签。另一方面,自下而上的方法涉及模仿大脑结构创建人工神经网络,这就是连接主义者的标签。

为了说明这些方法之间的区别,考虑构建一个配备光学扫描仪的系统的任务,该系统可以识别字母表中的字母。自下而上的方法通常涉及通过一个接一个地向人工神经网络呈现字母来训练人工神经网络,通过“调整”网络来逐渐提高性能。(调谐调整不同神经通路对不同刺激的反应。相比之下,自上而下的方法通常需要编写一个计算机程序,将每个字母与几何描述进行比较。简单地说,神经活动是自下而上方法的基础,而符号描述是自上而下方法的基础。

纽约市哥伦比亚大学的心理学家爱德华·桑代克(Edward Thorndike)在《学习的基本原理》(The Fundamentals of Learning,1932)中首次提出,人类的学习是由大脑中神经元在《行为的组织》(The Organization of Behavior,1949)一书中,蒙特利尔麦吉尔大学的心理学家唐纳德·赫布(Donald Hebb)提出,学习特别涉及通过增加相关连接之间诱发神经元放电的概率(权重)来加强某些神经活动模式。

1957年,两位符号人工智能的积极倡导者--加州圣莫尼卡兰德公司的研究员艾伦纽韦尔和卡内基梅隆大学的心理学家和计算机科学家赫伯特西蒙,他们将自上而下的方法总结为物理符号系统假说。这一假说认为,处理符号的结构在原则上足以在数字计算机中产生人工智能,而且人类智能是同一类型的符号操作的结果。

在1950年代和1960年代,自上而下和自下而上的方法被同时采用,两者都取得了值得注意的成果,尽管有限。然而,在20世纪70年代,自下而上的人工智能被忽视了,直到20世纪80年代,这种方法才再次变得突出。如今,这两种方法都被采用,但都被认为面临困难。符号技术在简化的领域中有效,但在面对真实的世界时通常会崩溃;同时,自下而上的研究人员无法复制甚至最简单的生物的神经系统。秀丽隐杆线虫是一种被广泛研究的蠕虫,它有大约300个神经元,其相互连接的模式是完全已知的。然而,连接主义模型甚至连这种蠕虫都无法模仿。显然,联结主义理论中的神经元是对真实的事物的过度简化。

通用人工智能(AGI),应用AI和认知模拟

采用上述方法,人工智能研究试图实现三个目标之一:人工通用智能(AGI)、应用人工智能或认知模拟。AGI(也称为强人工智能)旨在构建能够思考的机器。AGI的最终目标是制造一台机器,其整体智能与人类无异。迄今为止,进展情况参差不齐。尽管大型语言模型取得了进展,但AGI是否可以从更强大的模型中出现,或者是否需要一种完全不同的方法,这是有争议的。事实上,在人工智能的其他两个分支工作的一些研究人员认为AGI不值得追求。

应用人工智能,也被称为高级信息处理,旨在生产商业上可行的“智能”系统-例如,“专家”医疗诊断系统和股票交易系统。应用人工智能已经取得了相当大的成功。

在认知模拟中,计算机被用来测试人类大脑如何工作的理论,例如,人们如何识别面孔或回忆记忆的理论。认知模拟已经是神经科学和认知心理学中的一个强大工具。

AI技术

在世纪早期,更快的处理能力和更大的数据集(“大数据“)将人工智能从计算机科学部门带到了更广阔的世界。摩尔定律,即计算能力大约每18个月翻一番的观察,继续保持正确。早期聊天机器人Eliza的股票响应在50 TB内非常合适;ChatGPT核心的语言模型是在45 TB的文本上训练的。

机器学习

2006年,随着“贪婪逐层预训练”技术的发明,神经网络承担附加层并解决更复杂问题的能力有所提高,该技术发现单独训练神经网络的每一层比训练整个网络从输入到输出更容易。神经网络训练的这种改进导致了一种称为“深度学习”的机器学习,其中神经网络有四层或更多层,包括初始输入和最终输出。此外,这种网络能够在无监督的情况下学习,也就是说,在没有初始提示的情况下发现数据中的特征。

深度学习的成就之一是图像分类的进步,其中称为卷积神经网络(CNN)的专用神经网络在许多不同类型对象的一组图像中发现的特征上进行训练。然后,CNN能够获取输入图像,将其与其训练集中的图像特征进行比较,并将图像分类为例如猫或苹果。其中一个这样的网络,由Kaiming He和微软研究院的合作者组成的PReLU-net,对图像的分类甚至比人类更好。

加里·卡斯帕罗夫和深蓝

国际象棋世界冠军加里·卡斯帕罗夫与IBM公司生产的国际象棋计算机“深蓝”对弈。1996年,卡斯帕罗夫以4 - 2赢得了第一场比赛,但在1997年,他输给了深蓝3 ½-2 ½。(更多信息)

深蓝击败国际象棋世界冠军加里·卡斯帕罗夫的成就被DeepMind的AlphaGo超越,后者掌握了围棋,这是一种比国际象棋复杂得多的游戏。AlphaGo的神经网络从人类玩家那里学会了下围棋,并通过玩自己来学习。它在2016年以4-1击败了顶级围棋选手李世石。AlphaGo被AlphaGo Zero超越,后者从围棋规则出发,最终以100比0击败AlphaGo。更通用的神经网络Alpha Zero能够使用相同的技术快速掌握国际象棋和将棋。

机器学习在游戏和图像分类之外的许多领域都有应用。制药公司辉瑞(Pfizer)利用这项技术快速搜索了数百万种可能的化合物,开发了新型冠状病毒治疗药物Paxlovid。Google使用机器学习来过滤Gmail用户收件箱中的垃圾邮件。银行和信用卡公司使用历史数据来训练模型,以检测欺诈交易。

TikTok账户以Keanu Reeves的Deepfake为特色

“不真实的基努里维斯”TikTok账号发布的帖子包括关系幽默和舞蹈。(更多信息)

Deepfakes是使用两种不同的深度学习算法生成的AI生成的媒体:一种是创建真实的图像或视频的最佳复制品,另一种是检测复制品是否是假的,如果是,则报告它与原始图像之间的差异。第一个算法产生一个合成图像,并从第二个算法接收反馈;然后调整它,使其看起来更真实的。重复该过程,直到第二算法没有检测到任何虚假图像。Deepfake媒体描绘了现实中不存在的图像或从未发生过的事件。广泛流传的deepfakes包括教皇弗朗西斯穿着河豚夹克的图像,美国前总统唐纳德特朗普与警察扭打的图像,以及Facebook首席执行官马克扎克伯格发表关于他公司邪恶力量的演讲的视频。这样的事情在真实的生活中是不会发生的。

大型语言模型和自然语言处理

自然语言处理(NLP)涉及分析计算机如何处理和解析语言,类似于人类的方式。为此,NLP模型必须使用计算语言学、统计学、机器学习和深度学习模型。早期的NLP模型是手工编码且基于规则的,但没有考虑语言中的异常和细微差别。统计NLP是下一步,使用概率将某些含义的可能性分配给文本的不同部分。现代NLP系统使用深度学习模型和技术来帮助它们在处理信息时“学习”。

与ChatGPT对话

大英百科全书编辑Erik Gregersen创建的ChatGPT对话屏幕截图。对话提示是写一篇250字的关于ChatGPT的百科全书文章。(更多信息)

现代NLP的突出例子是语言模型,它使用人工智能和统计数据来预测基于现有部分的句子的最终形式。在大型语言模型(LLM)中,“大型”一词指的是模型用来影响预测结果的参数或变量和权重。虽然没有定义需要多少参数,但LLM训练数据集的大小从1.1亿个参数(Google的BERT基础模型)到3400亿个参数(Google的PaLM 2模型)不等。还指用于训练LLM的数据量,其大小可以是数PB,包含数万亿个令牌,这些令牌是模型处理的文本或代码的基本单位,通常只有几个字符长。

一个流行的语言模型是GPT-3,由OpenAI于2020年6月发布。第一个LLMs,GPT-3可以解决高中水平的数学问题,以及创建计算机程序。GPT-3是ChatGPT软件的基础,于2022年11月发布。ChatGPT几乎立即引起了学者、记者和其他人的不安,因为他们担心无法区分人类写作和ChatGPT生成的写作。

一系列的LLMs和基于它们的聊天机器人紧随ChatGPT之后。微软在2023年将聊天机器人Copilot添加到其Windows11操作系统,Bing搜索引擎和Edge浏览器中。同年,谷歌发布了聊天机器人Bard(后来的Gemini),并在2024年宣布,主题的“AI概述”将出现在搜索结果的顶部。

LLMs的一个问题是“幻觉”:模型不是向用户传达它不知道的东西,而是根据用户的提示用可能但不准确的文本进行响应。这个问题可能部分归因于使用LLMs作为搜索引擎,而不是作为文本生成器的预期角色。对抗幻觉的一种方法被称为提示工程,工程师设计提示,旨在从模型中提取最佳输出。例如,一种这样的提示风格是思维链,其中初始提示包含一个示例问题和一个仔细制定的答案,以显示LLM如何继续。

使用NLP的机器的其他例子是语音操作的GPS系统,客户服务聊天机器人和语言翻译程序。此外,企业使用NLP通过自动完成搜索查询和监控社交媒体来增强对消费者的理解和服务。

OpenAI的DALL-E、StableDiffusion和Midjourney等程序使用NLP基于文本提示创建图像,这些文本提示可以简单到“一个红色块在一个绿色块上”,也可以复杂到“一个带有豪猪纹理的立方体”。这些程序在具有数百万或数十亿文本图像对的大型数据集上进行训练,即具有文本描述的图像。

NLP存在某些问题,特别是机器学习算法等经常表达它们所训练的内容中隐含的偏见。例如,当被要求描述一名医生时,语言模型可能更有可能回答“他是一名医生”而不是“她是一名医生”,这表明了固有的性别偏见。NLP中的偏见可能会产生现实世界的后果。例如,在2015年,亚马逊的NLP项目用于简历筛选,以帮助选择求职者被发现歧视女性,因为女性在从员工那里收集的原始培训集中代表性不足。

自动驾驶汽车

机器学习和人工智能是自动驾驶汽车系统的基本要素。车辆在复杂数据上进行训练(例如,其他车辆的运动,路标)与机器学习,这有助于改善他们的操作算法。人工智能使车辆系统能够在不需要针对每种潜在情况的具体指令的情况下做出决策。

为了使自动驾驶汽车安全有效,人们创建了人工模拟来测试它们的能力。为了创建这样的模拟,使用黑盒测试,而不是白盒验证。在白盒测试中,测试人员知道被测系统的内部结构,可以证明没有故障。黑盒方法要复杂得多,涉及采取更具对抗性的方法。在这种方法中,测试人员不知道系统的内部设计,而是以外部设计和结构为目标。这些方法试图找到系统中的弱点,以确保它符合高安全标准。

到2024年,消费者将无法购买全自动驾驶汽车。事实证明,某些障碍难以克服。例如,在美国,自动驾驶汽车需要近400万英里的公共道路地图才能有效运行,这对制造商来说是一项艰巨的任务。此外,最受欢迎的具有“自动驾驶”功能的汽车,即特斯拉的汽车,已经引起了安全问题,因为这些车辆甚至会驶向迎面而来的交通和金属柱。人工智能还没有发展到汽车可以与其他驾驶员或骑自行车者或行人进行复杂互动的地步。这样的“常识”对于预防事故和创造安全环境是必要的。

2015年10月,谷歌的自动驾驶汽车Waymo(该公司自2009年以来一直在开发)完成了第一次完全无人驾驶的旅行。这项技术已经在模拟道路上测试了10亿英里,在真实的道路上测试了200万英里。Waymo拥有一支全电动汽车车队,在旧金山弗朗西斯科和凤凰城运营,用户可以打电话叫车,就像Uber或Lyft一样。方向盘、油门踏板和刹车踏板在没有人类指导的情况下操作,这使该技术与特斯拉的自动驾驶功能区分开来。尽管该技术的估值在2019年11月达到1750亿美元的峰值,但到2020年已降至300亿美元。美国国家公路交通安全管理局(NHTSA)正在对Waymo进行调查,此前该公司收到了20多份不同的交通违规报告。在某些情况下,车辆行驶在道路的错误一侧,有一次撞上了一名骑自行车的人。

虚拟助手

虚拟助理(VA)提供各种功能,包括帮助用户安排任务,拨打和接听电话以及在路上引导用户。这些设备需要大量的数据,并从用户输入中学习,以更有效地预测用户需求和行为。市场上最受欢迎的VA是亚马逊Alexa、谷歌助手和苹果的Siri。虚拟助手与聊天机器人和会话代理的不同之处在于,它们更加个性化,能够适应单个用户的行为,并从中学习,随着时间的推移而改进。

人机交流始于20世纪60年代的伊丽莎。PARRY是由精神病学家肯尼斯·科尔比(Kenneth Colby)设计的,在20世纪70年代早期问世,旨在模仿与偏执型精神分裂症患者的对话。Simon由IBM于1994年设计,是第一批在技术上可以被称为“智能手机”的设备之一,并作为个人数字助理(PDA)销售。西蒙是第一个具有触摸屏的设备,它也有电子邮件和传真功能。虽然西蒙在技术上不是一个VA,它的发展是必不可少的,在创造未来的助理。2010年2月,第一个现代虚拟助手Siri在iPhone 4S上推出,用于苹果的移动的操作系统iOS。Siri是第一个可以下载到智能手机上的VA。

语音助手通过使用自动语音识别(ASR)系统将人类语音分解为称为音素的不同声音来解析人类语音。在分解语音后,VA分析并“记住”语音的音调和其他方面,以识别用户。随着时间的推移,虚拟助手通过机器学习变得越来越复杂,因为他们可以访问数百万个单词和短语。此外,他们经常使用互联网来寻找用户问题的答案-例如,当用户询问天气预报时。

风险

人工智能在伦理和社会经济后果方面带来了一定的风险。随着越来越多的工作变得自动化,特别是在营销和医疗保健等行业,许多工人将失去工作。尽管人工智能可能会创造一些新的工作岗位,但这些工作岗位可能需要比人工智能取代的工作岗位更多的技术技能。

此外,人工智能存在某些偏见,如果没有适当的培训,很难克服。例如,美国警察部门已经开始使用预测警务算法来指示犯罪最有可能发生的地方。然而,这种制度的部分依据是逮捕率,而黑人社区的逮捕率已经高得不成比例。这可能导致在这些领域的过度监管,这进一步影响了这些算法。由于人类天生就有偏见,算法必然会反映人类的偏见。

隐私是人工智能的另一个方面,也是专家关注的问题。由于人工智能通常涉及收集和处理大量数据,因此存在这些数据被错误的人或组织访问的风险。通过生成式AI,甚至可以操纵图像并创建虚假的个人资料。

到2024年,几乎没有法律规范人工智能。现有的法律,如欧盟的《通用数据保护条例》(GDPR)和《加州消费者隐私法》(CCPA),确实对人工智能模型进行了管理,但仅限于它们使用个人信息。影响最广泛的法规是欧盟于2024年3月通过的《人工智能法案》。根据AI法案,对公民行为和特征进行社会评分以及试图操纵用户行为的模型被禁止。处理执法和基础设施等“高风险”主题的人工智能模型必须在欧盟数据库中注册。


AI科技前沿
关注最重要的科技前沿!
 最新文章