AI初学者必看:第 8 篇 - 生成式人工智能的挑战和局限性
文摘
科技
2024-07-31 07:30
中国香港
介绍
“人工智能(AI)”一词于 1956 年问世,如今已为大家所熟知。然而,在 ChatGPT 迅速流行之前,AI 的使用和讨论大多局限于科学研究或虚构电影。如今,AI 尤其是生成式 AI 已成为大家热议的话题。初学者生成式人工智能科普系列内容面向希望踏上人工智能之旅的任何人。目前,无论您的角色和工作内容如何,无论您是技术人员还是产品专家,或者担任其他任何角色,学习了解生成式人工智能的基础知识绝对是一个明智之举。在本系列文章中,我们将一步步分享生成式人工智能的基础知识。为了便于理解,将整个系列分为8篇内容(阅读时间6分钟):第 1 篇--人工智能简介(点击查看)
第 2 篇--理解机器学习(点击查看)
第 3 篇--深度学习基础(点击查看)
第 4 篇--生成式人工智能简介(点击查看)
第 5 篇--什么是大型语言模型 (LLM)?(点击查看)
第 6 篇--与人工智能沟通的艺术(点击查看)
第 7 篇--生成式人工智能中的伦理考量(点击查看)
第 8 篇--生成式人工智能的挑战和局限性[当前内容]1-人工智能(AI)
- 通过一个简单的类比和例子,我们了解了什么是机器学习。
- 我们对监督学习、无监督学习和强化学习有了清晰的认识。
我们了解了深度学习是如何从人类大脑中受到启发的。
我们了解了人工神经网络的工作原理。
- 我们探讨了生成人工智能中的道德挑战以及如何应对这些挑战。
让我们开始讨论生成式人工智能中的挑战和局限性。
生成式人工智能的挑战与局限性
到目前为止,我们已经了解了生成式人工智能和相关技术(如 LLM、NLP 等)如何改变整个世界。从高层次来看,生成式人工智能似乎绝对是一个游戏规则改变者,它可以像我们人类一样生成任何文本、图像、视频、音频、音乐等,甚至可能取代我们人类今天从事的许多类型的工作。然而,在现实中,在生成式人工智能成为我们日常生活的一部分之前,仍然存在一些重大挑战和限制需要解决。人类的创造力令人惊叹。这不仅仅是创作一首新音乐、写一首诗或一幅新画作,更是开创一种新的艺术流派。例如,巴勃罗·毕加索通过将物体分解成几何形状并同时呈现多个视角,以他的新绘画风格震惊了世界。同样,被称为“嘻哈之父”的库尔·赫克通过混合不同的技巧,创新了一种新的音乐流派。生成式人工智能要达到人类真正的创造力水平还有很长的路要走。尽管生成式人工智能有能力产生新的想法、音乐、诗歌和故事,但它仍然遵循既定的规则和流派。它不能完全开创一种新的故事讲述技巧或开创一种新的音乐流派。让我们用一个例子来简化这一点。如果我们训练一个生成模型来解魔方,它可以生成不同的解魔方方法。但是,它可能不会提出将魔方拆成单个碎片然后再重新组装的想法。生成式 AI 的一个显著限制是训练生成式 AI 模型需要大量资源。生成式 AI 模型,尤其是大型模型,例如 OpenAI 的 GPT,需要大量硬件和能源消耗。让我们来分析一下:训练时间
生成式 AI 模型是在庞大的数据集上进行训练的,通常包含数百万甚至数十亿个示例。训练过程可能需要数周甚至数月,具体取决于模型的复杂性和可用的计算资源。训练和运行生成式 AI 模型需要大量计算资源。其中包括高性能 CPU 或 GPU、内存和其他硬件组件。这些资源的获取和维护成本通常很高。这也是只有能够负担得起巨额成本和其他资源的大型组织才能构建生成式 AI 模型的原因之一。训练生成式人工智能模型会消耗大量能源。这也引发了环境问题,尤其是碳排放。这可能是我们在生成 AI 方面面临的最关键挑战。由于缺乏监管,生成 AI 可能会以多种方式被滥用。版权和数据盗窃问题、抄袭、有害内容传播、深度伪造、身份盗窃是我们面临的一些主要道德问题。在我们之前的内容《生成 AI中的道德考量》中,我们已经详细介绍了这一点。训练数据在生成式 AI 中起着至关重要的作用。任何生成模型都高度依赖于训练数据的质量和数量。训练数据面临多项挑战,例如:训练数据的质量直接影响生成式 AI 模型的性能。如果训练数据嘈杂、不完整、有偏差或质量较差,则可能导致 AI 模型生成不准确或不理想的输出。生成式 AI 模型需要大量不同的训练数据才能有效学习并很好地推广到新场景。然而,获取和管理大型数据集可能具有挑战性且耗费资源,尤其是对于小众或专业领域而言。训练数据可能包含现实世界数据中存在的偏见。如果不妥善处理,这些偏见可能会被生成式人工智能模型延续和放大,导致生成内容产生不公平或歧视性的结果。访问和利用大型数据集来训练生成式 AI 模型可能会引发对数据隐私和安全的担忧。确保遵守数据保护法规并保护敏感信息对于防止未经授权访问或滥用数据至关重要。生成式人工智能模型的架构通常非常复杂,包含数百万甚至数十亿个参数。举几个例子,OpenAI 的 GPT-4 有超过 1 万亿个参数。即使是 GPT-3 也有大约 1750 亿个参数。谷歌的 BERT 有 1.1 亿个参数。处理这种技术复杂性需要高度的机器学习算法专业知识和编程技能。生成式人工智能生成的内容可能包含不准确的结果。在这些生成内容直接影响人类生活的行业中,例如医疗保健、法律服务,实施适当的质量控制和人工审核非常重要。例如,如果医疗保健领域的生成式 AI 工具根据患者的医疗数据生成了错误的报告,则不应向患者提供推荐的治疗方法。我们仍然需要合格的医生来审查生成的报告并提供确认。这是本系列最后一篇内容,希望您对生成式人工智能及其所有相关概念已经有了一个清晰的理解。关注我们,了解更多精彩内容!