人工智能AI:过去、现在和未来

文摘   2024-09-07 11:00   福建  

人类擅长分析,但机器更擅长,可日夜不息分析数据,发现多种模式。这称为“分析人工智能(Analytical AI)”或“传统人工智能(Traditional AI)”。然而,人类还擅长创造,如写诗、设计产品等。直到2022年,机器才开始在创造领域尝试超越人类,这被称为“生成式人工智能(GenAI)”。它创造新事物,而非分析旧物,且可能更快、更便宜,甚至在某些情况下优于人类。各创作行业都将被重塑,可能完全由GenAI取代,或激发新灵感。

在AI时代周期中,理解其底层逻辑,如知识底座很重要。TCP/IP、HTML是旧时代底座,而GenAI时代,Transformer可能是新底座。

什么是生成式人工智能(GenAI)

1 Transformer 概述


欢迎踏入Transformer的崭新纪元。在过去的五年间,人工智能(AI)领域见证了诸多振奋人心的重大变革,其中诸多里程碑式的进展均源自一篇题为“Attention is All You Need”的开创性论文。该论文于2017年发表,首次引入了名为“Transformer”的新型架构,其架构图示可见于以下链接:https://arxiv.org/pdf/1706.03762.pdf?trk=cndc-detail。

简而言之,Transformer模型在机器学习领域内实现了两大关键性贡献:其一,它显著提升了AI中并行计算的效率;其二,它引入了“注意力(Attention)”机制,这一创新使得AI能够深入理解单词间的复杂关联。当前广泛应用的生成式人工智能(GenAI)技术,诸如GPT-3、BERT、Sable Diffusion等,均为Transformer架构在不同应用场景下不断演进与优化的成果。

注意力机制(Attention)

关于注意力机制,其本质可概括为一种将查询与键值对映射至输出的函数,其中查询、键、值及输出均以矢量形式表示。此机制通过计算值的加权总和来生成输出,而各值的权重则依据查询与相应键之间的兼容性函数确定。Transformer模型特别采用了多头注意力(multi-headed attention)技术,该技术实现了对缩放点积注意力(scaled dot-product attention)函数的并行化处理,具体图示请参见:https://arxiv.org/pdf/1706.03762.pdf?trk=cndc-detail。

值得注意的是,尽管上述描述较为学术化,但维基百科提供了更为通俗易懂的解释:注意力机制是人工神经网络中一种模拟人类认知注意力的技术,它能够通过增强输入数据中特定部分的权重,并相应减弱其他部分的权重,从而引导网络聚焦于数据中的关键信息。这一过程中,哪些部分更为重要取决于具体的上下文环境,且注意力机制的权重具有“软权重”特性,即其值可在运行时动态调整,而非传统权重那样保持固定不变。

Transformer在芯片中的应用

鉴于Transformer架构在未来几年内可能保持相对稳定的发展趋势,众多芯片制造商已在其最新产品中集成了Transformer Engine,以应对日益增长的计算需求。例如,NVIDIA在其H100芯片中便集成了这一引擎。在2022年的re:Invent大会上,NVIDIA的架构师分享了如何在AWS平台上利用新一代芯片进行深度机器学习训练的经验,并详细介绍了H100芯片中Transformer Engine的设计思路与初衷。对于技术细节感兴趣的读者,可通过以下视频链接获取更多信息:https://www.youtube.com/watch?v=l8AFfaCkp0E?trk=cndc-detail。

Transformer演进时间线

为了更直观地展示Transformer的发展历程,我们可以将其各类模型按照出现时间进行排序并绘制成图表。这一视角有助于我们更好地理解Transformer技术的演进脉络及其在不同领域的应用情况。

如需获取详细的模型简介与目录信息,请访问以下链接:https://arxiv.org/abs/2302.07730?trk=cndc-detail。

生成式人工智能(GenAI)

1. 缘何现今崛起?

生成式人工智能(GenAI)与人工智能领域整体的发展,均引人深思:“缘何现今崛起?”简而言之,其背后有三重驱动力:

  1. 模型性能的显著提升;

  2. 数据量的爆炸性增长;

  3. 计算能力的空前飞跃。

GenAI的进化轨迹远超预期,为深刻理解当前态势,有必要回溯AI发展的历史脉络。

第一波浪潮:小型模型的主导时代(2015年前)

彼时,小型模型在语言理解领域被视为“标杆”。它们擅长执行分析任务,如交货时间预测、欺诈分类等。然而,在生成任务上,其能力尚显不足,难以媲美人类水平,无论是写作还是编程均遥不可及。

第二波浪潮:规模竞赛的兴起(2015年至今)

2017年,一篇具有里程碑意义的论文《Attention is All You Need》横空出世,介绍了Transformer这一新型神经网络架构。Transformer不仅能够生成高质量的语言模型,还具备出色的并行处理能力和训练效率。作为少样本学习器(few-shot learners),它易于针对特定领域进行定制。

随着模型规模的持续扩张,其表现逐渐逼近乃至超越人类。2015至2020年间,训练AI模型所需的计算资源增长了六个数量级,使得AI在手写、语音、图像识别、阅读理解和语言理解等多个领域均达到了超越人类的水平。GPT-3模型在此期间脱颖而出,其在代码生成、写作等多项任务上的性能较GPT-2实现了质的飞跃。

尽管基础研究取得了显著进展,但这些模型的应用仍受限于高昂的成本和复杂的运行环境。它们体积庞大、难以部署,且访问门槛极高(多为封闭测试或仅限特定用户)。尽管如此,最早的GenAI应用已初露锋芒,开始进入市场竞争。

第三波浪潮:性能优化与成本降低(2022年后)

得益于AWS等云技术公司的推动,云计算的普及极大地降低了机器学习计算的成本。同时,diffusion model等新技术进一步降低了模型训练和推理的门槛。这促使研究界不断开发出更优的算法和更大的模型,并将开发者访问权限从封闭测试逐步扩展到开放测试乃至开源。这为长期缺乏大型语言模型(LLM)访问权限的开发人员打开了大门,激发了他们的探索热情和应用创新。随着这些变化的推进,GenAI应用开始蓬勃发展。

第四波浪潮:杀手级应用的涌现(当前)

随着基础平台层的日益稳固和模型性能、成本的不断优化,以及模型访问的日益免费和开源化,GenAI应用层正迎来创造力爆炸的黄金时期。正如十年前移动互联网的爆发式增长一样,我们预期这些大型模型将催生出新一轮的GenAI应用浪潮。我们坚信,在这一轮创新浪潮中,将涌现出具有划时代意义的杀手级GenAI应用。

Source: https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/?trk=cndc-detail

生成式人工智能(GenAI)的应用

以下是生成式人工智能(GenAI)的应用格局图,该图详尽地描绘了为各类应用提供支持的平台层,以及基于这些平台层可能构建的潜在应用程序类型。

在GenAI的多个领域中,文本生成是进展最为迅速的一个。代码生成,如Amazon CodeWhisperer所展示,有望在短期内显著提升开发人员的生产力。图像生成则是一个相对较新的现象,我们见证了多种风格的图像模型的出现,以及用于编辑和修改生成图像的各种技术的兴起。语音合成技术已存在多年(例如,Siri的广泛应用),而当前的模型则为进一步的优化提供了坚实的基础。视频和三维模型领域正在迅速崛起,这些模式为电影、游戏、虚拟现实及实体产品设计等大型创意市场带来了前所未有的潜力。此外,从音频和音乐到生物学和化学等多个领域,都在进行基础模型的研发工作。

以下图表展示了我们对基础模型发展进程的预期,以及相关应用可能实现的时间框架。

生成式人工智能(GenAI):文字生成图像(Text-to-Image)方向

回顾过去一年,生成式人工智能在文字生成图像(Text-to-Image)方向上取得了令人瞩目的进展。根据亚马逊云科技的官方博客,用户现在能够便捷地在SageMaker JumpStart中利用Stable Diffusion模型,轻松创作出富有想象力的绘画作品。

以下图像展示了该模型对“宇航员在火星上骑马的照片”、“印象派风格的纽约市画”及“西装革履的狗”等输入文本的响应。

此外,该模型还成功生成了以下图像,这些图像分别是对“狗在玩扑克”、“树木茂密的森林中的城堡的彩色照片(否定提示:黄色)”等输入的响应。


AI科技前沿
关注最重要的科技前沿!
 最新文章