大家好,我是言川。在开篇先说下写这篇文章的背景。熟悉我的朋友应该都知道,我目前是与优设平台联合发起了一个AI俱乐部,这个俱乐部主要是帮助会员们掌握AI技术的。但是我最近发现了一个“非常严重”的问题,不少会员宝子们来问我什么是AIGC、什么是智能体、AIGC能应用到哪些场景中......确实我也发现了,现在两极分化太严重了,真正懂AIGC的人数量极少,大部分人还是处于似懂非懂的状态。
于是,为了解决大家对AIGC知识的不足,我耗时36h,写下了这篇累计2W字的AIGC科普文章。由于本文比较长,大家可能一时会难以吸收,所以建议大家收藏起来反复观看。并且,我在文末给大家准备了一份福利🎁,记得一定去看看。
为什么要读这篇文章?我把我的经验分享给你。
我在往期分享的文章中,大部分内容是在AI应用层分享经验知识,对AIGC原理的经验分享较少。而面对AI技术不断的发展,我们在应用层的学习是远远跟不上技术更新的速度。但现在AIGC的技术框架是比较成熟的,我们能看到的新技术、新功能,大部分都是在以往经过验证且成熟的技术架构上更新。所以,当你从底层原理去学习并理解AI技术(如大模型、智能体、多模态等),不论将来AI如何革新,你都能游刃有余的应对,重要的是培养一个深度学习、思考的习惯。
所以本篇文章,就是给大家进行扫盲的。而我也会尽量用人能听懂的话语、大量的举例来帮助你更好的学习。
AIGC介绍及发展经历
为什么AIGC能在近2年突然爆发,并且影响普通人和传统行业。这一切都不是突然出现,而是随着人工智能产业的多年发展,技术实现从感知智能升级为认知智能。
感知智能主要聚焦在视觉、听觉以及嗅觉等信号的处理,它使得机器能够像人类一样处理这些信号。
认知智能则更加关注语言推理,它聚焦在理解和生成语言的能力上。认知智能使得机器能够进行复杂的阅读理解任务并与人类进行有效的对话,这就AIGC实现智能产品化的重要形式。
如果要更加深入的了解AIGC,我们则需要从它的前世今生开始说起。
1.1 什么是AIGC
从零开始扫盲,第一个问题,什么是AIGC?AIGC是AI Generated Content的缩写,直译即是生成式人工智能。
在AIGC出现之前,我们生产内容的方式是PGC(专家生产内容)和UGC(用户生产内容)。而AIGC则是利用人工智能技术自动生成内容的新型生产方式,而这种生产方式被行业内定义为Web 3.0互联网形态。
按照模态划分(指的是AIGC技术能够处理和生成的内容类型),AIGC又可以分为文本生成(如ChatGPT、Kimi等)、图像生成(如StableDiffusion、Midjourney等)以及视频生成(如可灵AI、Sora等)。当然还有一个模态划分,也是未来AI大模型的发展趋势,叫做多模态。多模态指的是同时处理来自不同模态的信息,如文本、图像、音频等。也就是说一个AI大模型,能同时处理多种内容生成类型。
自2022年OpenAI、Midjourney、StableDiffusion等先进AI工具的推出以来,AIGC得到了快速发展,内容由AI生成的比例呈指数级上升,这标志着内容生产模式正从PGC和UGC向AIGC转型。
此外,2022年12月16日,Science杂志发布了2022年度科学十大突破,其中AIGC赫然在列,标志着其重要性和影响力。AIGC的火爆是技术积累与发展策略双重变革的产物,因此2022年更应该是AIGC的“应用元年”。
1.2 AIGC发展历程
正如前文提到的,AIGC技术并不是突然出现,而是随着AI技术迭代而迎来爆发式增长。我们可以将AIGC的发展分为四个阶段,早期萌芽阶段、沉淀积累阶段、快速发展阶段以及产品爆发阶段。
第一阶段:早期萌芽(1950s-1990s)
1950年,艾伦·图灵首次提出“图灵测试”,给出判定机器是否具有“智能”的实验方法。但由于该时期受限于科技水平的发展,AIGC仅限于小范围的实验。
直到1957年,莱杰伦·希勒和伦纳德·艾萨克森完成了一部由计算机创作的音乐作品。但直到80年代末至90年代中期,高昂的成本投入以及难以商业化的问题,导致资本投入有限,所以在这个阶段,AIGC并没有出现颠覆性的成果。是不是有点像前几年很火热的元宇宙概念,成本高、商业落地难。
第二阶段:沉淀积累(1990s-2010s)
从这个阶段开始,AIGC开始从实验性质转向实用性。因为自2006年开始,深度学习算法取得重大突破,同时GPU、CPU等算力设备性能不断提升,互联网得到快速发展,为各类人工智能算法提供了海量训练数据。
到2007年,世界首部完全由人工智能创作的小说《1 The Road》问世,给AIGC研究方向一记强力的定心针。
2012年,微软公开展示了一个全自动同声传译系统,通过深度神经网络(DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。如后续各大手机厂商推出的语音助手的sir、小爱同学等,但此时的AI还不能被称为AIGC。
第三阶段:快速发展(2010s-2021)
自2014年以来,生成式对抗网络(GAN)等深度学习算法的提出和持续迭代,标志着人工智能生成内容(AIGC)进入了一个新的时代。在这一阶段,AIGC领域呈现出多样化的内容生成,其效果逐渐趋向逼真,甚至达到了令人类难以辨识的程度。同时,各大厂商推出的相关产品或功能也进一步证明了AIGC正快速发展的趋势。
2017年,微软人工智能少女“小冰”推出了世界首部100%由人工智能创作的诗集《阳光失了玻璃窗》。
2018年,英伟达推出的StyleGAN模型能生成高分辨率图片。目前最新的模型StyleGAN-T,能够在短时间内由文本生成大量图像。
2019年,DeepMind发布了DVD-GAN模型用以生成连续视频,在草地、广场等明确场景下表现突出。
2021年,OpenAI推出了DALL-E,并于一年后推出了升级版本DALL-E-2,主要应用于文本与图像的交互生成内容。
第四阶段:产品爆发(2022-至今)
直到2022年(你没看错,准确来讲AIGC产品的爆发是在2022年下半场),多款AI产品横空出世。Stability AI在2022年8月发布了Stable Diffusion模型,而OpenAI于同年11月30日推出了人工智能聊天工具ChatGPT。图像生成工具Midjourney的V1模型更早在2022年2月首次亮相。
起初,AIGC的讨论主要集中在科技圈,但随着2023年新年假期结束,GPT-4模型在3月份横空出世,其多模态输入和媲美甚至超越人类的表现在专业领域引起了广泛关注。经国内外媒体大肆报道宣传,使得AIGC开始进入互联网从业者、企业高管、投资者等更多人的视野。图像生成工具如Midjourney和Stable Diffusion也开始在设计领域掀起波澜。而我也正是在这个时期,开始学习并在自媒体平台上分享AI绘画经验。
写到这里也是颇为感触,我也是吃到了AI发展的红利期,往往机会就是出现在风口上,能否敏锐的抓住风口,是每一个创业者、媒体人必修的能力。
2023年,随着市场反馈和AIGC发展趋势,成百上千的AI产品涌现,新创业者和老牌企业纷纷向AIGC转型,AI时代正式到来,市场竞争也变得激烈。尽管最初AI在视频生成领域表现不佳,但2024年初Sora的出现标志着AI视频领域的竞争正式开始。直到现在(2024年10月写文),市面上已出现多款AI视频产品,如Runway ML、Pika、LumaAI、可灵AI、海螺、即梦、清影等,涵盖了音乐生成、数字人、语音合成等相关技术,AIGC在视频生成领域的技术也日益成熟。
AI时代的到来迫使每个人都必须拥抱AI技术。从市场角度来看,AIGC的发展仍处于初期阶段,目前正处在一个探索和验证的阶段,如同拿着锤子找钉子。AI大模型就像一把强大的“锤子”,而找到合适的“钉子”并有效地使用这把“锤子”是我们需要不断尝试和验证的。
1.3 AIGC发展必备条件
从上述的发展历程我们可以观察到,AIGC从初期“智能”概念的提出,到2022年生成式AI工具的爆发,历经70多年,绝非偶然。它至少具备五项条件:模型训练技术创新、合成数据驱动训练、GPU芯片支持以及产业生态的成熟,下面我将从这四项条件逐一展开分析。
条件一:模型训练技术创新
人工智能行业与其他行业有所区别,人工智能领域依赖于开放科学和不断的技术创新。什么意思呢?就是说优质模型的开源能够加速技术进步,例如OpenAI 开源的 CLIP 多模态预训练模型,它结合了自然语言理解和计算机视觉分析,使得模型训练可以直接利用互联网上带有文字描述的图片素材,这大幅降低了数据获取的门槛。
条件二:合成数据驱动训练
传统的模型训练面临数据标注费时费力、准确率低、样本数量不足等问题。生成式 AI 的发展使得模型可以产生合成数据,这些数据又可以反哺模型训练,形成加速飞轮,显著提高了训练效率和模型的性能。
条件三:GPU芯片支持
AI大模型的训练需要强大的计算能力,通常依赖于GPU芯片服务器。随着芯片产业的不断进步,硬件能力也日益增强,足以支撑起模型训练的算力需求,这是AIGC发展的关键因素。
NVIDIA在芯片技术上的领先地位,特别是在AIGC爆发期,使其成为全球最有价值的公司之一。老黄(黄仁勋)也因此吃到时代的红利,个人身价在2024年达到了1090亿美元,排名全球富豪榜第13位。
条件四:产业生态的成熟
随着AIGC的技术进步,AIGC产业生态逐渐成型。整体而言,目前AIGC产业生态可划分为三部分:上游预训练模型开发、中游的模型开发及销售、下游的AI服务应用。
上游基础设施
这包括数据服务板块、算力、模型开发训练平台/计算平台等算法基础平台。这一层的门槛很高,预训练模型开发需要巨大的资金和专业知识,因此有能力做预训练模型的公司主要是头部科技企业和独角兽公司。
中游模型层
模型层包括底层通用大模型、中间层模型和开源社区。中游主要指的是模型的开发和优化,包括底层通用大模型的构建、中间层模型的开发,以及开源社区的贡献。这些模型是AIGC产业的核心,它们通过各种算法和技术处理上游提供的数据,生成高质量的内容。
下游应用层
应用层则是在文本、音频、图像、视频四类模态的基础上,发展出了策略生成和跨模态生成,并在金融、数据分析、设计等多个行业实现了商业应用。
下游主要是将中游的模型应用到具体的行业和场景中,如文本生成、音频生成、图像生成、视频生成等,以及跨模态生成,即将一种模态的内容转换成另一种模态,例如将文本描述转换为图像。
AI的技术理论
AIGC技术与AI的发展密不可分,所以我们需要理解AI技术的演进才能更容易的吸收AIGC的技术原理。
1950年,艾伦·图灵发表了一篇划时代的论文《计算机器与智能》,文中提出了著名的图灵测试:“如果一台机器能够与人类展开对话,而保证其机器身份不被识破,那么就可以认为这台机器具有智能。
虽然此时图灵已经从理论角度给出了机器拥有智能的可能性,但AI正式发展成一门专业学科则是在1956年的达特茅斯会议,在这次会议上,“人工智能”的名称与概念正式确立,因此这次会议也被广泛认为是人工智能诞生的标志,开启了人工智能领域曲折向上的技术发展之路。
如果我们继续深挖下去,并要理解后面出现的多种AIGC技术相关的专业名词(如深度学习、神经网络、生成式对抗网络等),就需要先对早期人工智能诞生的三种发展流派有所了解。
2.1 AI技术发展的三种流派
在人工智能诞生早期,出现了三大流派:符号主义、联结主义和行为主义。这三大流派就类似江湖上的武林帮派,比如武当派、少林派、峨嵋派等。这些流派相爱相杀、互相竞争又互相合作。这三种流派共同构成了人工智能早期的理论基础,并影响了后来人工智能的发展。
符号主义
符号主义认为人类的一切活动(包括智力和体力)都是符合某种逻辑的,所有信息都可以抽象为各种符号。而人类的认知过程可以看作是运用逻辑规则操作这些符号的过程,所以符号主义又叫逻辑主义。但是一旦涉及到非逻辑思维,那么它可能就会干瞪眼,没办法进行推理了。
联结主义
联结主义认为智能的关键不在于让电脑等机器实现智力活动,而是应该模仿人脑的结构,即神经元之间的联结,所以联结主义又叫仿生学派。这派观点认为智能是大脑中神经元网络共同处理信息的结果,通过计算机模拟神经网络的工作模式来实现人工智能。但是这个是有赖于人类对自身神经系统的了解程度,到目前为止我们还没法对这个神经系统完全了解。
行为主义
行为主义起源于控制论,强调模拟人在控制过程中的智能行为和动作。这就有点像我们人与人之间的交流、沟通、冲突、合作出现的这种自适应机制。但是限于时代和科技发展,行为主义直到上世纪末,随着智能控制与机器人逐渐兴起才引起重视。
总结一下,符号主义擅长知识推理、联结主义擅长知识建模、行为主义擅长感知+行动。而三者的融合发展,或许才是未来人工智能发展的大势所趋。
那么是哪些技术促进AI生成的内容发展呢?你可能在某篇文章、某条视频或某条论文里刷到过这些词汇,如机器学习、监督学习、无监督学习、深度学习、强化学习等等,那么它们有什么关系呢?别急,下来我会一一来解释,当你理解了这些技术原理,那么你将对AI会有一个更深入的认识。
2.2 机器学习理论
机器学习介绍
1950年,也是本文出现多次的老前辈图灵,在他的论文《计算机器与智能》中提出了“学习机器”的概念,强调与其去编程模拟成人的大脑,还不如选择更简单的儿童大脑,通过辅之以惩罚和奖励的教学过程,让机器在学习后具备智能。
举个栗子,如果我们通过编程代码告诉电脑,图片里有红色的物体说明是苹果,图片里有黄色的物体说明是香蕉。那程序对水果类的判断就是通过人类直接明确编写的逻辑达成的,而这不属于机器学习,因为机器并没有进行学习。
再举个栗子,如果我们给电脑喂大量的苹果和香蕉的图片,让电脑自行识别判断,总结规律,从而能对未见过的图片进行预测和判断,这才是机器学习。
机器学习模型的训练过程可分为以下四步:
数据获取:需要收集和准备用于训练模型的数据。这些数据可以来自数据库、文件、网络等,数据的质量会直接影响模型的性能;
特征工程:从原始数据中提取出有助于模型做出预测的特征,目的是使数据更适合机器学习算法处理,从而提高模型的性能;
模型训练:使用特征工程处理过的数据来训练模型,并根据算法生成模型;
评估与应用:将训练好的模型应用在需要执行的任务上并评估其表现,通常涉及到使用测试集(在训练过程中未见过的数据)来评估模型的准确性和其他性能指标。如果模型的性能达到了预期,它就可以被部署到实际应用中,用于做出预测或决策。
监督学习与无监督学习
机器学习又可以简单的划分为监督学习和无监督学习,它们在训练数据的类型和学习目标上有所不同。
监督学习:
监督学习的目标是学习输入数据和输出标签之间的映射关系,以便能够对新的、未见过的数据做出准确的预测。
监督学习好比,在学校里,小言每次做完题目后,老师会进行题目进行批改,让小言知道每道题是否答对。
监督学习通常用于分类和回归问题。
-- 分类:在分类问题中,模型的目标是预测离散的类别标签。比如用一些猫和狗的图片对应猫狗的标签进行训练,然后用模型未见过的图片预测是猫还是狗。
-- 回归:在回归问题中,模型的目标是预测连续的数值。比如用一些房子特征的数据(房子面积、客厅、阳台等),然后用模型未见过的房子图片预测房价。
无监督学习:
无监督学习的目标是发现数据中的模式和结构,而不是对数据进行预测。
无监督学习好比老师把大量的题目直接丢给小言同学,让小言在题海中自己发现题目规律,当题量足够大的时候,小言虽然不能完全理解每道题,但也会发现一些知识点的固定的选项表述。
无监督学习通常用于聚类和关联规则学习问题。
-- 聚类:在聚类问题中,模型的目标是将数据进行分组,使得同一组内的数据点相似度高,不同组之间的数据点相似度低。
-- 关联规则学习:关联规则学习中,模型寻找数据特征之间的关联规则。
感知器与神经网络算法
在机器学习领域,监督学习和无监督学习是两种最基础且易于掌握的方法。而监督学习就是感知器算法的典型案例之一,它是构建人工神经网络的基石。
我们通过一个例子来简化感知器的工作原理,这其中不涉及复杂的数学公式。
想象小言在大学选修了一门课程,他想通过收集过往学生的成绩数据来预测自己是否会挂科。他首先设定了一个评分公式:第一次作业(占30%)+第二次作业(占30%)+考试(占40%)=课程评分。如果评分达到或超过60分,就及格;否则,挂科。
小言尝试将这个公式应用于收集的数据,但发现要么所有人都不及格,要么所有人都及格。这说明他需要调整作业和考试的权重。通过不断调整,小言最终找到了合适的权重,能够准确预测学生是否会挂科。
这个过程可以由一个简单的感知器程序来完成。在这个程序中,作业和考试的成绩作为输入节点,相当于神经元接收信息。判断是否挂科的输出节点也是一个神经元。计算合格与否的函数称为激励函数。输入和输出节点之间的信号传递由评分公式计算,信号的强弱由成绩对应的权重决定。通过调整这些权重,模型学会了如何分类。
人工神经网络是一种多层感知器,它不仅包括输入层和输出层,还引入了多个隐藏层。这些隐藏层的神经元可以与输入层和输出层的神经元相连,每个连接都有一个特定的权重系数。这样的设计使得网络能够捕捉到更复杂的数据模式和关系。
隐藏层的引入是为了处理现实世界中的复杂性。在现实世界中,问题往往不是简单的黑白对立,而是存在许多灰色地带和变化。隐藏层使得神经网络能够学习这些复杂的变化,从而提高模型的预测能力和泛化能力。通过在隐藏层中增加更多的神经元,网络可以学习更复杂的函数映射,解决更复杂的问题。
总结来说,感知器算法通过调整输入权重来学习分类任务,而人工神经网络则在此基础上进行更复杂的学习。在训练过程中,需要平衡经验风险和结构风险,以达到最佳的学习效果。
强化学习算法
强化学习是AIGC、大模型最核心的技术之一。2016年3月,由谷歌DeepMind公司开发的人工智能程序AlphaGo在五局三胜制的比赛中以4比1的总比分战胜了世界围棋冠军李世石。而这台AI程序训练的过程就结合了强化学习的技术,自我对弈不断提高自己的水平。
简单介绍下强化学习,强化学习是机器学习的一个分支,它主要关注如何在环境中采取行动,来达成长期累计收益最大化的目标。与监督学习和无监督学习不同,强化学习不是直接从数据中学习,而是通过智能体(Agent)与环境(Environment)的交互来学习。
我们用一个《超级马里奥》游戏的例子来说明强化学习的概念,在这个游戏例子中,智能体就是马里奥,环境是整个《超级马里奥》的游戏世界。
智能体:马里奥是玩家控制的角色,他需要在游戏世界中做出各种决策,比如跳跃、奔跑、收集金币等。
环境:包括不同的关卡、敌人、障碍物、金币、道具等。马里奥在这个世界中进行探索和交互。
状态:状态描述了游戏世界在任何给定时刻的具体情况。对于马里奥来说,状态可能包括他的位置、速度、是否处于无敌状态、敌人的位置、金币的数量等。
行动:行动是马里奥可以执行的操作,比如:向右移动、向左移动、跳跃、静止不动、蹲下、使用道具等。
奖励:奖励是马里奥执行行动后从环境中获得的反馈。比如收集金币+200分、击败敌人+100分、到达旗杆:+1000分(并进入下一关)、掉入深渊或被敌人击中:-1条命。
目标:马里奥的最终目标是完成所有关卡,救出公主。在强化学习中,这个目标可以被转化为最大化累积奖励,比如通过尽可能多地收集金币、击败敌人和快速通关。
策略:策略是马里奥根据当前状态决定采取的行动的规则。一个好的策略会告诉马里奥在特定状态下应该采取哪个行动以最大化奖励。
价值:价值函数预测从某个状态出发,遵循特定策略所能获得的累积奖励。例如,马里奥可能会评估在某个位置跳跃的价值,以确定这是否是一个高价值的行动。
所以强化学习的过程又可以分为以下几点:
观测:马里奥观测当前关卡的状态。
决策:根据观测到的状态和学习到的策略,马里奥决定是跳跃、奔跑还是收集金币。
执行:马里奥执行选定的行动。
反馈:环境对马里奥的行动给出反馈,比如得分增加或生命减少。
学习:马里奥根据反馈更新其策略,比如如果跳跃总是导致掉入深渊,他可能会学习到在那个位置应该奔跑而不是跳跃。
通过这个过程,马里奥(智能体)学习如何在《超级马里奥》(环境)中导航,以最大化他的得分(奖励),并最终达成救出公主的目标。
常见的强化学习应用场景如智能驾驶、智能机器人、游戏世界(如NPC)以及AIGC大模型等。那通过这个章节的介绍,你是不是就能理解为什么AlphaGo能战胜世界围棋冠军。因为人是会疲惫、犯错的,而机器程序如一台永动机,只要不断电,它就能一直学习下去。
深度学习算法
在机器学习中,选择合适的特征对模型训练至关重要。但在某些情况下,如图像和文本处理,直接提取有效特征非常困难。机器需要学习的是数据中的深层关系,而非简单的表面特征。人类无法处理这种深层特征提取,因此需要依赖深度神经网络来自动完成这一任务。
深度学习是一种机器学习技术,它使用具有多层结构的深度神经网络来模拟人脑处理信息的方式,从而学习数据中的复杂模式和关系。作为机器学习的一个分支,深度学习特别擅长处理和分析大规模数据集。深度学习与无监督学习、监督学习及强化学习的关系如图:
最后总结一下,深度学习算法可以结合监督学习、无监督学习和强化学习来提高模型性能,而目前大部分AIGC模型的主体基本上都是深度强化学习模型。
2.3 Transformer架构
Transformer架构是一种深度学习模型,由Google公司于2017年在论文“Attention is All You Need”中提出的网络架构。该架构最初的设计目的是解决RNN(Recurrent NeuralNetwork,循环神经网络)串行输入、串行编解码导致的运行速度缓慢的问题,以显著提升机器翻译的效率。得益于Transformer优秀的并行处理能力,越来越多的模型以Transformer为基础进行构建,包括GPT系列模型和BERT模型。
目前市面上大部分的大语言模型都是基于Transformer架构开发的,它相当于是大模型的基座,无比重要。如果要对Transformer进行详细说明,可能需要重新写一篇文章才行,本文大家先对Transformer有一个基础的认知即可。
3.1 文本生成模型
大语言模型介绍
这个小节我们介绍大语言模型,也可能是大家最熟悉的词汇。简单介绍一下,大语言模型(Large Language Model)简称LLM,是大模型的一个子集,专门指在自然语言处理领域中使用的、参数数量巨大的模型。其中自然语言指的是人类在日常生活中用来交流的语言。
再介绍下大模型,大模型通常指的是在机器学习和人工智能领域中,拥有大量参数的模型,比如深度学习模型、神经网络模型等。
所以我们前面介绍的技术原理都是与大语言模型息息相关的,由多种技术的结合、演进、尝试,就发展成为如今的AIGC时代。大语言模型的应用例子有非常多,比如国外的ChatGPT、Claude、LaMDA等,国内的文心一言、豆包、Kimi等。
但并不是所有的AIGC都是属于大语言模型,像生图的扩散模型就不属于这一类,它并不输出文本,后文会介绍。
大语言模型生成原理
给大语言模型输入文本内容,它能返还相应的输出完成具体任务。完成的任务可以是文章总结、论文改写、信息生成、语言翻译等。
大语言模型首先需要通过大量的文本进行无监督学习,以GPT 3为例,它的训练数据有多个互联网文本语料库。覆盖线上书籍,新闻文章,科学论文,维基百科,社交媒体帖子等等,借助海量的训练文本数据。从而更好的理解文本的含义,并生成更准确的预测。
但大语言模型的大指的不仅仅是训练数据巨大,而是参数数量巨大。参数是模型内部的变量。可以理解为是模型在训练过程中学到的知识参数,决定了模型如何对输入数据做出反应,从而决定模型的行为。在过去的语言模型研究中发现,用更多的数据和算力来训练具有更多参数的模型,很多时候能带来更好的模型表现。
比如要AI学习做一道中式菜,只允许AI调整盐、胡椒和基本调料的量,与允许AI调整盐、胡椒、各种香料(如孜然、肉桂、姜黄)、不同的食材(如肉类、蔬菜、豆类)、烹饪方法(如炒、煮、烤)以及火候和时间,后者由于可以调整的变量更多,更能让AI模仿做出更丰富的菜肴。
当前语言模型的参数数量已经达到了过去模型的数万甚至数百万倍。以OpenAI的GPT系列为例,GPT-1拥有1.17亿个参数,GPT-2的参数数量增至15亿,而GPT-3的参数量更是激增至1750亿。这种参数规模的增长赋予了大型模型更广泛的应用能力,它们不再局限于单一或少数任务,而是能够处理多种复杂的语言处理任务。
在此之前,为了执行总结、分类、信息提取等不同任务,我们可能需要训练多个专门的模型。但现在,一个大型模型就能够胜任这些任务,显著提高了效率和灵活性。基于这种强大能力的AI聊天助手,如Chad GPT、Cloude、Kimi、文心一言等,都是大语言模型应用的实例,它们能够提供更加丰富和智能的交互体验。
而提到大语言模型,就绕不开Transformer架构,2017年由谷歌的研究人员在论文《Attention Is All You Need》中首次提出。这种架构彻底改变了自然语言处理(NLP)领域,特别是在处理序列到序列(seq2seq)任务时,如机器翻译、文本摘要、问答系统等。
大语言模型关键技术
大语言模型的发展离不开多种技术的支持,这些技术在大模型的开发和应用中扮演着至关重要的角色,它们使得模型能够更加智能、灵活地处理各种复杂的任务和挑战。
迁移学习:通过将一个领域的知识迁移到另一个领域,提高模型在新任务上的性能。
零样本学习:使模型能够识别从未见过的数据类别,增强模型的泛化能力。
小样本学习:通过少量样本进行学习,与提示词结合使用,提高模型的输出质量。
持续学习:在一系列任务上训练模型,保留旧任务知识的同时学习新任务。
多任务学习:并行学习多个任务,共享表征信息,提高模型的泛化能力。
强化学习:通过人类反馈来调整模型行为,使其与人类价值观对齐。
上下文学习:模型根据测试集的输入生成预测结果,而不需要针对特定任务调整参数。
思维链:通过详细的推理过程提示词激发模型的多步推理能力。
提示工程:通过设计合适的提示词来引导模型生成更好的结果,而不需要修改模型参数。
主流的AI生文模型
免死金牌:以上信息均为个人整理,旨在辅助读者更深入地理解相关章节内容。请注意,这些资料不涉及任何商业目的或用途。
3.2 图像生成模型
GAN(生成对抗网络)介绍
介绍Diffusion模型之前,我们需要先对有所了解,它是早期在生成图像领域被大量应用的算法之一,并且至今仍然被许多AIGC应用所采用。
生成对抗网络(Generative Adversarial Networks,简称GAN)是一种深度学习模型,由Ian Goodfellow等人在2014年提出。GAN通过模拟生成数据与判别数据之间的对抗过程,用于生成新的数据样本,这些样本在统计上与真实数据不可区分。GAN的核心思想是利用两个神经网络,生成器(Generator)和判别器(Discriminator)之间的竞争来提高生成数据的质量。
生成器的作用是接收随机噪声作为输入,并生成尽可能接近真实数据的样本。在图像生成的例子中,生成器会尝试创建看起来像真实图片的图像。生成器的目标是欺骗判别器,使其认为生成的样本是真实的。
判别器的任务是区分生成器生成的样本和真实样本。它接收生成的样本和真实样本作为输入,并输出一个概率值,表示输入样本是真实的概率。判别器的目标是尽可能准确地识别出哪些样本是生成的,哪些是真实的。
GAN的训练过程可以看作是生成器和判别器之间的一场对抗游戏:
固定生成器,更新判别器:在这个阶段,生成器的参数保持不变,判别器通过比较真实样本和生成样本来学习如何更好地区分它们。判别器的目标是最大化其正确分类真实样本和生成样本的能力。
固定判别器,更新生成器:在这个阶段,判别器的参数保持不变,生成器通过尝试生成更高质量的样本来欺骗判别器。生成器的目标是最小化判别器将其生成的样本分类为假的概率。
这两个步骤交替进行,直到生成器生成的样本足够好,以至于判别器无法区分真假样本。
GAN在多个领域都有广泛的应用,尤其是在图像生成领域。它可以用来生成高质量的图像,如人脸、风景、艺术作品等。此外,GAN也被用于图像到图像的转换、风格迁移、数据增强、图像超分辨率等领域。尽管GAN在文本生成方面也有所尝试,但由于其对离散数据的处理能力相对较弱,因此在文本领域的应用不如图像领域广泛。
Diffusion模型介绍
Diffusion模型又叫“扩散模型”,是一种应用于细粒度图像生成的模型,它通过模拟物理扩散过程来生成数据,特别是在图像生成领域表现出色。比如大家所熟知的StableDiffusion、Midjourney、DALL·E 2等AI绘画工具,就是在Diffusion模型和Clip模型(后文介绍)技术上开发的。
前文出现的《太空歌剧院》图像,底层技术模型就涉及Diffusion模型。
Diffusion模型的核心思想是模拟一个从有序到无序再到有序的过程。具体来说,这个过程包括两个主要阶段:
正向扩散:从一个清晰的数据点(例如一张图像)开始,逐渐添加噪声,直到数据完全变成噪声。这个过程可以看作是一个逐步破坏数据结构的过程,每一步都让数据更加无序。
逆向扩散:从噪声数据开始,逐步去除噪声,恢复出原始的清晰数据。这个过程需要模型学习如何从噪声中恢复出有意义的结构。
一句话总结,Diffusion模型的核心思想是学习从噪声中逐步恢复出清晰图像的过程,从而实现高质量的图像生成。
CLIP模型介绍
CLIP模型是由OpenAI在2021年发布的一种多模态预训练神经网络,它通过对比学习的方式,将图像和文本映射到同一个向量空间中,从而使得模型能够理解图像和文本之间的语义关系。
CLIP模型结构包含两个主要部分:
文本编码器(Text Encoder):用于将文本转换为低维向量表示,通常采用Transformer架构。
图像编码器(Image Encoder):用于将图像转换为类似的向量表示,可以是卷积神经网络(深度学习算法)或视觉变换器。
Diffusion模型生成原理
CLIP模型与Diffusion模型是相互结合使用的,主要体现在AI绘画和图像生成领域。CLIP模型通过对比学习的方式,将图像和文本映射到同一向量空间中,使得模型能够理解图像和文本之间的语义关系。而Diffusion模型则通过模拟物理扩散过程来生成数据,特别适用于图像生成任务。
在结合使用时,CLIP模型的文本编码器部分通常被用来将用户的文本输入转换为一系列的特征向量,这些特征向量捕捉了文本的语义信息,并可以与图像信息相结合,以指导图像的生成过程。
Diffusion模型则利用这些文本特征向量作为条件,生成与文本描述相匹配的图像。这种结合可以实现文本引导的图像生成,即根据文本提示生成相应的图像内容。
例如,在Stable Diffusion模型中,CLIP模型的文本编码器被用来将用户的文本输入转换为特征向量,这些向量与随机噪声图像一起被送入模型的后续部分,如图像信息创建器和图像解码器,以生成与文本描述相匹配的图像。
此外,CLIP模型还可以用于图像引导的文本生成,以及视频内容生成等更复杂的任务。随着多模态模型的发展,CLIP可能与视频生成模型结合,产生复杂的图像或视频内容,这在未来的电影、游戏、广告等领域具有广泛的应用潜力。
总的来说,CLIP模型与Diffusion模型的结合,为AI绘画和图像生成领域带来了新的可能性,使得模型能够更好地理解和生成与文本描述相匹配的图像内容。
主流的AI生图模型
免死金牌:以上信息均为个人整理,旨在辅助读者更深入地理解相关章节内容。请注意,这些资料不涉及任何商业目的或用途。
3.3 视频生成模型
视频生成模型介绍
AI视频模型的热潮在2024年2月被点燃,当时OpenAI推出了Sora,这是一个创新的文生视频模型,能够生成长达一分钟、高清晰度且连贯性高的视频内容,这在视频生成领域是一个重大的技术突破。
紧随其后,国内AI视频工具迅速发展。截至2024年10月,快手推出的AI视频生成器——可灵AI,已经能够生成长达2分钟、30fps帧率的高清视频,分辨率高达1080p。
在模型技术层面,视频生成类模型的底层技术框架与图像生成较为相似,主要包括GAN(生成对抗网络)、Transformer、Diffusion模型三种路径,其中Diffusion模型为当前主流生成模型。
这三类技术前文都有提到,本节不再重复赘述。
主流的AI生视频模型
免死金牌:以上信息均为个人整理,旨在辅助读者更深入地理解相关章节内容。请注意,这些资料不涉及任何商业目的或用途。
3.3 多模态模型
多模态模型介绍
简要说明,多模态模型是一种能够处理和理解来自多种不同信息源的数据,如文本、图像、视频、音频和传感器数据等。
例如,一个多模态的情感分析系统可能会同时分析文本内容、音频语调和面部表情来确定一个人的真实情感状态。多模态学习的关键优势在于能够通过不同模态的数据互相补充和增强,从而提高学习算法的性能和准确性。
主流的多模态模型
目前大部分主流的大语言模型都在往多模态发展,故以下模型大部分与生文模型重合。
免死金牌:以上信息均为个人整理,旨在辅助读者更深入地理解相关章节内容。请注意,这些资料不涉及任何商业目的或用途。
大模型时代的AI Agent
Agent的发展历程
Agent(代理)也被叫做智能体,能够感知其环境并采取行动以实现某种目标的实体。智能体可以是软件程序、机器人、或其他形式的系统。
如大语言模型(LLM)一样,智能体也有它的发展历程,我们可以分为以下4个阶段:
符号智能体:采用逻辑规则和符号表示来封装知识并促进推理过程。
反应型智能体:不使用复杂的符号推理,主要关注智能体与其环境之间的交互,强调快速和实时的响应。
基于深度强化学习的智能体:通过与环境的交互进行学习,以获得最大的累积奖励。
基于大模型的智能体:利用规模庞大、数据丰富的语言模型或多模态模型,展现出了前所未有理解和生成能力。
如前文举例的《超级马里奥》游戏例子,其中马里奥就是一个智能体。但游戏里的智能体与大家所熟知coze搭建的智能体不同,它属于基于深度强化学习的智能体。
基于大模型的智能体目前的最新一代智能体,也是本章节主要介绍的核心内容——Agent,后文将基于大模型的智能体简称为LLM Agent。
LLM Agent技术原理
LLM Agent是大型语言模型作为核心组件,通过整合规划、记忆、工具使用和行动执行等能力,以实现复杂任务的自主完成。这些智能体能够模拟人类的思考和决策过程,灵活调用各种工具和资源,以达成预设的目标和任务。它们在技术架构上从面向过程转变为面向目标,通过感知、思考与行动的紧密结合,完成复杂的任务。
LLM Agent的核心优势在于其强大的自然语言理解和生成能力,以及通过持续学习和自我改进,适应不断变化的社会需求和环境的能力。
旅游助手Agent例子说明
以“旅游助手”为例,按照拆分、规划、记忆、工具使用、行动执行、思考与决策、持续学习与自我改进这七个步骤,来说明一个基于LLM的旅游助手智能体如何工作:
拆分:用户向“旅游助手”提出需求:“我计划下个月去巴黎旅游一周,预算大约是5000元,我对艺术和历史特别感兴趣。” “旅游助手”通过自然语言理解能力解析用户的请求,拆分出多个子任务/关键信息,如目的地(巴黎)、旅行时间(一周)、预算(5000元)和兴趣偏好(艺术和历史)。
规划:根据用户的需求,“旅游好助手”开始规划行程。它首先确定旅行的日期,并根据预算和兴趣,筛选出符合要求的景点、餐厅和住宿选项。
记忆:“旅游助手”回顾用户以往的旅行记录和偏好,比如用户之前提到过喜欢安静的住宿环境,或者对某些食物过敏,这些信息将被纳入行程规划中。
工具使用:为了获取最新的景点信息和用户评价,“旅游助手”可能会调用在线旅游平台的API,或者使用搜索引擎来获取相关信息。它还可能使用汇率转换工具来帮助用户了解预算在当地的购买力。
行动执行:“旅游助手”根据规划和获取的信息,为用户预订机票、酒店和景点门票,并生成详细的行程单,包括每天的行程安排、交通方式和餐饮推荐。
思考与决策:在整个规划过程中,“旅游助手”会不断思考和调整策略。例如,如果发现某个景点临时关闭,它会迅速寻找替代方案,并根据用户的兴趣偏好做出最佳决策。
持续学习与自我改进:在用户完成旅行后,“旅游助手”会请求用户对行程的满意度进行反馈。据用户的反馈,智能体会学习哪些方面做得好,哪些方面需要改进,以便在未来为用户提供更好的服务。此外,智能体还会分析其他用户的旅行数据,以发现新的旅游趋势和用户偏好,从而不断优化其旅行规划算法。
简而言之,Agent通过将复杂的旅游规划任务分解为多个子任务,利用大语言模型和预设的规则(例如提示词),来逐步生成和优化规划方案。通过这一过程,智能体能够精准地输出我们期望的旅游规划结果,从而简化我们的准备工作并提升旅行体验。
智能体搭建平台
对于初创团队和普通用户来说,训练大型语言模型可能是一个挑战,但现在搭建定制化的智能体变得相对容易。国内有多个平台提供智能体搭建服务,本章节主要推荐两个目前主流的智能体搭建平台,Coze和文心智能体。
Coze(扣子)
Coze(扣子)是由字节跳动推出的AI大模型智能体开发平台,它提供了一个集成了插件、知识库、数据库、记忆、工作流等多功能为一体的Agent开发环境。
工具链接:https://www.coze.cn/home
文心智能体
文心智能体平台是由百度开发的一款集成了多种AI技术的开放平台,旨在为开发者提供强大的智能化服务和解决方案。该平台支持开发者根据自身行业领域和应用场景,选择不同类型的开发方式,打造大模型时代的产品能力。
工具链接:https://agents.baidu.com/center
AIGC的应用趋势
丹妮拉·鲁斯(Daniela Rus)说过:“深入每个行业,你会发现人工智能正在改变工作的性质。”随着人工智能生成内容(AIGC)技术的进步和普及,它已在多个行业领域展现出其活跃的身影,包括媒体、影视、电商和教育等行业。在本章节中,我将详细介绍在我所熟悉的领域,AIGC应用的趋势,以帮助大家更好地理解这些行业中的应用现状,并预见它们未来的发展趋势。
AI+媒体行业
在媒体行业,AIGC技术正成为信息获取、整理和文案改写的重要工具。正如我写这篇文章时,就借助Kimi、秘塔AI等工具进行知识信息的查找以及总结。在AI技术出现之前,我撰写文章需要人工搜索关键词,收集资料,效率低不谈,知识内容的准确度也很难去判断。并且设计师出身的我,在写这类文章时,就是活脱脱的“草台班子。”
通过使用AIGC工具,我能迅速找到一手信息源,并利用AI将大量信息转化为简短的介绍,从而在短时间内快速学习和整理这些信息,然后结合自己的语言理解进行撰写,大幅提高了写作效率。
并且这种方式也可应用于新闻资讯领域。在传统新闻生产模式中,记者需要在现场通过观察、询问、记录来获取准确信息,而AI能在这个环节上进行高效赋能。例如,在采访过程中,记者可以使用科大讯飞的AI转写工具实时生成文字稿、自动撰写摘要、调整文风、精简文本等,从而提高工作效率,确保新闻产出的时效性。
但AI在该领域尚未实现完全的“去人工化”。在撰写文稿时,AI的表现可能较为刻板和单调,缺乏人类在语境叙述方面的灵活性和丰富性。可能智能体是一个解决方案,但目前智能体也存在一定的局限性,这个后面有机会我们再聊。目前还是AI+人的协作方式,但可以预见的是,随着AIGC技术的继续发展,传媒或将向智媒全面升级。
AI+电商行业
我认为AIGC在电商行业的赋能是最明显的。AIGC可以为商家提供大量的创意营销素材,在电商广告领域对这些创意营销素材有着海量的需求。比如使用Midjourney生成高质量素材、StableDiffusion设计合成营销图等。
市面上有许多AI工具,能够实现一键模特换装和产品图设计。商家只需要上传产品图和模特图,就能迅速获得一张模特穿着产品的展示图。在电商服饰领域,头部企业通常需要在2-3周内上线一款新品,而面对成百上千的需求时,传统的制作方式会耗费大量时间和成本。而AI技术的加持,极大地提高了工作效率,降低了成本。
随着直播电商的竞争愈演愈烈,AI数字人的需求量迎来了爆发式增长。不知道大家有没有发现,在美团等平台上,许多店铺的直播中出现的“主播”并非真人,而是由数字人代替,他们能够实现24小时不间断的直播。当然你要是与他进行互动,可能会让你失望。目前还只能作为暂时播讲的替代,而在情绪表达和互动方面无法有效地触动用户,因此这些由数字人主导的直播转化率通常不会很高。但还是那句话,AI还在进步,未来尚未可知。
AI+影视行业
自2024年3月22日央视频推出国内首部AI全流程制作的微短剧《中国神话》以来,AI在视频制作领域的应用迎来了迅猛发展,AI视频创作工具如雨后春笋般涌现。
AI技术正深刻地改变影视行业的各个环节,从剧本创作到后期制作,再到特效增强,AI的深度融合为影视制作带来了革命性的变化。利用AI文本生成工具,可以辅助创作剧本,以及如剪映等工具自动化剪辑的方式,极大提升了影视工作者制作效率,还进一步激发了他们的创意。虽然此时的AI视频效果并不尽如人意,但趋势以来。
AI+教育行业
“教育兴则国家兴,教育强则国家强”。伴随着技术的爆炸式发展,教育这一古老的行业也迎来了颠覆性的未来。2017年,我国首个国家级人工智能规划《新一代人工智能发展规划》出台,文中明确提出,要利用智能技术加快推动人才培养模式、教学方法改革,构建包含智能学习、交互式学习的新型教育体系。
AI在教育领域的应用正在逐步改变传统的学习方式和教学模式。通过图像和语音识别、自然语言处理等技术,AI不仅能够生成和整理学习资料,使得学习资源更加丰富和易于获取,还能通过收集学习者的数据,提供个性化的学习画像和计划,帮助学生了解自己的学习状态。
对于老师来说,AI的应用能够减轻他们的负担,通过自动化批改作业和考卷等重复性工作。尽管在实际的应用场景存在问题,但大势所趋,AI发展加政策双管齐下,我们有理由相信,借助人工智能,人类将打造更好的“以人为中心的”的教育,实现所有人终身、全面的发展。
结语
在历经14天高强度的学习以及撰写后,终于是将本篇文章画上了句点。在写之前,我对AI技术也是半懂状态,为了保证信息的准确性,也是疯狂折磨AI帮我查阅各种资料,而我也每每熬到深夜(甚至是通宵)才关掉电脑。在过程中,也在对朋友们吐槽,我好像在“考研”,因为AI技术的底层原理是确实难啃,而要对这些信息进行整理更是让我“癫狂”,因为我总不能直接将AI写的文本信息直接复制粘贴吧......而且AI写的信息,确实会存在逻辑错误的情况。
但我在开始之前,就已经做好准备了,我一直崇尚费曼学习法,通过学+写的方式进一步消化知识。这样我在后续的分享中,也能更加深度的去分享知识经验了。希望大家阅读本文能够对AIGC技术有一个基本的认知,同时我也知道本文一时间难以消化,所以建议大家先收藏起来日后,遇到相关知识点可以来查阅。
🎁福利来啦!如果你想学习更多 AI 设计相关知识,可以加入我主理的《优设 AI 俱乐部》,成为优设会员将尊享 12 大权益。星球内沉淀有 2000+优质 AI 学习资料,AI 提示词、AI 工具库、AI 商业设计案例、AI研究报告......
并且,我们决定发放50张70元的优惠券,奖励爱学习、悄悄努力的同学。特价名额到手仅需199元(平均0.5元/天)
还没完!现在加入,除了尊享1年期限的优设会员服务以外,还额外赠送超5GB的免费商用字体包,再次强调,此字体包均通过人工审核检查,确保无版权可免费商用才会给到大家。所以,我们送出的字体包,请放心使用。下单后加言川微信【ychuanzs】领取~