免费赠书!大模型技术进化路线:迈向通用人工智能

文摘   2025-01-15 23:18   浙江  
点击👇LaTeX工作室” 关注公众号
精致美好科研生活从 LaTeX 开始!


荐言
微软公司创始人比尔·盖茨表示,ChatGPT 诞生的意义不亚于互联网的出现。
我们已迈入一个新的时代——大模型时代。要更好地拥抱这个时代,我们首先要深刻地认识这个时代。
这是一本深入浅出地解析大模型技术的书籍,为读者呈现了大模型的全貌,从技术原理到商业实践,再到产业影响,内容丰富且实用。无论是计算机科学、人工智能专业方向的研究者,还是企业中大模型应用领域的从业者,都能从中获得宝贵的知识和启发。
这本书不要求读者具备任何AI技术基础,更不要求读者有任何大模型基础,人人都能读得懂,读完后都能系统认识大模型。围绕大模型的核心技术、基础设施、商业应用、产业体系、安全治理5个维度全面展开。保证每个读者都能看得懂读得完,语言上通俗易懂,内容上深入浅出,呈现上图文并茂。即使是小白,也能无障碍读完全文,彻底了解人工智能、大模型。

摘录部分目录如下:


第2章 大模型技术:让人工智能走进现实
2.1 大模型核心技术:引领人工智能新时代
2.1.1 Transformer架构:融入注意力机制的革命性模型
2.1.2 模型微调:优化性能以应对具体任务
2.1.3 基于人类反馈的强化学习:生成更符合人类偏好的结果
2.1.4 模型压缩技术:缩小模型规模和降低部署门槛
2.1.5 安全与隐私保护技术:确保模型可靠、有效运行
2.2 大模型技术进化路线:迈向通用人工智能
2.2.1 新算法框架:带来新的人工智能黄金时期
2.2.2 多模态和跨模态:更好地理解现实世界的多样化
2.2.3 智能体:拥有自主解决问题的能力
2.2.4 具身智能:让大模型走进物理世界
2.2.5 生物智能:推动硅基和碳基生命的融合
第3章 大模型基础设施:成本高昂的“暴力美学”
3.1 算力基础设施 
3.1.1 智算集群:为大模型提供算力
3.1.2 智算中心:为智算集群提供场所
3.1.3 大模型一体机:“大模型+算力”融合交付新形态
3.1.4 量子数据中心:后摩尔时代的算力基础设施
3.2 数据基础设施
3.2.1 数据采集:获取大模型所需原始数据
3.2.2 数据标注:对原始数据进行加工处理
3.2.3 数据合成:弥补真实数据的不足
3.2.4 向量数据库构建:拓宽大模型的知识边界
以下是摘录正文内容:



2.2.1 新算法框架:带来新的人工智能黄金时期



新算法框架的开发旨在提高大模型的学习效率和计算性能。
随着数据规模和模型复杂性的不断增加,优化模型架构的重要性逐渐凸显。具体优化措施包括:
网络架构优化:例如在传统的卷积神经网络(CNN)基础上构建更深、更复杂的模型,以提升多模态任务中的图像识别效果。
模型层数优化:过深的模型层数可能导致过拟合,我们可以基于实践结果优化模型的层数,以提升自然语言处理中机器翻译的准确性。
网络节点数优化:调整每一层的节点数量,平衡模型的特征挖掘能力与计算效率,减少大模型对算力资源的消耗。
连接优化:调整不同层之间的连接方式,以增强模型的表达能力与泛化能力,实现对文本数据的深入理解和生成。
非 Transformer 架构正在蓬勃发展,预示着 AI 模型架构的新黄金时期即将到来。由于基于 Transformer 架构的模型计算成本高、效率低、幻觉问题等的局限,业界正在提出许多非 Transformer架构。
与同等规模的 Transformer 架构相比,这些新架构普遍表现更佳,包括在原 Transformer 架构基础上进行微调的架构,基于 RNN、CNN 思想优化的架构,还有些架构是 Transformer 与RNN、CNN 结合的混合架构(如微软的 RetNet),以及新开发的更专业的 AI 架构(如 GyberDemo、H2O 等)。
随着这些模型架构逐渐验证成功,它们将逐步进入产业界,进一步推动 AI 模型架构进入新的黄金时期。
1)在原 Transformer 架构基础上进行微调的架构。华为诺亚方舟实验室和北京大学提出的 PanGuπ 模型架构,作为一种全新的 LLM 架构,专门设计用于解决特征坍塌问题。该架构在自然语言处理任务中,相较于以往的大模型架构,在准确性和效率方面均表现更为出色,有望进一步提升大模型在智能助手等知识问答领域的表现效果。
2)基于RNN 思想优化的架构。2023 年 6 月,研究者 AlbertGu 提出了 Mamba 模型架构,这是一种新型的选择性状态空间模型架构。Mamba 架构可以选择性地关注或忽略输入,实现在序列长度上的线性扩展。它从某种意义上模仿了人脑处理信息的方式,像是在阅读过程中暂存信息,读完一个文档后,可能能够回答与文档相关的问题,无需再次查阅该文档。因参数的线性增长,这种模型架构可以在训练和应用中节省更多成本。
3)基于 CNN 思想优化的架构。2023 年 12 月,TogetherAI发布了一种新型模型架构 StripedHyena。该模型架构采用了独特的混合结构,在训练、微调和生成长序列过程中展示了更高的处理效率、更快的速度和更高的内存效率。此外,腾讯与香港中文大学共同发布了大模型基础架构 UniRepLKNet。该架构采用了 CNN,能够处理包括图像、音频、时间序列预测等在内的多模态数据,有望进一步提升大模型在图像识别等领域的表现效果。
4)Transformer 和 RNN、CNN 结合的混合架构。2023 年 7月,微软研究院提出了一种新型自回归基础架构,名为 RetNet。
该架构在某种程度上借鉴了 Transformer 的设计思想,引入了一种名为“多尺度保留”(Multi-Scale Retention,MSR)的机制以替代传统 Transformer 中的多头注意力机制,显著提升了训练效率并简化了推断过程。此外,香港大学物理系的彭博首次提出的RWKV 模型结合了 Transformer 的高效并行训练与 RNN 的高效推理机制。
5)新开发的更专业的 AI 架构。2024 年 3 月 7 日,加利福尼亚大学的研究人员推出一种名为 CyberDemo 的新型人工智能架构。该架构通过视觉观察支持机器人的模仿学习,减少对物理硬件的依赖,使得远程和并行数据收集变得可能。
此外,2024 年3 月 11 日,卡内基梅隆大学开发的 H2O 架构,通过强化学习实现了人对人形机器人的实时全身遥控操作。该架构使人形机器人能够在仅使用 RGB 摄像头的条件下,模仿并实时执行各种运动,如行走、后空翻、踢球、转身、挥手、推动和拳击等。为达到这一技术突破,研究团队提出了一种可扩展的“从模拟到实际”的处理流程,创建了大规模人类运动数据集,为人形机器人提供了实时全身遥控操作的训练样本。

2.2.2 多模态和跨模态:更好地理解现实世界的多样化



新一代大模型正呈现出多模态和跨模态的发展趋势。这主要是因为现实世界中的信息通常是多样化的,因此需要能够处理多模态和跨模态数据的模型,以便更好地理解和分析这些数据。
OpenAI 在其多模态模型 GPT-4V 的系统简介中提到:将其他数据类型(比如图像数据)融入大型语言模型,是 AI 研究与发展的新方向。此外,Sora 文生视频工具一经亮相,即引发热烈讨论,并被认为是大模型领域的一个重要突破。
1)多模态大模型能够处理并整合不同类型数据。利用来自不同感官或交互方式的数据进行学习的方法,已经不再限于处理传统的自然数据,例如文字、图像和视频。它能够处理来自各种传感器的信息,包括激光雷达点云数据、3D 红外成像结构信息、4D 毫米波雷达时空信息,以及各种生物领域的数据类型,如蛋白质、细胞、基因和脑电等。这些能力使得多模态大模型能更全面地理解和处理复杂的信息,从而提高模型的表达能力、扩大应用范围。
多模态大模型具有 4 个显著特性。
●数据融合:将来自不同模态的数据结合在一起,以创建一个综合的数据表示。
●信息互补:不同模态的数据可以互相补充,提供一个更全面的视角。例如,文本可以提供图像中缺失的上下文信息。
●复杂交互处理:在情感分析或语义理解时,多模态模型能够提供更丰富的信息。
●应对不完整或不准确的数据:某个模态的数据存在问题,其他模态的数据也可以提供有用的信息,从而降低整体误差。
2)数据量增大和算力提升推动多模态大模型快速发展。
模态学习起源于 20 世纪 90 年代,彼时计算机视觉与自然语言处理技术已开始发展。然而,直到 21 世纪初,多模态学习才真正引起广泛关注。这主要是因为随着数据量的增大和计算能力的提升,AI 系统能够处理更多种类的数据,并利用这些数据来提升性能。
当前,多模态大模型主要应用场景如下。
●健康医疗:在医疗诊断中,通过结合医学影像(如 X 光片、MRI 扫描)和病人的文本医疗记录来提高疾病诊断的准确性和效率。
●情感分析:通过分析文本、语音语调和面部表情的组合,可以更准确地识别和分析人们的情感和态度。
●自动驾驶:结合摄像头、雷达、文本(如交通标志解读)等多种模态的数据来做决策。
3)跨模态大模型可以在不同模态(如视觉、听觉、触觉等)之间进行信息融合和理解。这种方法涉及从一个模态(例如文本)提取信息,并利用这些信息来理解或增强另一个模态(例如图像或声音)的内容。跨模态的核心在于探索和利用不同模态之间的相关性和互补性。
跨模态具有 4 个显著特性。
●输入和输出的数据形式不同:能够将一个模态的信息转换为另一个模态的信息,例如从文本信息转换为图像信息或从图像信息转换为文本信息。
●联合特征提取:从多个模态中提取并结合特征,以实现更有效的数据分析和理解。
●跨模态关联:识别和利用不同模态数据之间的内在联系,如图像内容与相应文本描述之间的关系。
●处理非对称数据:在某些情况下,一个模态的数据可能比另一个模态的数据更丰富或详细。跨模态学习可以处理这种非对称数据,优化信息的使用和理解。
4)跨模态技术可以提高模型的性能和泛化能力。大模型能更好地理解和处理复杂数据是一个未来的理想状态。在这种状态下,大模型将具备跨模态的泛化理解和生成能力,更符合人类对世界的感知方式,有可能进一步拓展 AI 的能力上限。跨模态大模型主要应用场景包括:图像与文本的互转,即模型能够通过学习从图像生成描述性文本;相反,也能从文本生成对应的图像。
视频内容的理解与生成,即模型能从视频中提取信息,并生成文本描述,如视频摘要;或根据文本描述生成对应的视频片段。例如,2024 年 OpenAI 推出的视频生成模型 Sora,可以根据简短的文字提示转化为长达 1min 的高清视频,这正在颠覆并重塑人们的生活娱乐方式。智能助手与交互系统,即模型可以通过理解用户的语音指令提供视觉反馈,或通过分析用户的表情和手势来理解其意图。
目前,多模态、跨模态是大模型发展的趋势。
各大机构争相推出多种新型多模态、跨模态大模型。最新研究表明,未来这些模型将会变得更丰富、更智能和更高效,具体趋势如下。
●融合更丰富的数据类型。目前主流的模态主要包括图像、视频、音频和文本等。现实世界中,更多模态的信息更加多样化,如网页、热图等。例如,Meta 提出的 ImageBind模型具有模拟人类大脑感知并关联多模态数据的能力,这个模型集成了文本、音频、视觉、运动、温度、深度 6 种模式的数据流。
●更智能的响应系统。目前的大模型虽能完成很多任务,但在对话和按指令执行方面还有提升空间。多模态大模型需面对理解复杂指令、维持连贯对话以达成更高层次的任务目标等挑战,而不仅仅是执行简单操作。例如,Salesforce 追求构建一个结合视觉与语言的全能模型,于2023 年 5 月发布了 InstructBLIP 大模型。
●进一步优化多模态大模型架构。许多研究者正在寻找优化方案,以减少多模态大模型的算力资源消耗。例如,通过使用较少的基础训练资源,更高效地启动多模态系统,将大规模语言模型(LLM)作为多模态大模型的先验知识和认知提升推动力,从而加强多模态模型的性能并降低计算开销。

2.2.3 智能体:拥有自主解决问题的能力



智能体是大模型应用发展的重要方向,其目标是实现自主规划任务、开发代码、调动工具以及优化路径等功能。这些功能使得大模型能在实际问题处理上表现得更加全面和主动。Octane AI的首席执行官及联合创始人 Matt Schlicht 将其定义为“由 AI 赋能的程序,当给定一个目标时,它们能够自行创建任务、完成任务、创建新的任务、重新确定任务列表的优先级、完成新的首要任务,并不断重复这个过程,直到达成目标”。

2.2.4 具身智能:让大模型走进物理世界



具身智能作为大模型技术发展的一个热门方向,正在逐渐从理论走向实践,从实验室转移到现实世界。该领域的核心是将智能系统与物理实体结合,通过感知、认知和交互来理解并影响周围环境,例如机器人或其他自动化系统。这类技术的发展使得大模型技术不仅仅局限于虚拟世界,而且能够与真实世界的物理环境和物体直接交互。依托于大模型强大的数据处理和分析能力,这将带来一个更加智能化、互动化的未来。

2.2.5 生物智能:推动硅基和碳基生命的融合



生物智能是一个跨学科的研究领域,结合了生物学、计算机科学、认知科学等多个学科的知识和方法。它有望推动硅基生命和碳基生命的融合,为人工智能的发展提供新思路。通过模拟生物神经网络的结构和功能,大型模型能够更深入地理解和学习生物智能的机理,实现更高级别的智能行为。这有助于推动 AI 朝着更自然、更高效、更智能的方向发展。
以生物神经网络为例,研究者通过模仿生物大脑中神经元之间的连接和通信方式,构建出具有强大学习和推理能力的神经网络模型。
例如,模型正则化优化技术 Dropout 受神经动力学内在随机性的启发;注意力机制与神经网络的结合受人类注意力系统启发,这种结合能训练神经网络动态地关注或忽视输入的不同方面,进而进行有效的决策计算;遗传算法受生物进化论的启发,智能算法系列(如蚁群算法、鱼群算法)受生物群体行为和集体智慧现象的启发。



赠书福利


福利时间到啦!

我们会给 3 位幸运读者包邮赠送这本《一本书读懂大模型》 :

参与方式:

关注本公众号,推文转发朋友圈。我将选取 点赞数量 前三名的读者朋友赠送本书(可以找朋友来点赞哦)。如出现 点赞数 相同的情况,按照时间顺序来判断。 发送点赞截图到 latexstudio@qq.com



兑奖时间2025 年 1 月 20 日 20 时 截止


点击👇LaTeX工作室” 关注公众号
从 LaTeX 开始即刻享受科研精致美好生活
 关注公众号回复1进本硕博脱单群

成为 LaTeX 会员,尽享精致科研!

开通 LaTeX VIP 地址:

https://www.latexstudio.net/index/recharge/choice.html

LaTeX工作室
精致科研生活从 LaTeX 开始! 模版定制 | 培训 | 排版 | 答疑 加VX:t314159265
 最新文章