好书推荐 - 《大规模语言模型:从理论到实践》

文摘   科技   2024-08-16 14:32   湖北  
《大规模语言模型:从理论到实践》是一本由复旦大学计算机科学技术学院张奇教授领衔的团队编写的书籍,该书于2024年1月由电子工业出版社出版。这本书不仅基于作者团队在自然语言处理领域的深厚研究经验,还融合了分布式系统和并行计算的教学经验,旨在帮助读者深入理解大语言模型的原理,并提供实际操作的指导和案例。

限时五折优惠,快快抢购吧!

一、本书推荐理由

大语言模型构建的四个主要阶段:系统性讲解了大语言模型构建的四个主要阶段——预训练、有监督微调、奖励建模和强化学习。

本书详细介绍了每个阶段使用的关键算法、必要的数据处理方法、面临的挑战以及实践中的经验分享。

  • 预训练阶段:介绍了如何利用包含数千亿甚至数万亿单词的训练数据,并借助超级计算机进行深度神经网络参数的训练。同时,探讨了如何构建训练数据以及高效地进行分布式训练。

  • 有监督微调阶段:讲解了如何利用少量高质量的数据集,通过提示学习和语境学习等方法,将语言模型转变为对话模型。这一阶段的难点在于如何构建训练数据及其内部关系。

  • 奖励建模和强化学习阶段:介绍了如何根据用户提示词,利用奖励模型评估模型补全结果的质量,并通过强化学习进一步优化模型性能。该阶段需要解决强化学习方法稳定性不高、超参数众多及模型收敛困难等问题。

时五折优惠,快快抢购吧!

强有力的专家团队:作者团队由复旦大学计算机科学技术学院的教授、博士生及科研人员组成,他们在自然语言处理、信息检索及人工智能领域具有丰富的研究经验。团队成员多次担任国际、国内重要会议的程序委员会主席、领域主席等职务,并在国际重要学术刊物和会议上发表了大量论文。

二、本书主要内容

本书围绕大语言模型构建的四个主要阶段——预训练、有监督微调、奖励建模和强化学习展开,详细介绍各阶段使用的算法、数据、难点及实践经验
预训练阶段需要利用包含数千亿甚至数万亿单词的训练数据,并借助由数千块高性能GPU 和高速网络组成的超级计算机,花费数十天完成深度神经网络参数的训练。这一阶段的难点在于如何构建训练数据,以及如何高效地进行分布式训练。
有监督微调阶段利用少量高质量的数据集,其中包含用户输入的提示词和对应的理想输出结果。提示词可以是问题、闲聊对话、任务指令等多种形式和任务。这个阶段是从语言模型向对话模型转变的关键,其核心难点在于如何构建训练数据,包括训练数据内部多个任务之间的关系、训练数据与预训练之间的关系及训练数据的规模。
奖励建模阶段的目标是构建一个文本质量对比模型,用于对有监督微调模型对于同一个提示词给出的多个不同输出结果进行质量排序。这一阶段的难点在于如何限定奖励模型的应用范围及如何构建训练数据。
强化学习阶段,根据数十万提示词,利用前一阶段训练的奖励模型,对有监督微调模型对用户提示词补全结果的质量进行评估,与语言模型建模目标综合得到更好的效果。这一阶段的难点在于解决强化学习方法稳定性不高、超参数众多及模型收敛困难等问题。
除了大语言模型的构建,本书还介绍了大语言模型的应用和评估方法,主要内容包括如何将大语言模型与外部工具和知识源进行连接、如何利用大语言模型进行自动规划,完成复杂任务,以及针对大语言模型的各类评估方法。

三、本书名家寄语

2022年11月ChatGPT的出现,开启了大规模语言模型的新时代。面对人工智能(AI)大模型引发的广泛讨论,如何在日新月异的科技创新环境中赢得主动、在关键领域取得创新突破,是时代给予教育的新命题。这不仅关系到人才培养,也关系到未来的国际竞争。高校有责任在“AI时代”为科学理念的普及、科学应用的拓展、科学伦理的探讨发挥引领和导向作用,使得更多群体、更多领域共享“AI 时代”的红利。
《大规模语言模型:从理论到实践》的作者对自然语言处理和大语言模型方法开展了广泛而深入的研究,该书及时地对大语言模型的理论基础和实践经验进行了介绍,可以为广大研究人员、学生和算法研究员提供很好的入门指南。
——金力  中国科学院院士,复旦大学校长

大规模语言模型的成功研发和应用,帮助人类开启了通用人工智能时代的大门。
《大规模语言模型:从理论到实践》是张奇教授等几位作者的倾心之作,作者以深厚的学术造诣和丰富的实践经验,为我们揭示了大规模语言模型的基础理论、技术演进、训练方法和实践应用。
本书不仅为读者提供了翔实的技术细节,更展示了作者对人工智能领域的严谨理解。对于从事自然语言处理、深度学习等领域的研究者和工程师来说,本书无疑是进入大规模语言模型领域的案头参考书。
——王小川  百川智能创始人兼CEO

我始终相信,大规模语言模型带来了一场新的科技革命,这场革命会逐渐渗透到整个社会的方方面面,带来极其深远的影响。了解、理解直至掌握大规模语言模型技术,对于众多技术从业者而言迫在眉睫。

出自复旦大学自然语言处理团队的这本书的出版适逢其时,作者团队堪称豪华,在学术界也一直以严谨著称。

这本书不仅介绍了大规模语言模型的基本概念和原理,还提供了大量的工程实践方法和示例代码。无论是初学者还是经验丰富的从业者,都会从中受益。这本书,你值得拥有!
——王斌  小米集团AI 实验室主任、自然语言处理首席科学家
《大规模语言模型:从理论到实践》一书深入阐述了大规模语言模型的演变历程、理论基础及开发实践。
本书聚焦大规模语言模型构建的核心技术,包括语言模型预训练、指令微调和强化学习,并细致地介绍了每个阶段所使用的算法、数据来源、面临的难题及实践经验。
此外,本书探讨了大规模语言模型的应用领域和评价方法,为对大规模语言模型研究感兴趣的研究者提供了理论支持和实践指导。不仅如此,对于希望将大规模语言模型应用于实际问题解决的研发人员来说,本书同样具有重要的参考价值。特此力荐!
——范建平  联想集团副总裁、联想研究院人工智能实验室负责人
大规模语言模型是技术发展最快的研究和产业方向,没有之一。然而,很多人仅知其然不知其所以然,很多学生也没有深入研究大规模语言模型的实践机会。
本书作者结合自己在自然语言处理领域多年的研究经验、近300篇相关论文深度研读感悟,特别是作者团队从零开始研发复旦大学大规模语言模型过程中经历的切身实践经验,最终形成本书,为读者展示了大规模语言模型训练的全流程细节,同时深入浅出地解释了设计每一步的原理和效用,值得所有具备科学精神、想搞清楚大规模语言模型到底是怎么训出来的投资人、管理者认真阅读,更值得所有想从事或刚从事大规模语言模型研究和改进的研究人员深度阅读。
——胡国平  科大讯飞高级副总裁,认知智能全国重点实验室主任

架构师带你玩转AI
分享人工智能,让所有人玩转AI
 最新文章