AI时代必备:《大规模语言模型:从理论到实践(第2版)》重磅升级,全面解读LLM前沿技术与应用
AI时代必备:《大规模语言模型:从理论到实践(第2版)》重磅升级,全面解读LLM前沿技术与应用
未知变量《大规模语言模型:从理论到实践(第2版)》是一本兼顾理论深度与实践指导的专业技术书籍,堪称AI时代不可或缺的知识宝典。无论你的背景如何,都能从中找到适合自己的学习路径。
在人工智能浪潮席卷全球的当下,大型语言模型(LLM)正以惊人的速度推动着科技进步和产业变革。从 ChatGPT 到各种行业应用,LLM 不仅改变了人机交互方式,还成为了学术研究和产业创新的关键驱动力。
面对快速发展的大语言模型技术体系,如何系统地理解其理论基础,并掌握核心算法和工程实践,已成为每一位 AI 从业者、研究人员和高校学生的必修课。
2023年9月,复旦大学张奇、桂韬、郑锐、黄萱菁研究团队向全球发布了《大规模语言模型:从理论到实践》。 时隔两年,大语言模型在理论研究、预训练方法、后训练技术以及可解释性等方面取得了显著进展。业界对大语言模型的研究日益深入,逐渐发现了许多与传统深度学习和自然语言处理不同的特性。例如,大语言模型仅需少量数据(例如60条)即可展现出强大的问题回答能力,体现了其卓越的泛化能力。 然而,作者也发现大语言模型存在一定的脆弱性。例如,在一个拥有1300亿参数的模型中,仅仅修改一个参数,就可能导致模型完全失去生成有效信息的能力。
这些发现促使本书作者——复旦大学NLP团队的张奇、桂韬、郑锐、黄萱菁等老师对第1版进行了大幅修订和升级(新增内容超过40%),系统地整合了AI领域的最新研究成果和技术进展,旨在为广大读者提供更前沿、更实用的知识体系和工程实践指导。 无论你是渴望深入理解LLM原理的学者,还是希望将AI能力融入产品的工程师,亦或是对人工智能充满兴趣的学习者,本书都将为你提供系统、权威且极具实操价值的知识。
第二版核心升级
聚焦前沿技术
深度剖析MoE(混合专家模型)、强化学习、多模态、智能体、RAG(检索增强生成)、效率优化等技术趋势,紧跟AI最新发展。
重构知识体系
覆盖预训练、微调、强化学习、应用开发、效率优化等全流程,体系更加完善,逻辑更清晰。
提升实践价值
新增超过40%的前沿研究成果与技术案例,增设工程实践指南与评估体系模块,助力理论落地。
扩展章节内容
新增多模态大语言模型、智能体、RAG、大模型效率优化等实用章节,并对指令微调和强化学习部分进行了大幅修改。
本书架构
本书围绕 LLM 理论基础、预训练、指令理解、大模型增强、大模型应用 五大部分展开。
第 1 部分:大语言模型的基础理论。 包括语言模型的定义、Transformer 结构、大语言模型框架、混合专家模型等内容,并以 LLaMA 使用的模型结构为例介绍代码实例。
第 2 部分:大语言模型的预训练。 介绍大语言模型预训练数据和分布式训练,包括预训练所需的数据分布和数据预处理方法。 此外,还介绍模型分布式训练中需要掌握的数据并行、流水线并行、张量并行及 ZeRO 系列优化方法,并以 DeepSpeed 为例介绍如何进行大语言模型预训练。
第 3 部分:大语言模型如何理解并服从人类指令。 主要介绍指令微调和强化学习,重点介绍模型微调技术、指令微调数据的构造策略,以及高效微调方法,如 LoRA、Delta Tuning 等。 强化学习章节重点讲解其基础理论、策略梯度方法(REINFORCE 算法、广义优势估计、PPO 算法、PLOO 算法、GRPO 算法),推理模型的强化学习(以 DeepSeek-R1 和 Kimi k1.5 为例),RLHF 等,并结合实际案例,以 DeepSpeed-Chat 和 verl 框架为例,详细说明如何训练类 ChatGPT 系统。
第 4 部分:提升大语言模型的能力。 详细探讨多模态大语言模型、大模型智能体和检索增强生成。 多模态大语言模型章节重点介绍其基础理论、架构设计与训练策略,并探讨其在实际场景中的应用实践。 智能体章节聚焦其发展历程与大语言模型智能体的架构设计,深入分析智能体的实现原理,并以 LangChain 和 Coze 为例详细阐述具体实践。 RAG 章节介绍其核心思想与实现方式,涵盖检索增强框架的设计、检索模块与生成模块的协作机制,以及其在具体任务场景中的应用方法与实践。
第 5 部分:如何应用大语言模型。 讨论大语言模型效率优化、大语言模型评估,以及大语言模型典型应用的开发与部署。 效率优化章节重点介绍模型压缩与优化、训练效率优化和推理效率优化等提升模型效率的关键技术。 大语言模型评估章节探讨其基本概念和难点,阐述评估体系的构建、评估方法的设计及实际评估的实施。 大语言模型应用章节介绍典型的大语言模型应用场景,详细介绍其开发流程、开发工具及本地部署的实践方法。
新增章节亮点
多模态大语言模型:介绍典型架构及其与 LLM 的融合方法、多模态训练策略。
大模型智能体:剖析涵盖感知、规划、记忆机制及工具调用能力的核心架构,训练与实践方法。
检索增强生成(RAG):解析系统设计模式、训练优化策略、评估体系全流程。
大模型效率优化:围绕模型压缩、低精度训练、高效推理框架(如 vLLM)等全链路技术实践展开。
大语言模型基础:新增混合专家模型(MoE)相关内容。
强化学习:新增对“The Bitter Lesson”的理解、长思维链、推理模型的强化学习等内容。
作者团队简介
本书作者团队由来自复旦大学的张奇、桂韬、郑锐、黄萱菁等多位人工智能领域的杰出学者组成。该团队长期专注于自然语言处理、大规模预训练模型、智能体、多模态学习等前沿方向,拥有丰富的理论研究和工程实践经验。
张奇,复旦大学计算机科学技术学院教授、博士生导师。兼任上海市智能信息处理重点实验室副主任,中国中文信息学会理事、CCF 大模型论坛常务委员,CIPS 信息检索专委会常务委员、CIPS 大模型专委会委员。近年来在国际重要学术期刊和会议上发表论文 200 余篇。获得 WSDM 2014 最佳论文提名奖、COLING 2018 领域主席推荐奖、NLPCC 2019 杰出论文奖、COLING 2022 杰出论文奖。
桂韬,复旦大学副研究员。研究领域为预训练模型、类人对齐和智能体交互。在国际重要学术期刊和会议上发表论文 50 余篇,主持国家自然科学基金计算机学会和人工智能学会的多个人才项目。获得钱伟长中文信息处理科学技术一等奖、NeurIPS 2023 大模型对齐 Track 最佳论文奖,入选第七届「中国科协青年人才托举工程」、上海市启明星计划。
郑锐,博士毕业于复旦大学计算机科学技术学院,师从张奇教授。曾任字节跳动豆包大模型团队算法工程师,现就职于某前沿科技公司,研究方向为大模型对齐、复杂推理能力提升。获得 NeurIPS Workshop on Instruction Following 2024 最佳论文奖。在 ICLR、ICML、NeurIPS、ACL 等国际会议上发表多篇论文。
黄萱菁,复旦大学特聘教授、博士生导师。主要从事人工智能、自然语言处理和大语言模型研究。兼任中国计算机学会理事、自然语言处理专委会主任、中国中文信息学会理事、计算语言学学会亚太分会主席。在国际重要学术期刊和会议上发表论文 200 余篇,获优秀论文奖 8 项。获得钱伟长中文信息处理科学技术一等奖、上海市育才奖,以及人工智能全球女性学者、福布斯中国科技女性等多项荣誉。
专家点评
自《大规模语言模型:从理论到实践》首版问世以来,便受到了学术界与产业界的广泛关注。 此次全新升级的第二版,内容更加丰富、体系更加完善,得到了多位人工智能领域权威专家的高度认可(按姓氏拼音排序):
「随着 ChatGPT 的问世,大语言模型展现出巨大潜力,对人工智能发展产生了深远影响。面对这一迅速发展的技术,如何快速理解其理论并参与实践是我们必须要面对的挑战。本书在第 1 版的基础上增加了多模态、智能体、RAG 等章节,并对指令微调和强化学习部分进行了大幅修改,旨在帮助读者深入理解大语言模型的原理,提供实操指导,值得阅读。」
—— 柴洪峰 中国工程院院士
「本书深入解析了大语言模型的基本原理,分析了当前几种有代表性的大语言模型的学理特点,分享了作者在这一领域的实践经验。本书的出版恰逢其时,是学术界和产业界不可多得的读物,将助力读者进一步探索和应用大语言模型。」
—— 蒋昌俊 中国工程院院士
「本书全面解析了大语言模型的发展历程、理论基础与实践方法,对大语言模型预训练、指令微调、强化学习、多模态、智能体、RAG 等前沿领域的研究进展有较好的覆盖。此外,本书深入探讨了大语言模型的实际应用场景与评价方法,为研究者提供了系统的理论指导与实践经验。相信本书对从事相关研究的学者和大语言模型开发者具有重要的参考价值。」
—— 周伯文 上海人工智能实验室主任、首席科学家、清华大学惠妍讲席教授
《大规模语言模型:从理论到实践(第 2 版)》的出版上市,希望可以让读者快速掌握大语言模型的研究与应用,更好地应对相关技术挑战,为推动这一领域的进步贡献力量。





