注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)操作系統(tǒng)從零構(gòu)建大模型:算法、訓練與微調(diào)

從零構(gòu)建大模型:算法、訓練與微調(diào)

從零構(gòu)建大模型:算法、訓練與微調(diào)

定 價:¥99.00

作 者: 梁楠
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302685616 出版時間: 2025-04-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  《從零構(gòu)建大模型:算法、訓練與微調(diào)》是一本系統(tǒng)且實用的大模型構(gòu)建指南,旨在引領(lǐng)讀者從基礎(chǔ)知識起步,逐步深入探索大模型的算法原理、訓練方法及微調(diào)技術(shù)?!稄牧銟?gòu)建大模型:算法、訓練與微調(diào)》共12章,涵蓋了Transformer模型的基礎(chǔ)理論,如Seq2Seq模型、分詞、嵌入層和自注意力機制等關(guān)鍵概念;并深入剖析了GPT模型的核心實現(xiàn)與文本生成過程,以及BERT模型的預(yù)訓練和微調(diào)技術(shù)。同時,也對ViT(視覺Transformer)模型的架構(gòu)、訓練方法,以及高階微調(diào)策略如Adapter Tuning和P-Tuning進行了詳盡講解。此外,還系統(tǒng)地介紹了數(shù)據(jù)處理、數(shù)據(jù)增強、模型性能優(yōu)化(包括混合精度訓練和分布式訓練)、對比學習、對抗訓練、自適應(yīng)優(yōu)化器、動態(tài)學習率調(diào)度,以及模型蒸餾與剪枝技術(shù)等多個方面。最后,通過應(yīng)用案例,展示了模型訓練和微調(diào)的完整流程,助力讀者將理論知識轉(zhuǎn)化為實踐技能。全書注重理論與實踐的結(jié)合,適合希望系統(tǒng)掌握大模型構(gòu)建、訓練和優(yōu)化的研發(fā)人員、高校學生,也適合對自然語言處理、計算機視覺等領(lǐng)域的大模型開發(fā)有興趣的讀者。還可作為培訓機構(gòu)和高校相關(guān)課程的教學用書。

作者簡介

  梁楠,博士,畢業(yè)于北京航空航天大學,高級職稱,長期從事模式識別、機器學習、統(tǒng)計理論的研究與應(yīng)用,負責或參與科研項目多項,專注于人工智能、大語言模型的應(yīng)用與開發(fā),對深度學習、數(shù)據(jù)分析與預(yù)測等有獨到見解。

圖書目錄

引言 1
一、大模型技術(shù)的發(fā)展歷史 1
1. 基于規(guī)則和統(tǒng)計學習的早期階段 1
2. 神經(jīng)網(wǎng)絡(luò)與深度學習的崛起 2
3. Transformer的誕生與自注意力機制的崛起 2
4. 預(yù)訓練模型的興起:BERT、GPT和T5 2
5. 超大規(guī)模模型與多模態(tài)應(yīng)用 3
二、開發(fā)環(huán)境配置基礎(chǔ) 3
1. 硬件配置要求 3
2. 軟件依賴與環(huán)境搭建 4
3. 常見問題與解決方案 5
第 1 章  Transformer模型基礎(chǔ) 6
1.1  Seq2Seq模型 6
1.1.1  編碼器-解碼器工作原理 7
1.1.2  Seq2Seq結(jié)構(gòu)實現(xiàn) 7
1.2  分詞與嵌入層 11
1.2.1  分詞器:將文本轉(zhuǎn)換為嵌入向量 11
1.2.2  PyTorch實現(xiàn)嵌入層(將分詞后的結(jié)果輸入模型) 11
1.3  自注意力與多頭注意力機制 15
1.3.1  自注意力機制計算過程(QKV矩陣生成和點積運算) 15
1.3.2  多頭注意力機制與Transformer 18
1.4  殘差連接與層歸一化 22
1.4.1  殘差連接層的實現(xiàn) 22
1.4.2  層歸一化與訓練穩(wěn)定性 25
1.5  位置編碼器 28
1.5.1  位置編碼的計算與實現(xiàn) 28
1.5.2  位置編碼在無序文本數(shù)據(jù)中的作用 30
1.6  本章小結(jié) 35
1.7  思考題 35
第 2 章  GPT模型文本生成核心原理與實現(xiàn) 37
2.1  GPT-2核心模塊 37
2.1.1  層堆疊 37
2.1.2  GPT-2中的注意力機制 41
2.2  GPT模型的文本生成過程 44
2.2.1  詳解GPT-2文本生成過程 44
2.2.2  Greedy Search和Beam Search算法的實現(xiàn)與對比 47
2.3  模型效果評估與調(diào)優(yōu) 51
2.3.1  模型常見評估方法 51
2.3.2  基于困惑度的評估過程 56
2.4  本章小結(jié) 60
2.5  思考題 60
第 3 章  BERT模型核心實現(xiàn)與預(yù)訓練 62
3.1  BERT模型的核心實現(xiàn) 62
3.1.1  編碼器堆疊 62
3.1.2  BERT的自注意力機制與掩碼任務(wù) 67
3.2  預(yù)訓練任務(wù):掩碼語言模型(MLM) 71
3.2.1  MLM任務(wù)實現(xiàn)過程 71
3.2.2  如何對輸入數(shù)據(jù)進行隨機遮掩并預(yù)測 72
3.3  BERT模型的微調(diào)與分類任務(wù)應(yīng)用 77
3.4  本章小結(jié) 81
3.5  思考題 81
第 4 章  ViT模型 83
4.1  圖像分塊與嵌入 83
4.2  ViT模型的核心架構(gòu)實現(xiàn) 89
4.2.1  ViT模型的基礎(chǔ)結(jié)構(gòu) 89
4.2.2  自注意力和多頭注意力在圖像處理中的應(yīng)用 91
4.3  訓練與評估ViT模型 96
4.4  ViT模型與注意力嚴格量化分析 100
4.5  本章小結(jié) 105
4.6  思考題 105
第 5 章  高階微調(diào)策略:Adapter Tuning與P-Tuning 107
5.1  Adapter Tuning的實現(xiàn) 107
5.2  LoRA Tuning實現(xiàn) 111
5.3  Prompt Tuning與P-Tuning的應(yīng)用 114
5.3.1  Prompt Tuning 114
5.3.2  P-Tuning 117
5.3.3  Prompt Tuning和P-Tuning組合微調(diào) 120
5.3.4  長文本情感分類模型的微調(diào)與驗證 122
5.4  本章小結(jié) 125
5.5  思考題 125
第 6 章  數(shù)據(jù)處理與數(shù)據(jù)增強 127
6.1  數(shù)據(jù)預(yù)處理與清洗 127
6.1.1  文本數(shù)據(jù)預(yù)處理 127
6.1.2  文本數(shù)據(jù)清洗 130
6.2  文本數(shù)據(jù)增強 133
6.2.1  同義詞替換 133
6.2.2  隨機插入 135
6.2.3  其他類型的文本數(shù)據(jù)增強方法 137
6.3  分詞與嵌入層的應(yīng)用 139
6.3.1  深度理解分詞技術(shù) 140
6.3.2  嵌入向量的生成與優(yōu)化 142
6.3.3  文本預(yù)處理與數(shù)據(jù)增強綜合案例 144
6.4  本章小結(jié) 146
6.5  思考題 147
第 7 章  模型性能優(yōu)化:混合精度訓練與分布式訓練 148
7.1  混合精度訓練的實現(xiàn) 148
7.2  多GPU并行與分布式訓練的實現(xiàn) 150
7.2.1  分布式訓練流程與常規(guī)配置方案 150
7.2.2  Data Parallel方案 152
7.2.3  Model Parallel方案 154
7.3  梯度累積的實現(xiàn) 157
7.3.1  梯度累積初步實現(xiàn) 157
7.3.2  小批量訓練中的梯度累積 159
7.3.3  梯度累積處理文本分類任務(wù) 161
7.4  本章小結(jié) 164
7.5  思考題 165
第 8 章  對比學習與對抗訓練 166
8.1  對比學習 166
8.1.1  構(gòu)建正負樣本對及損失函數(shù) 166
8.1.2  SimCLR的實現(xiàn)與初步應(yīng)用 171
8.2  基于對比學習的預(yù)訓練與微調(diào) 174
8.2.1  通過對比學習進行自監(jiān)督預(yù)訓練 175
8.2.2  對比學習在分類、聚類等任務(wù)中的表現(xiàn) 180
8.3  生成式對抗網(wǎng)絡(luò)的實現(xiàn)與優(yōu)化 183
8.4  對抗訓練在大模型中的應(yīng)用 188
8.5  本章小結(jié) 192
8.6  思考題 192
第 9 章  自適應(yīng)優(yōu)化器與動態(tài)學習率調(diào)度 194
9.1  AdamW優(yōu)化器與LAMB優(yōu)化器的實現(xiàn) 194
9.1.1  AdamW優(yōu)化器 194
9.1.2  LAMB優(yōu)化器 197
9.2  基于梯度累積的優(yōu)化技巧 200
9.2.1  大批量內(nèi)存受限環(huán)境 200
9.2.2  梯度累積的應(yīng)用場景和參數(shù)調(diào)整對訓練效果的影響 203
9.3  動態(tài)學習率調(diào)度 205
9.3.1  線性衰減 205
9.3.2  余弦退火 207
9.4  Warmup與循環(huán)學習率調(diào)度 209
9.4.1  Warmup策略實現(xiàn) 209
9.4.2  循環(huán)學習率調(diào)度 211
9.4.3  其他幾種常見的動態(tài)學習調(diào)度器 214
9.5  本章小結(jié) 217
9.6  思考題 218
第 10 章  模型蒸餾與剪枝 219
10.1  知識蒸餾:教師-學生模型 219
10.1.1  知識蒸餾核心過程 219
10.1.2  教師-學生模型 221
10.1.3  蒸餾損失 224
10.2  知識蒸餾在文本模型中的應(yīng)用 226
10.2.1  知識蒸餾在文本分類模型中的應(yīng)用 226
10.2.2  模型蒸餾效率分析 229
10.2.3  文本情感分析任務(wù)中的知識蒸餾效率對比 231
10.3  模型剪枝技術(shù) 234
10.3.1  權(quán)重剪枝 234
10.3.2  結(jié)構(gòu)化剪枝 237
10.3.3  在嵌入式設(shè)備上部署手寫數(shù)字識別模型 240
10.3.4  BERT模型的多頭注意力剪枝 243
10.4  本章小結(jié) 247
10.5  思考題 248
第 11 章  模型訓練實戰(zhàn) 249
11.1  數(shù)據(jù)預(yù)處理與Tokenization細節(jié) 249
11.1.1  大規(guī)模文本數(shù)據(jù)清洗 249
11.1.2  常用分詞器的使用 252
11.2  大規(guī)模預(yù)訓練模型的設(shè)置與啟動 255
11.3  預(yù)訓練過程中的監(jiān)控與中間結(jié)果保存 258
11.4  訓練中斷與恢復(fù)機制 262
11.5  綜合案例:IMDB文本分類訓練全流程 265
11.5.1  數(shù)據(jù)預(yù)處理與Tokenization 265
11.5.2  多GPU與分布式訓練設(shè)置 266
11.5.3  訓練過程中的監(jiān)控與中間結(jié)果保存 266
11.5.4  訓練中斷與恢復(fù) 267
11.5.5  測試模型性能 268
11.6  本章小結(jié) 269
11.7  思考題 270
第 12 章  模型微調(diào)實戰(zhàn) 271
12.1  微調(diào)數(shù)據(jù)集的選擇與準備 271
12.1.1  數(shù)據(jù)集準備與清洗 271
12.1.2  數(shù)據(jù)集分割 272
12.1.3  數(shù)據(jù)增強 272
12.2  層級凍結(jié)與部分解凍策略 274
12.3  模型參數(shù)調(diào)整與優(yōu)化技巧 276
12.4  微調(diào)后的模型評估與推理優(yōu)化 278
12.5  綜合微調(diào)應(yīng)用案例 280
12.6  本章小結(jié) 283
12.7  思考題 283

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號