注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)操作系統(tǒng)Transformer深度解析與NLP應(yīng)用開(kāi)發(fā)

Transformer深度解析與NLP應(yīng)用開(kāi)發(fā)

Transformer深度解析與NLP應(yīng)用開(kāi)發(fā)

定 價(jià):¥119.00

作 者: 梁志遠(yuǎn)、韓曉晨
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787302685623 出版時(shí)間: 2025-04-01 包裝: 平裝-膠訂
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《Transformer深度解析與NLP應(yīng)用開(kāi)發(fā)》系統(tǒng)解析Transformer的核心原理,從理論到實(shí)踐,幫助讀者全面掌握其在語(yǔ)言模型中的應(yīng)用,并通過(guò)豐富案例剖析技術(shù)細(xì)節(jié)?!禩ransformer深度解析與NLP應(yīng)用開(kāi)發(fā)》共12章,內(nèi)容涵蓋Transformer模型的架構(gòu)原理、自注意力機(jī)制及其相對(duì)于傳統(tǒng)方法的優(yōu)勢(shì),并詳細(xì)剖析BERT、GPT等經(jīng)典衍生模型的應(yīng)用。書(shū)中圍繞數(shù)據(jù)預(yù)處理、文本分類、序列標(biāo)注、文本生成、多語(yǔ)言模型等核心任務(wù),結(jié)合遷移學(xué)習(xí)、微調(diào)與優(yōu)化技術(shù),展示Transformer在語(yǔ)義匹配、問(wèn)答系統(tǒng)和文本聚類等場(chǎng)景中的實(shí)際應(yīng)用。針對(duì)企業(yè)級(jí)開(kāi)發(fā)需求,還特別介紹了ONNX與TensorRT優(yōu)化推理性能的最佳實(shí)踐,為大規(guī)模數(shù)據(jù)處理及低資源部署提供了解決方案?!禩ransformer深度解析與NLP應(yīng)用開(kāi)發(fā)》兼具理論深度與實(shí)際應(yīng)用價(jià)值,內(nèi)容系統(tǒng),案例豐富,適合大模型及NLP研發(fā)人員、工程師、數(shù)據(jù)科學(xué)研究人員以及高校師生閱讀與參考。

作者簡(jiǎn)介

  梁志遠(yuǎn),博士,畢業(yè)于北京航空航天大學(xué)。長(zhǎng)期從事人工智能、大語(yǔ)言模型的開(kāi)發(fā),專注于深度學(xué)習(xí)、自然語(yǔ)言處理、數(shù)據(jù)分析與智能決策等領(lǐng)域。主持或參與多項(xiàng)科研項(xiàng)目,涵蓋模型訓(xùn)練優(yōu)化、知識(shí)蒸餾、自動(dòng)推理與多模態(tài)學(xué)習(xí)等方向。致力于推動(dòng)人工智能技術(shù)在工業(yè)應(yīng)用、智能交互與數(shù)據(jù)驅(qū)動(dòng)中的實(shí)踐與發(fā)展。韓曉晨,博士,長(zhǎng)期從事高性能計(jì)算與大模型訓(xùn)練算力優(yōu)化研究。近十年來(lái),專注于智能計(jì)算架構(gòu)優(yōu)化及大規(guī)模數(shù)據(jù)處理,深耕控制算法、機(jī)器視覺(jué)等領(lǐng)域。近年來(lái),重點(diǎn)研究大模型訓(xùn)練加速、算力調(diào)度與異構(gòu)計(jì)算優(yōu)化,致力于提升計(jì)算效率與資源利用率,推動(dòng)大規(guī)模人工智能模型的高效部署與應(yīng)用。

圖書(shū)目錄

引    言 1
一、從統(tǒng)計(jì)學(xué)習(xí)到Transformer崛起 1
二、開(kāi)發(fā)環(huán)境配置:構(gòu)建高效的Transformer開(kāi)發(fā)平臺(tái) 3
第1章  Transformer與自然語(yǔ)言處理概述 7
1.1  Transformer的基礎(chǔ)架構(gòu)與原理 7
1.1.1  多頭注意力機(jī)制的核心計(jì)算 8
1.1.2  位置編碼與網(wǎng)絡(luò)穩(wěn)定性的設(shè)計(jì) 11
1.2  深度學(xué)習(xí)經(jīng)典架構(gòu)CNN和RNN的局限性 15
1.2.1  CNN在自然語(yǔ)言處理中的應(yīng)用與局限 15
1.2.2  RNN架構(gòu)與長(zhǎng)序列建模問(wèn)題 17
1.3  自注意力機(jī)制 19
1.3.1  自注意力機(jī)制的矩陣計(jì)算原理 19
1.3.2  計(jì)算復(fù)雜度與信息保持 21
1.4  BERT雙向編碼器與GPT單向生成器 23
1.4.1  BERT架構(gòu)與雙向信息編碼 23
1.4.2  GPT架構(gòu)與單向生成能力 26
1.5  基于Transformer的遷移學(xué)習(xí) 27
1.5.1  遷移學(xué)習(xí)方法與特定任務(wù)適應(yīng)性 27
1.5.2  遷移學(xué)習(xí)的實(shí)際應(yīng)用與優(yōu)化策略 30
1.6  Hugging Face平臺(tái)開(kāi)發(fā)基礎(chǔ) 34
1.6.1  關(guān)于Hugging Face 35
1.6.2  環(huán)境準(zhǔn)備 35
1.6.3  快速上手:使用預(yù)訓(xùn)練模型 35
1.6.4  數(shù)據(jù)預(yù)處理與分詞 36
1.6.5  使用自定義數(shù)據(jù)集進(jìn)行推理 36
1.6.6  微調(diào)預(yù)訓(xùn)練模型 37
1.6.7  保存與加載模型 38
1.6.8  部署模型到Hugging Face Hub 39
1.7  本章小結(jié) 40
1.8  思考題 40
第2章  文本預(yù)處理與數(shù)據(jù)增強(qiáng) 41
2.1  文本數(shù)據(jù)清洗與標(biāo)準(zhǔn)化 41
2.1.1  正則表達(dá)式在文本清洗中的應(yīng)用 41
2.1.2  詞干提取與詞形還原技術(shù) 46
2.2  分詞與嵌入技術(shù) 48
2.2.1  n-gram分詞與BERT分詞原理 48
2.2.2  Word2Vec與BERT詞嵌入的動(dòng)態(tài)表示 50
2.3  字符級(jí)別與詞級(jí)別的嵌入方法 56
2.3.1  字符級(jí)嵌入模型的實(shí)現(xiàn)與優(yōu)勢(shì) 56
2.3.2  FastText在細(xì)粒度信息捕捉中的應(yīng)用 58
2.4  數(shù)據(jù)集格式與標(biāo)簽處理 63
2.4.1  JSON和CSV格式的數(shù)據(jù)讀取與處理 63
2.4.2  多標(biāo)簽分類的標(biāo)簽編碼與存儲(chǔ)優(yōu)化 68
2.5  數(shù)據(jù)增強(qiáng)方法 70
2.5.1  同義詞替換與句子反轉(zhuǎn)的增強(qiáng)策略 70
2.5.2  EDA方法在數(shù)據(jù)擴(kuò)充中的應(yīng)用 73
2.6  本章小結(jié) 77
2.7  思考題 77
第3章  基于Transformer的文本分類 79
3.1  傳統(tǒng)的規(guī)則與機(jī)器學(xué)習(xí)的文本分類對(duì)比 79
3.1.1  基于邏輯樹(shù)和正則表達(dá)式的關(guān)鍵詞分類 79
3.1.2  TF-IDF與詞嵌入在傳統(tǒng)分類算法中的應(yīng)用 81
3.2  BERT模型在文本分類中的應(yīng)用 83
3.2.1  BERT特征提取與分類頭的實(shí)現(xiàn) 83
3.2.2  BERT在二分類與多分類任務(wù)中的微調(diào) 86
3.3  數(shù)據(jù)集加載與預(yù)處理 88
3.3.1  使用Hugging Face datasets庫(kù)加載數(shù)據(jù)集 89
3.3.2  數(shù)據(jù)清洗與DataLoader的批處理優(yōu)化 90
3.4  文本分類中的微調(diào)技巧 92
3.4.1  學(xué)習(xí)率調(diào)度器與參數(shù)凍結(jié) 92
3.4.2  Warmup Scheduler與線性衰減 95
3.5  本章小結(jié) 98
3.6  思考題 99
第4章  依存句法與語(yǔ)義解析 100
4.1  依存句法的基本概念 100
4.1.1  依存關(guān)系術(shù)語(yǔ)解析:主謂賓結(jié)構(gòu)與修飾關(guān)系 100
4.1.2  使用SpaCy構(gòu)建依存關(guān)系樹(shù)與句法提取 102
4.2  基于Tree-LSTM的依存句法打分方法 104
4.2.1  Tree-LSTM處理依存樹(shù)結(jié)構(gòu)的實(shí)現(xiàn) 104
4.2.2  句法結(jié)構(gòu)的打分與信息傳遞機(jī)制 107
4.3  使用GNN實(shí)現(xiàn)依存關(guān)系 109
4.3.1  圖神經(jīng)網(wǎng)絡(luò)在依存結(jié)構(gòu)建模中的應(yīng)用 110
4.3.2  節(jié)點(diǎn)特征與邊權(quán)重的依存關(guān)系表示 112
4.4  Transformer在依存解析中的應(yīng)用 115
4.4.1  BERT上下文嵌入與GNN模型的結(jié)合 115
4.4.2  混合模型在依存關(guān)系建模中的應(yīng)用 117
4.5  依存句法與語(yǔ)義角色標(biāo)注的結(jié)合 118
4.5.1  語(yǔ)義角色標(biāo)注的定義與依存關(guān)系融合 119
4.5.2  使用AllenNLP實(shí)現(xiàn)句法結(jié)構(gòu)與語(yǔ)義角色標(biāo)注的結(jié)合 121
4.6  本章小結(jié) 123
4.7  思考題 124
第5章  序列標(biāo)注與命名實(shí)體識(shí)別 125
5.1  序列標(biāo)注任務(wù)與常用方法 125
5.1.1  BIO編碼與標(biāo)簽平滑技術(shù) 125
5.1.2  條件隨機(jī)場(chǎng)層的數(shù)學(xué)原理與實(shí)現(xiàn) 129
5.2  雙向LSTM與CRF的結(jié)合 131
5.2.1  雙向LSTM的結(jié)構(gòu)與工作原理 131
5.2.2  ELMo模型的上下文嵌入與序列標(biāo)注 133
5.3  BERT在命名實(shí)體識(shí)別中的應(yīng)用 134
5.3.1  BERT的CLS標(biāo)記與Token向量在NER中的作用 134
5.3.2  NER任務(wù)的微調(diào)流程與代碼實(shí)現(xiàn) 136
5.4  實(shí)體識(shí)別任務(wù)的模型評(píng)估 138
5.4.1  NER評(píng)估標(biāo)準(zhǔn):準(zhǔn)確率、召回率與F1分?jǐn)?shù) 138
5.4.2  各類實(shí)體的性能評(píng)估與代碼實(shí)現(xiàn) 140
5.5  結(jié)合Gazetteers與實(shí)體識(shí)別 141
5.5.1  領(lǐng)域特定詞典的構(gòu)建與應(yīng)用 141
5.5.2  結(jié)合詞典信息提升實(shí)體識(shí)別準(zhǔn)確性 144
5.6  本章小結(jié) 147
5.7  思考題 147
第6章  文本生成任務(wù)的Transformer實(shí)現(xiàn) 149
6.1  生成式文本任務(wù)的基本方法 149
6.1.1  n-gram模型與馬爾可夫假設(shè) 149
6.1.2  n-gram模型在長(zhǎng)文本生成中的局限性 150
6.2  優(yōu)化生成策略 152
6.2.1  Greedy Search與Beam Search算法 152
6.2.2  Top-K采樣與Top-P采樣 155
6.3  T5模型在文本摘要中的應(yīng)用 159
6.3.1  T5編碼器-解碼器架構(gòu)在文本摘要中的應(yīng)用 159
6.3.2  T5模型的任務(wù)指令化微調(diào)與應(yīng)用優(yōu)化 161
6.4  生成式Transformer模型的比較 164
6.4.1  GPT-2、T5和BART的架構(gòu)區(qū)別與生成任務(wù)適配 164
6.4.2  生成式模型在文本摘要和對(duì)話生成中的對(duì)比應(yīng)用 167
6.5  Transformer在對(duì)話生成中的應(yīng)用 169
6.5.1  對(duì)話生成模型的上下文保持與一致性 169
6.5.2  使用GPT-2與DialoGPT構(gòu)建多輪對(duì)話生成系統(tǒng) 172
6.6  文本生成的端到端實(shí)現(xiàn) 173
6.6.1  新聞?wù)蝿?wù)的文本生成流程 173
6.6.2  多種生成方式結(jié)合:提升生成質(zhì)量 175
6.7  本章小結(jié) 178
6.8  思考題 178
第7章  多語(yǔ)言模型與跨語(yǔ)言任務(wù) 180
7.1  多語(yǔ)言詞嵌入與對(duì)齊技術(shù) 180
7.1.1  對(duì)抗訓(xùn)練在詞嵌入對(duì)齊中的應(yīng)用 180
7.1.2  跨語(yǔ)言文本相似度計(jì)算的投影矩陣方法 183
7.2  XLM與XLM-R的實(shí)現(xiàn) 185
7.2.1  XLM與XLM-RoBERTa在多語(yǔ)言任務(wù)中的模型結(jié)構(gòu) 185
7.2.2  多語(yǔ)言文本分類與翻譯任務(wù)中的應(yīng)用實(shí)例 186
7.3  使用XLM-RoBERTa進(jìn)行多語(yǔ)言文本分類 188
7.3.1  XLM-RoBERTa的加載與微調(diào)流程 188
7.3.2  標(biāo)簽不均衡與語(yǔ)言分布不平衡的處理技巧 190
7.4  跨語(yǔ)言模型中的翻譯任務(wù) 192
7.4.1  XLM-RoBERTa在翻譯任務(wù)中的應(yīng)用 192
7.4.2  翻譯任務(wù)的模型微調(diào)與質(zhì)量提升策略 194
7.5  多語(yǔ)言模型的代碼實(shí)現(xiàn)與評(píng)估 197
7.5.1  多語(yǔ)言模型的數(shù)據(jù)加載與訓(xùn)練實(shí)現(xiàn) 197
7.5.2  BLEU與F1分?jǐn)?shù)在跨語(yǔ)言任務(wù)中的評(píng)估應(yīng)用 199
7.5.3  多語(yǔ)言模型綜合應(yīng)用示例 202
7.6  本章小結(jié) 205
7.7  思考題 206
第8章  深度剖析注意力機(jī)制 207
8.1  Scaled Dot-Product Attention的實(shí)現(xiàn) 207
8.1.1  查詢、鍵和值的矩陣計(jì)算與縮放 207
8.1.2  softmax歸一化與注意力權(quán)重的提取與分析 210
8.2  多頭注意力的實(shí)現(xiàn)細(xì)節(jié)與優(yōu)化 212
8.2.1  多頭注意力的并行計(jì)算與輸出拼接 212
8.2.2  初始化方法與正則化技巧防止過(guò)擬合 215
8.3  層歸一化與殘差連接在注意力模型中的作用 217
8.3.1  層歸一化的標(biāo)準(zhǔn)化與穩(wěn)定性提升 217
8.3.2  殘差連接在信息流動(dòng)與收斂性中的作用 219
8.4  注意力機(jī)制在不同任務(wù)中的應(yīng)用 221
8.4.1  機(jī)器翻譯與摘要生成中的注意力應(yīng)用實(shí)例 221
8.4.2  注意力權(quán)重可行性解釋 225
8.5  Attention Is All You Need論文中的代碼實(shí)現(xiàn) 226
8.5.1  多頭注意力與前饋神經(jīng)網(wǎng)絡(luò)的分步實(shí)現(xiàn) 226
8.5.2  位置編碼的實(shí)現(xiàn)與代碼逐行解析 229
8.6  本章小結(jié) 232
8.7  思考題 232
第9章  文本聚類與BERT主題建模 234
9.1  文本聚類任務(wù)概述 234
9.1.1  K-means算法在文本聚類中的應(yīng)用 234
9.1.2  層次聚類算法的實(shí)現(xiàn)與潛在類別發(fā)現(xiàn) 237
9.2  使用Sentence-BERT進(jìn)行聚類 238
9.2.1  Sentence-BERT的文本嵌入表示 239
9.2.2  短文本與長(zhǎng)文本聚類的相似度分析 240
9.3  BERT在主題建模中的應(yīng)用 244
9.3.1  BERT與LDA結(jié)合實(shí)現(xiàn)主題模型 244
9.3.2  動(dòng)態(tài)嵌入生成語(yǔ)義化主題表示 246
9.4  本章小結(jié) 250
9.5  思考題 250
第10章  基于語(yǔ)義匹配的問(wèn)答系統(tǒng) 251
10.1  使用Sentence-BERT進(jìn)行語(yǔ)義相似度計(jì)算 251
10.1.1  句子嵌入在語(yǔ)義相似度中的應(yīng)用 251
10.1.2  余弦相似度的計(jì)算與代碼實(shí)現(xiàn) 253
10.2  語(yǔ)義匹配任務(wù)中的數(shù)據(jù)標(biāo)注與處理 255
10.2.1  數(shù)據(jù)標(biāo)注格式設(shè)計(jì) 255
10.2.2  數(shù)據(jù)不平衡問(wèn)題:重采樣與加權(quán) 259
10.3  基于BERT的問(wèn)答系統(tǒng) 261
10.3.1  BERT在SQuAD數(shù)據(jù)集上的微調(diào)流程 262
10.3.2  CLS與SEP標(biāo)記在問(wèn)答任務(wù)中的作用 266
10.4  使用DistilBERT進(jìn)行MRC優(yōu)化 269
10.4.1  DistilBERT的蒸餾過(guò)程與模型簡(jiǎn)化 269
10.4.2  DistilBERT在問(wèn)答系統(tǒng)中的高效應(yīng)用 271
10.5  本章小結(jié) 275
10.6  思考題 275
第11章  常用模型微調(diào)技術(shù) 277
11.1  微調(diào)基礎(chǔ)概念 277
11.1.1  凍結(jié)層與解凍策略的應(yīng)用場(chǎng)景 277
11.1.2  微調(diào)中的參數(shù)不對(duì)稱更新 281
11.2  使用領(lǐng)域數(shù)據(jù)微調(diào)BERT模型 283
11.2.1  金融與醫(yī)學(xué)領(lǐng)域數(shù)據(jù)的預(yù)處理與標(biāo)簽平衡 283
11.2.2  BERT微調(diào)過(guò)程中的參數(shù)初始化與學(xué)習(xí)率設(shè)置 285
11.3  參數(shù)高效微調(diào)(PEFT)進(jìn)階 288
11.3.1  LoRA、Prefix Tuning的實(shí)現(xiàn)與應(yīng)用 288
11.3.2  Adapter Tuning的工作原理與代碼實(shí)現(xiàn) 291
11.4  本章小結(jié) 294
11.5  思考題 294
第12章  高級(jí)應(yīng)用:企業(yè)級(jí)系統(tǒng)開(kāi)發(fā)實(shí)戰(zhàn) 296
12.1  基于Transformer的情感分析綜合案例 296
12.1.1  基于BERT的情感分類:數(shù)據(jù)預(yù)處理與模型訓(xùn)練 296
12.1.2  Sentence-BERT文本嵌入 300
12.1.3  情感分類結(jié)果綜合分析 305
12.2  使用ONNX和TensorRT優(yōu)化推理性能 307
12.2.1  Transformer模型的ONNX轉(zhuǎn)換步驟 307
12.2.2  TensorRT量化與裁剪技術(shù)的推理加速 312
12.2.3  ONNX Runtime的多線程推理優(yōu)化與分布式部署 316
12.2.4  TensorRT動(dòng)態(tài)批量大小支持與自定義算子優(yōu)化 318
12.3  構(gòu)建NLP企業(yè)問(wèn)答系統(tǒng) 321
12.3.1  清洗、增強(qiáng)和格式化數(shù)據(jù) 322
12.3.2  模型訓(xùn)練、微調(diào)及推理服務(wù)支持 327
12.3.3  RESTful API接口 330
12.3.4  系統(tǒng)狀態(tài)記錄與異常監(jiān)控 332
12.3.5  系統(tǒng)開(kāi)發(fā)總結(jié) 337
12.4  本章小結(jié) 339
12.5  思考題 339

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)