注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)動力工程特征工程訓(xùn)練營

特征工程訓(xùn)練營

特征工程訓(xùn)練營

定 價:¥69.80

作 者: [美]希南·奧茲德米爾(Sinan Ozdemir)著 殷海英 譯
出版社: 清華大學(xué)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787302669098 出版時間: 2024-09-01 包裝: 平裝-膠訂
開本: 32開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  《特征工程訓(xùn)練營》將列舉6個實踐項目,引導(dǎo)你利用特征工程優(yōu)化訓(xùn)練數(shù)據(jù)。每章探討一個代碼驅(qū)動的新案例,涉及金融、醫(yī)療等行業(yè)。你將學(xué)會清洗和轉(zhuǎn)換數(shù)據(jù),減輕偏見。本書呈現(xiàn)各種性能提升技巧,涵蓋從自然語言處理到時間序列分析等所有主要機器學(xué)習(xí)子領(lǐng)域。主要內(nèi)容● 識別和實現(xiàn)特征轉(zhuǎn)換● 用非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建ML(機器學(xué)習(xí))流程● 量化并盡量避免ML流程中的偏見● 使用特征存儲構(gòu)建實時ML流程● 通過操縱輸入數(shù)據(jù)來增強現(xiàn)有ML流程

作者簡介

  Sinan Ozdemir是Shiba公司的創(chuàng)始人兼首席技術(shù)官,他曾在約翰·霍普金斯大學(xué)擔(dān)任數(shù)據(jù)科學(xué)講師,迄今已出版了多本關(guān)于數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的教材。

圖書目錄

第1 章 特征工程簡介   1
1.1 特征工程是什么,為什么它如此重要 2
1.1.1 誰需要特征工程  4
1.1.2 特征工程的局限性    4
1.1.3 出色的數(shù)據(jù),出色的模型    5
1.2 特征工程流程 6
1.3 本書的編排方式  10
1.3.1 特征工程的五種類型    11
1.3.2 本書案例研究的概述    12
1.4 本章小結(jié)    14
第2 章 特征工程基礎(chǔ)知識  17
2.1 數(shù)據(jù)類型    18
2.1.1 結(jié)構(gòu)化數(shù)據(jù)   18
2.1.2 非結(jié)構(gòu)化數(shù)據(jù)  18
2.2 數(shù)據(jù)的四個層次  20
2.2.1 定性數(shù)據(jù)與定量數(shù)據(jù)  20
2.2.2 名義層次 21
2.2.3 序數(shù)層次 23
2.2.4 區(qū)間層次 24
2.2.5 比率層次 26
2.3 特征工程的類型  31
2.3.1 特征改進 31
2.3.2 特征構(gòu)建 32
2.3.3 特征選擇 34
2.3.4 特征提取 35
2.3.5 特征學(xué)習(xí) 36
2.4 如何評估特征工程的成果   38
2.4.1 評估指標(biāo)1:機器學(xué)習(xí)度量標(biāo)準(zhǔn) 38
2.4.2 評估指標(biāo)2:可解釋性  39
2.4.3 評估指標(biāo)3:公平性和偏見 39
2.4.4 評估指標(biāo)4:機器學(xué)習(xí)復(fù)雜性和
速度   40
2.5 本章小結(jié)   41
第3 章 醫(yī)療服務(wù):COVID-19的診斷   43
3.1 COVID 流感診斷數(shù)據(jù)集    45
3.2 探索性數(shù)據(jù)分析  49
3.3 特征改進    52
3.3.1 補充缺失的定量數(shù)據(jù)    52
3.3.2 填充缺失的定性數(shù)據(jù)    58
3.4 特征構(gòu)建   61
3.4.1 數(shù)值特征的轉(zhuǎn)換    61
3.4.2 構(gòu)建分類數(shù)據(jù)  68
3.5 構(gòu)建特征工程流程    75
3.6 特征選擇   84
3.6.1 互信息   84
3.6.2 假設(shè)檢驗  85
3.6.3 使用機器學(xué)習(xí)  87
3.7 練習(xí)與答案   90
3.8 本章小結(jié)    90
第4 章 偏見與公平性:再犯率建模 93
4.1 COMPAS 數(shù)據(jù)集  93
4.2 探索性數(shù)據(jù)分析  97
4.3 測量偏見和公平性   101
4.3.1 不同對待與不同影響    102
4.3.2 公平的定義   102
4.4 構(gòu)建基準(zhǔn)模型  105
4.4.1 特征構(gòu)建  105
4.4.2 構(gòu)建基準(zhǔn)流程  106
4.4.3 測量基準(zhǔn)模型的偏見    108
4.5 偏見緩解  115
4.5.1 模型訓(xùn)練前   116
4.5.2 模型訓(xùn)練中   116
4.5.3 模型訓(xùn)練后   116
4.6 構(gòu)建偏見感知模型  117
4.6.1 特征構(gòu)建:使用Yeo-Johnson 轉(zhuǎn)換器處理不同的影響    117
4.6.2 特征提取:使用aif360 學(xué)習(xí)公平表示實現(xiàn)  123
4.7 練習(xí)與答案 129
4.8 本章小結(jié)  130
第5 章 自然語言處理:社交媒體情感分類  131
5.1 推文情感數(shù)據(jù)集 134
5.2 文本向量化 138
5.2.1 特征構(gòu)建:詞袋模型    138
5.2.2 計數(shù)向量化  139
5.2.3 TF-IDF向量化  146
5.3 特征改進  149
5.3.1 清理文本中的噪聲   150
5.3.2 對token 進行標(biāo)準(zhǔn)化  152
5.4 特征提取  155
5.5 特征學(xué)習(xí)  158
5.5.1 自動編碼器簡介   159
5.5.2 訓(xùn)練自動編碼器以學(xué)習(xí)特征  160
5.5.3 遷移學(xué)習(xí)簡介·· 165
5.5.4 使用BERT 的遷移學(xué)習(xí)   166
5.5.5 使用BERT 的預(yù)訓(xùn)練特征  169
5.6 文本向量化回顧 172
5.7 練習(xí)與答案 173
5.8 本章小結(jié)  174
第6 章 計算機視覺:對象識別    175
6.1 CIFAR-10 數(shù)據(jù)集 176
6.2 特征構(gòu)建:像素作為特征  178
6.3 特征提?。禾荻确较蛑狈綀D   181
6.4 使用VGG-11 進行特征學(xué)習(xí)  190
6.4.1 使用預(yù)訓(xùn)練的VGG-11 作為特征提取器   191
6.4.2 微調(diào)VGG-11   196
6.4.3 使用經(jīng)過微調(diào)的VGG-11 特征進行邏輯回歸  201
6.5 圖像矢量化總結(jié) 203
6.6 練習(xí)與答案 204
6.7 本章小結(jié)  205
第7 章 時間序列分析:利用機器學(xué)習(xí)進行短線交易    207
7.1 TWLO 數(shù)據(jù)集  208
7.2 特征構(gòu)建  213
7.2.1 日期/時間特征    213
7.2.2 滯后特征  215
7.2.3 滾動/擴展窗口特征    216
7.2.4 領(lǐng)域特定特征  229
7.3 特征選擇  238
7.3.1 使用機器學(xué)習(xí)選擇特征  238
7.3.2 遞歸特征消除  240
7.4 特征提取  242
7.5 結(jié)論  248
7.6 練習(xí)與答案 249
7.7 本章小結(jié)  251
第8 章 特征存儲  253
8.1 MLOps 和特征存儲  254
8.1.1 使用特征存儲的收益   255
8.1.2 維基百科、MLOps和特征存儲  260
8.2 使用Hopsworks 設(shè)置特征存儲  262
8.2.1 使用HSFS API 連接到Hopsworks  263
8.2.2 特征組  265
8.2.3 使用特征組來選擇數(shù)據(jù)   273
8.3 在Hopsworks 中創(chuàng)建訓(xùn)練數(shù)據(jù)  275
8.3.1 訓(xùn)練數(shù)據(jù)集  276
8.3.2 數(shù)據(jù)溯源   280
8.4 練習(xí)與答案 281
8.5 本章小結(jié)  281
第9 章 匯總    283
9.1 重新審視特征工程流程  283
9.2 主要收獲  284
9.2.1 特征工程與機器學(xué)習(xí)模型的選擇同樣至關(guān)重要  285
9.2.2 特征工程并非一勞永逸的解決方案    286
9.3 特征工程回顧  286
9.3.1 特征改進  286
9.3.2 特征構(gòu)建  286
9.3.3 特征選擇  287
9.3.4 特征提取  287
9.3.5 特征學(xué)習(xí)  289
9.4 數(shù)據(jù)類型特定的特征工程技術(shù)  290
9.4.1 結(jié)構(gòu)化數(shù)據(jù)   290
9.4.2 非結(jié)構(gòu)化數(shù)據(jù)  293
9.5 常見問題解答  295
9.5.1 何時應(yīng)將分類變量進行虛擬化,而不是將它們保留為單獨的列   295
9.5.2 如何確定是否需要處理數(shù)據(jù)中的偏見    297
9.6 其他特征工程技術(shù)  298
9.6.1 分類虛擬桶化  298
9.6.2 將學(xué)到的特征與傳統(tǒng)特征結(jié)合  300
9.6.3 其他原始數(shù)據(jù)向量化器  305
9.7 擴展閱讀  306
9.8 本章小結(jié)  307

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號