基于PySpark的高級數(shù)據(jù)分析

定　價：￥78.00

作　者：	Akash Tandon，Sandy Ryza，Uri Laserson，Sean Owen和Josh Wills 著
出版社：	中國電力出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

當(dāng)當(dāng)網(wǎng) (￥67.10)

ISBN：	9787519891862	出版時間：	2024-10-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡介

　　本書的主要內(nèi)容有：熟悉Spark的編程模型和生態(tài)系統(tǒng)。學(xué)習(xí)數(shù)據(jù)科學(xué)的一般方法。檢查分析大型公共數(shù)據(jù)集執(zhí)行步驟的完整性。發(fā)現(xiàn)哪些機(jī)器學(xué)習(xí)工具對特定問題有幫助。探索可適應(yīng)多種用途的代碼。

作者簡介

　　Akash Tandon是Looppanel的聯(lián)合創(chuàng)始人兼首席技術(shù)官。曾在Atlan擔(dān)任高級數(shù)據(jù)工程師。Sandy Ryza是Apache Spark的核心貢獻(xiàn)人，領(lǐng)導(dǎo)了Dagster項(xiàng)目的開發(fā)。Uri Laserson是Patch Biosciences 的創(chuàng)始人兼首席技術(shù)官。曾在Cloudera從事大數(shù)據(jù)和基因組學(xué)的研究。Sean Owen是Apache Spark的核心貢獻(xiàn)人和PMC（項(xiàng)目管理委員會）的成員，同時也是Databricks專注于機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的首席解決方案架構(gòu)師。Josh Wills是WeaveGrid的軟件工程師，也是Slack的前數(shù)據(jù)工程主管。

圖書目錄

目錄
前言 1
第1 章大數(shù)據(jù)分析 7
11 使用大數(shù)據(jù) 8
12 Apache Spark 和PySpark10
121 組件 10
122 PySpark 12
123 生態(tài)系統(tǒng) 13
13 Spark 30 14
14 PySpark 處理數(shù)據(jù)科學(xué)問題 15
15 本章小結(jié)16
第2 章 PySpark 數(shù)據(jù)分析簡介 17
21 Spark 架構(gòu) 19
22 安裝PySpark 21
23 設(shè)置我們的數(shù)據(jù) 24
24 使用DataFrame API 分析數(shù)據(jù) 31
25 DataFrames 的快速匯總統(tǒng)計(jì) 35
26 DataFrame 的透視和重塑 37
27 關(guān)聯(lián)DataFrame 并選擇特征40
28 評分和模型評估 42
29 本章小結(jié)44
第3 章音樂推薦和音頻編碼器的數(shù)據(jù)集 47
31 設(shè)置數(shù)據(jù)48
32 我們對推薦系統(tǒng)的要求 51
33 數(shù)據(jù)準(zhǔn)備55
34 構(gòu)建第一個模型 58
35 算法篩查推薦 62
36 推薦質(zhì)量評估 64
37 計(jì)算AUC 66
38 選擇超參數(shù) 68
39 給出推薦71
310 本章小結(jié) 72
第4 章使用決策樹和決策森林進(jìn)行預(yù)測 75
41 決策樹和決策森林 76
42 準(zhǔn)備數(shù)據(jù)79
43 第一顆決策樹 84
44 決策樹超參數(shù) 92
45 調(diào)試決策樹 94
46 重溫分類特征 98
47 隨機(jī)森林102
48 進(jìn)行預(yù)測105
49 本章小結(jié)105
第5 章異常檢測與K-means 聚類算法 107
51 K-means 聚類 108
52 識別異常網(wǎng)絡(luò)流量 109
53 初次嘗試聚類 112
54 選擇K 值 114
55 利用SparkR 實(shí)現(xiàn)可視化 118
56 特征歸一化 123
57 分類變量124
58 使用熵（Entropy）標(biāo)簽 126
59 聚類實(shí)戰(zhàn)128
510 本章小結(jié) 130
第6 章通過LDA、Spark NLP 了解維基百科 133
61 隱含狄利克雷分布 134
62 獲取數(shù)據(jù)135
63 Spark NLP 137
64 解析數(shù)據(jù)139
65 使用Spark NLP 準(zhǔn)備數(shù)據(jù) 141
66 TF-IDF 146
67 計(jì)算TF-IDF 147
68 創(chuàng)建LDA 模型 148
69 本章小結(jié)151
第7 章基于出租車行程數(shù)據(jù)的時空序列數(shù)據(jù)分析 153
71 數(shù)據(jù)準(zhǔn)備155
711 將日期格式字符串轉(zhuǎn)換為時間戳 157
712 處理無效記錄 159
72 地理空間分析 161
721 介紹GeoJSON 161
722 GeoPandas 163
73 PySpark 會話化 166
74 本章小結(jié)170
第8 章金融風(fēng)險評估 171
81 金融術(shù)語172
82 VaR 的計(jì)算方法 173
821 方差與協(xié)方差 173
822 歷史模擬法 173
823 蒙特卡羅模擬 174
83 我們的模型 174
84 獲取數(shù)據(jù)175
85 準(zhǔn)備數(shù)據(jù)177
86 決定因子權(quán)重 180
87 抽樣 184
88 試驗(yàn)運(yùn)行187
89 可視化收益分布 191
810 本章小結(jié) 192
第9 章分析基因組學(xué)數(shù)據(jù)和BDG 項(xiàng)目 193
91 從建模中解耦存儲 194
92 設(shè)置ADAM 197
93 介紹如何使用ADAM 處理基因組數(shù)據(jù) 198
931 使用ADAM CLI 進(jìn)行文件格式轉(zhuǎn)換 199
932 使用PySpark 和ADAM 采集基因組學(xué)數(shù)據(jù) 200
94 預(yù)測轉(zhuǎn)錄因子結(jié)合位點(diǎn) 206
95 本章小結(jié)212
第10 章基于深入學(xué)習(xí)和PySpark LSH 的圖像相似度
檢測 215
101 PyTorch 216
102 準(zhǔn)備數(shù)據(jù) 217
103 圖像矢量表示的深度學(xué)習(xí)模型 219
1031 圖像嵌入 219
1032 將圖像嵌入導(dǎo)入 PySpark 222
104 使用PySpark LSH 進(jìn)行圖像相似搜索 223
105 本章小結(jié) 228
第11 章使用MLflow 管理機(jī)器學(xué)習(xí)生命周期 229
111 機(jī)器學(xué)習(xí)生命周期 229
112 MLflow 231
113 實(shí)驗(yàn)跟蹤 232
114 管理和服務(wù)ML 模型 236
115 創(chuàng)建并使用MLflow 項(xiàng)目 239
116 本章小結(jié) 243