注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡數(shù)據(jù)庫基于PySpark的高級數(shù)據(jù)分析

基于PySpark的高級數(shù)據(jù)分析

基于PySpark的高級數(shù)據(jù)分析

定 價:¥78.00

作 者: Akash Tandon,Sandy Ryza,Uri Laserson,Sean Owen和Josh Wills 著
出版社: 中國電力出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787519891862 出版時間: 2024-10-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  本書的主要內(nèi)容有:熟悉Spark的編程模型和生態(tài)系統(tǒng)。學習數(shù)據(jù)科學的一般方法。檢查分析大型公共數(shù)據(jù)集執(zhí)行步驟的完整性。發(fā)現(xiàn)哪些機器學習工具對特定問題有幫助。探索可適應多種用途的代碼。

作者簡介

  Akash Tandon是Looppanel的聯(lián)合創(chuàng)始人兼首席技術官。曾在Atlan擔任高級數(shù)據(jù)工程師。Sandy Ryza是Apache Spark的核心貢獻人,領導了Dagster項目的開發(fā)。Uri Laserson是Patch Biosciences 的創(chuàng)始人兼首席技術官。曾在Cloudera從事大數(shù)據(jù)和基因組學的研究。Sean Owen是Apache Spark的核心貢獻人和PMC(項目管理委員會)的成員,同時也是Databricks專注于機器學習和數(shù)據(jù)科學的首席解決方案架構師。Josh Wills是WeaveGrid的軟件工程師,也是Slack的前數(shù)據(jù)工程主管。

圖書目錄

目錄
前言 1
第1 章 大數(shù)據(jù)分析 7
11 使用大數(shù)據(jù) 8
12 Apache Spark 和PySpark10
121 組件 10
122 PySpark 12
123 生態(tài)系統(tǒng) 13
13 Spark 30 14
14 PySpark 處理數(shù)據(jù)科學問題 15
15 本章小結16
第2 章 PySpark 數(shù)據(jù)分析簡介 17
21 Spark 架構 19
22 安裝PySpark 21
23 設置我們的數(shù)據(jù) 24
24 使用DataFrame API 分析數(shù)據(jù) 31
25 DataFrames 的快速匯總統(tǒng)計 35
26 DataFrame 的透視和重塑 37
27 關聯(lián)DataFrame 并選擇特征40
28 評分和模型評估 42
29 本章小結44
第3 章 音樂推薦和音頻編碼器的數(shù)據(jù)集 47
31 設置數(shù)據(jù)48
32 我們對推薦系統(tǒng)的要求 51
33 數(shù)據(jù)準備55
34 構建第一個模型 58
35 算法篩查推薦 62
36 推薦質(zhì)量評估 64
37 計算AUC 66
38 選擇超參數(shù) 68
39 給出推薦71
310 本章小結 72
第4 章 使用決策樹和決策森林進行預測 75
41 決策樹和決策森林 76
42 準備數(shù)據(jù)79
43 第一顆決策樹 84
44 決策樹超參數(shù) 92
45 調(diào)試決策樹 94
46 重溫分類特征 98
47 隨機森林102
48 進行預測105
49 本章小結105
第5 章 異常檢測與K-means 聚類算法 107
51 K-means 聚類 108
52 識別異常網(wǎng)絡流量 109
53 初次嘗試聚類 112
54 選擇K 值 114
55 利用SparkR 實現(xiàn)可視化 118
56 特征歸一化 123
57 分類變量124
58 使用熵(Entropy)標簽 126
59 聚類實戰(zhàn)128
510 本章小結 130
第6 章 通過LDA、Spark NLP 了解維基百科 133
61 隱含狄利克雷分布 134
62 獲取數(shù)據(jù)135
63 Spark NLP 137
64 解析數(shù)據(jù)139
65 使用Spark NLP 準備數(shù)據(jù) 141
66 TF-IDF 146
67 計算TF-IDF 147
68 創(chuàng)建LDA 模型 148
69 本章小結151
第7 章 基于出租車行程數(shù)據(jù)的時空序列數(shù)據(jù)分析 153
71 數(shù)據(jù)準備155
711 將日期格式字符串轉(zhuǎn)換為時間戳 157
712 處理無效記錄 159
72 地理空間分析 161
721 介紹GeoJSON 161
722 GeoPandas 163
73 PySpark 會話化 166
74 本章小結170
第8 章 金融風險評估 171
81 金融術語172
82 VaR 的計算方法 173
821 方差與協(xié)方差 173
822 歷史模擬法 173
823 蒙特卡羅模擬 174
83 我們的模型 174
84 獲取數(shù)據(jù)175
85 準備數(shù)據(jù)177
86 決定因子權重 180
87 抽樣 184
88 試驗運行187
89 可視化收益分布 191
810 本章小結 192
第9 章 分析基因組學數(shù)據(jù)和BDG 項目 193
91 從建模中解耦存儲 194
92 設置ADAM 197
93 介紹如何使用ADAM 處理基因組數(shù)據(jù) 198
931 使用ADAM CLI 進行文件格式轉(zhuǎn)換 199
932 使用PySpark 和ADAM 采集基因組學數(shù)據(jù) 200
94 預測轉(zhuǎn)錄因子結合位點 206
95 本章小結212
第10 章 基于深入學習和PySpark LSH 的圖像相似度
檢測 215
101 PyTorch 216
102 準備數(shù)據(jù) 217
103 圖像矢量表示的深度學習模型 219
1031 圖像嵌入 219
1032 將圖像嵌入導入 PySpark 222
104 使用PySpark LSH 進行圖像相似搜索 223
105 本章小結 228
第11 章 使用MLflow 管理機器學習生命周期 229
111 機器學習生命周期 229
112 MLflow 231
113 實驗跟蹤 232
114 管理和服務ML 模型 236
115 創(chuàng)建并使用MLflow 項目 239
116 本章小結 243

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號