注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫數據庫理論Hadoop與Spark大數據全景解析(視頻教學版)

Hadoop與Spark大數據全景解析(視頻教學版)

Hadoop與Spark大數據全景解析(視頻教學版)

定 價:¥98.00

作 者: 鄧杰
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302684800 出版時間: 2025-04-01 包裝: 平裝-膠訂
開本: 16開 頁數: 字數:  

內容簡介

  《Hadoop與Spark大數據全景解析:視頻教學版》結合作者多年在大數據領域的開發(fā)實踐經驗,采用“理論 實戰(zhàn)”的形式,以大量實例全面介紹Hadoop和Spark的基礎知識及其高級應用。作者將豐富的教學經驗,融入為讀者精心錄制的配套教學視頻中,并提供了書中所有實例的源碼,方便讀者學習和實踐。《Hadoop與Spark大數據全景解析:視頻教學版》分為4篇,共12章。第1篇(第1、2章)準備篇,主要介紹Hadoop和Spark的基本概念,以及如何快速搭建Hadoop和Spark的學習環(huán)境。第2篇(第3~6章)入門篇,涵蓋Hadoop的高級特性、Spark的基礎知識與高級特性,以及大數據安全。第3篇(第7~10章)進階篇,深入講解數據采集與清洗、數據存儲與管理、數據分析與挖掘以及實時數據處理。第4篇(第11、12章)項目實戰(zhàn)篇,通過Hadoop和Spark實現(xiàn)一站式數據分析系統(tǒng)設計,以及ChatGPT賦能Hadoop與Spark大數據分析的項目實戰(zhàn)?!禜adoop與Spark大數據全景解析:視頻教學版》內容全面、結構清晰、案例豐富,既適合初學者自學,也適合開發(fā)者閱讀,還可作為培訓機構和高校相關課程的教學參考書。

作者簡介

  鄧 杰計算機科學與技術專業(yè)學士,目前就職于vivo移動互聯(lián)網公司,負責平臺方向及A1大模型應用方向的開發(fā)。對Hadoop、Spark、Hive、Flink、Kafka等大數據生態(tài)組件有著深入的研究。AI大模型技術的實踐者和研究者,撰寫過多篇高質量Al和Hadoop與Spark相關技術的文章,著有《深入理解Hive:從基礎到高階》《Kafka并不難學》和《Hadoop大數據挖掘從入門到進階實戰(zhàn)》等書籍。

圖書目錄

第1篇  準    備
第1章  了解Hadoop和Spark 2
1.1  什么是大數據處理 2
1.1.1  大數據概述 2
1.1.2  數據處理的挑戰(zhàn) 4
1.2  為什么選擇Hadoop和Spark 5
1.2.1  Hadoop的優(yōu)勢 5
1.2.2  Spark的優(yōu)勢 6
1.3  典型的大數據應用案例 8
1.3.1  行業(yè)應用案例 8
1.3.2  成功案例分析 10
1.4  Hadoop和Spark的設計理念 12
1.4.1  設計初衷 12
1.4.2  解讀Hadoop和Spark的特性 13
1.5  本章小結 15
第2章  快速搭建Hadoop和Spark學習環(huán)境 16
2.1  Hadoop簡介 16
2.1.1  起源與發(fā)展 16
2.1.2  核心組件介紹 17
2.2  基礎環(huán)境的安裝與配置 19
2.2.1  基礎軟件下載 19
2.2.2  實例:Linux操作系統(tǒng)的安裝與配置 20
2.2.3  實例:SSH的安裝與配置 22
2.2.4  實例:Java運行環(huán)境的安裝與配置 24
2.2.5  實例:安裝與配置Zookeeper 26
2.3  Hadoop和Spark環(huán)境搭建 30
2.3.1  實例:Hadoop環(huán)境搭建 31
2.3.2  實例:Spark環(huán)境搭建 46
2.4  Hadoop MapReduce基礎 48
2.4.1  MapReduce編程模型之Map階段 48
2.4.2  MapReduce編程模型之Reduce階段 49
2.5  本章小結 51
2.6  習題 51
第2篇  入    門
第3章  Hadoop高級特性 54
3.1  HDFS架構深度解析 54
3.1.1  HDFS架構 54
3.1.2  數據塊管理 56
3.1.3  命名空間 57
3.1.4  數據一致性 58
3.2  YARN調度器與資源管理 60
3.2.1  YARN基本原理 60
3.2.2  資源分配策略 62
3.3  Hadoop數據安全性 63
3.3.1  安全策略概述 64
3.3.2  Kerberos認證 65
3.4  Hadoop性能調優(yōu) 68
3.4.1  集群性能監(jiān)控 68
3.4.2  參數調優(yōu)指南 69
3.5  Hadoop實戰(zhàn)案例 71
3.5.1  實際問題解決 71
3.5.2  最佳實踐分享 73
3.6  本章小結 77
3.7  習題 77
第4章  Spark基礎特性 78
4.1  Spark簡介 78
4.1.1  Spark發(fā)展歷程 78
4.1.2  Spark核心思想 79
4.2  Spark核心組件 80
4.2.1  Spark Core 81
4.2.2  Spark SQL 83
4.3  Spark基本數據結構 85
4.3.1  RDD概述 85
4.3.2  DataFrame和DataSet介紹 88
4.4  內存管理 96
4.4.1  內存分配策略 96
4.4.2  內存回收機制 101
4.5  本章小結 104
4.6  習題 104
第5章  Spark高級特性 105
5.1  Spark SQL與結構化數據處理 105
5.1.1  使用Spark SQL進行數據查詢和分析 105
5.1.2  Spark SQL數據類型與函數使用 109
5.2  Spark Streaming與實時數據處理 117
5.2.1  Spark Streaming的基本概念與架構 117
5.2.2  Spark Streaming與Kafka的集成與應用 122
5.3  Spark MLlib與機器學習 124
5.3.1  Spark MLlib的常用算法與應用場景 125
5.3.2  Spark MLlib與TensorFlow的比較與集成 132
5.4  Spark GraphX與圖計算 134
5.4.1  圖計算的基本概念與Spark GraphX的架構 134
5.4.2  Spark GraphX的常用算法與圖數據處理 140
5.5  本章小結 147
5.6  習題 147
第6章  大數據安全 148
6.1  大數據安全性挑戰(zhàn) 148
6.1.1  大數據安全的重要性 148
6.1.2  Hadoop與Spark安全特性 149
6.2  Hadoop安全架構 151
6.2.1  Hadoop安全模型 152
6.2.2  HDFS與YARN的安全機制 153
6.3  Spark安全實踐 155
6.3.1  Spark的安全配置 155
6.3.2  Spark應用程序的訪問控制 158
6.4  數據加密與隱私保護 164
6.5  身份認證與授權 174
6.6  本章小結 176
6.7  習題 176
第3篇  進    階
第7章  數據采集與清洗 178
7.1  Hadoop數據采集 178
7.1.1  數據源與采集工具 178
7.1.2  Hadoop數據采集流程與案例 181
7.2  Spark數據采集 185
7.2.1  Spark數據源接入方式 185
7.2.2  Spark數據采集的實踐與優(yōu)化 193
7.3  Hadoop數據清洗 197
7.3.1  數據清洗的基本概念與策略 197
7.3.2  使用MapReduce進行數據清洗 198
7.4  Hadoop與Spark數據處理對比 202
7.5  本章小結 204
7.6  習題 204
第8章  數據存儲與管理 205
8.1  大數據存儲架構 205
8.1.1  存儲架構的演變 205
8.1.2  存儲架構選擇指南 207
8.2  存儲格式與壓縮 214
8.2.1  數據格式比較 214
8.2.2  壓縮算法分析 216
8.3  數據分區(qū)與分桶 217
8.3.1  數據分區(qū) 218
8.3.2  數據分桶 226
8.4  數據倉庫設計 229
8.5  本章小結 231
8.6  習題 232
第9章  數據分析與挖掘 233
9.1  大數據分析 233
9.2  數據挖掘算法 237
9.2.1  數據挖掘算法的分類與應用場景 237
9.2.2  常見的大數據挖掘算法及其實現(xiàn)原理 239
9.3  特征工程 250
9.3.1  特征提取與構建 251
9.3.2  特征類型與數據分析方法 252
9.4  本章小結 256
9.5  習題 257
第10章  實時數據處理 258
10.1  實時處理概念 258
10.1.1  實時數據處理的定義 258
10.1.2  實時數據處理與批處理對比 260
10.2  Spark Streaming 262
10.2.1  DStream概述 263
10.2.2  實時數據處理模型 266
10.3  實時數據處理工具比較 271
10.3.1  Spark與Flink對比分析 271
10.3.2  Kafka實時計算引擎選型實踐 275
10.4  本章小結 284
10.5  習題 284
第4篇  項 目 實 戰(zhàn)
第11章  一站式數據分析系統(tǒng)設計與實現(xiàn) 286
11.1  大數據分析系統(tǒng) 286
11.1.1  大數據分析系統(tǒng)的價值 286
11.1.2  大數據分析系統(tǒng)的目的 287
11.1.3  大數據分析系統(tǒng)的應用場景 288
11.2  大數據分析系統(tǒng)架構 289
11.2.1  大數據分析系統(tǒng)的體系架構 289
11.2.2  設計大數據分析系統(tǒng)的核心模塊 291
11.3  實現(xiàn)大數據分析系統(tǒng) 292
11.3.1  數據采集 292
11.3.2  數據存儲 295
11.3.3  數據分析 302
11.3.4  數據服務 304
11.4  本章小結 306
11.5  習題 306
第12章  ChatGPT賦能Hadoop與Spark大數據分析 307
12.1  ChatGPT與大數據的智能融合探索 307
12.1.1  ChatGPT全面解析 307
12.1.2  ChatGPT在大數據分析中的角色 313
12.2  構建智能化的大數據處理引擎 316
12.2.1  ChatGPT與Spark的集成實現(xiàn) 316
12.2.2  ChatGPT與Spark應用案例分析 320
12.3  ChatGPT與Spark數據分析與挖掘實踐 324
12.3.1  ChatGPT與Spark技術整合 324
12.3.2  ChatGPT在Spark數據分析中的應用 326
12.4  本章小結 328
12.5  習題 328

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號