Hadoop大數(shù)據(jù)實戰(zhàn)權(quán)威指南（第2版）

定　價：￥79.00

作　者：	黃東軍
出版社：	電子工業(yè)出版社
叢編項：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787121370335	出版時間：	2019-09-01	包裝：
開本：	16開	頁數(shù)：	320	字?jǐn)?shù)：

內(nèi)容簡介

　　基于\

作者簡介

　　黃東軍，男，教授，博士，博士生導(dǎo)師。畢業(yè)于中南大學(xué)計算機應(yīng)用技術(shù)，先工作于中南大學(xué)信息科學(xué)與工程學(xué)院。中國計算機學(xué)會高級會員，教育部計算機科學(xué)與技術(shù)專業(yè)教學(xué)指導(dǎo)委員會\

圖書目錄

目錄
第一篇大數(shù)據(jù)的基本概念和技術(shù)\t1
第1章緒論\t3
1．1 大數(shù)據(jù)的時代背景\t3
1．1．1 全球大數(shù)據(jù)浪潮\t3
1．1．2 我國的大數(shù)據(jù)戰(zhàn)略\t5
1．2 大數(shù)據(jù)的基本概念和特征\t6
1．2．1 基本概念\t6
1．2．2 基本特征\t7
1．3 大數(shù)據(jù)系統(tǒng)的技術(shù)支撐體系\t7
1．3．1 技術(shù)支撐體系概覽\t7
1．3．2 大數(shù)據(jù)系統(tǒng)的采集層\t8
1．3．3 大數(shù)據(jù)系統(tǒng)的存儲層\t9
1．3．4 大數(shù)據(jù)系統(tǒng)的分析層\t9
1．3．5 大數(shù)據(jù)系統(tǒng)的應(yīng)用層\t9
1．3．6 大數(shù)據(jù)系統(tǒng)的垂直層\t10
1．4 大數(shù)據(jù)領(lǐng)域的主要職位及其能力要求\t11
1．4．1 首席數(shù)據(jù)官\t11
1．4．2 數(shù)據(jù)科學(xué)家\t11
1．4．3 大數(shù)據(jù)開發(fā)工程師\t12
1．4．4 大數(shù)據(jù)運維工程師\t13
1．5 本章小結(jié)\t13
第2章 Hadoop大數(shù)據(jù)關(guān)鍵技術(shù)\t15
2．1 Hadoop大數(shù)據(jù)應(yīng)用生態(tài)系統(tǒng)\t15
2．1．1 架構(gòu)的基本理論\t15
2．1．2 Hadoop大數(shù)據(jù)應(yīng)用生態(tài)系統(tǒng)的主要組件及其關(guān)系\t16
2．2 大數(shù)據(jù)采集技術(shù)\t19
2．2．1 結(jié)構(gòu)化數(shù)據(jù)采集工具\t19
2．2．2 日志收集工具與技術(shù)\t20
2．3 大數(shù)據(jù)存儲技術(shù)\t23
2．3．1 相關(guān)概念\t23
2．3．2 分布式存儲系統(tǒng)\t27
2．3．3 數(shù)據(jù)庫（HBase）與數(shù)據(jù)倉庫（Hive）\t30
2．4 分布式計算框架\t35
2．4．1 離線計算框架\t35
2．4．2 實時流計算平臺\t40
2．5 數(shù)據(jù)分析平臺與工具\t45
2．5．1 面向大數(shù)據(jù)的數(shù)據(jù)挖掘與分析工具\t45
2．5．2 機器學(xué)習(xí)\t49
2．6 本章小結(jié)\t52
第二篇 Hadoop大數(shù)據(jù)平臺搭建與基本應(yīng)用\t55
第3章 Linux操作系統(tǒng)與集群搭建\t57
3．1 Linux操作系統(tǒng)\t57
3．1．1 概述\t57
3．1．2 特點\t58
3．1．3 Linux操作系統(tǒng)的組成\t59
3．2 Linux集群的搭建\t62
3．2．1 安裝VMware Workstation\t62
3．2．2 在VMware Workstation Pro 12上安裝Linux（CentOS 7）\t65
3．3 集群的配置\t77
3．3．1 設(shè)置主機名\t77
3．3．2 網(wǎng)絡(luò)設(shè)置\t79
3．3．3 關(guān)閉防火墻\t83
3．3．4 安裝JDK\t84
3．3．5 免密鑰登錄配置\t87
3．4 Linux基本命令\t89
3．5 本章小結(jié)\t96
第4章 HDFS安裝與基本應(yīng)用\t97
4．1 HDFS概述\t97
4．1．1 特點\t97
4．1．2 主要組件與架構(gòu)\t97
4．2 HDFS架構(gòu)分析\t98
4．2．1 數(shù)據(jù)塊\t98
4．2．2 NameNode\t98
4．2．3 DataNode\t99
4．2．4 SecondaryNameNode\t100
4．2．5 數(shù)據(jù)備份\t100
4．2．6 通信協(xié)議\t101
4．2．7 可靠性保證\t101
4．3 文件操作過程分析\t101
4．3．1 讀文件\t101
4．3．2 寫文件\t102
4．3．3 刪除文件\t103
4．4 Hadoop的安裝與配置\t104
4．4．1 解壓Hadoop安裝包\t104
4．4．2 配置Hadoop環(huán)境變量\t105
4．4．3 配置Yarn環(huán)境變量\t106
4．4．4 配置核心組件\t106
4．4．5 配置文件系統(tǒng)\t107
4．4．6 配置yarn site．xml文件\t108
4．4．7 配置MapReduce計算框架文件\t109
4．4．8 配置Master中的workers文件\t111
4．4．9 將Master上的Hadoop復(fù)制到Slave\t111
4．5 Hadoop集群的啟動\t112
4．5．1 配置操作系統(tǒng)的環(huán)境變量\t112
4．5．2 創(chuàng)建Hadoop數(shù)據(jù)目錄\t113
4．5．3 格式化文件系統(tǒng)\t113
4．5．4 啟動和關(guān)閉Hadoop\t114
4．5．5 驗證Hadoop是否成功啟動\t115
4．6 Hadoop集群的基本應(yīng)用\t117
4．6．1 HDFS基本命令\t117
4．6．2 在Hadoop集群中運行程序\t120
4．7 本章小結(jié)\t122
第5章 MapReduce與Yarn\t123
5．1 MapReduce程序的概念\t123
5．1．1 基本編程模型\t123
5．1．2 計算過程分析\t124
5．2 深入理解Yarn\t126
5．2．1 Yarn的基本架構(gòu)\t126
5．2．2 Yarn的工作流程\t130
5．3 在Linux平臺安裝Eclipse\t130
5．3．1 Eclipse簡介\t130
5．3．2 安裝并啟動Eclipse\t131
5．4 開發(fā)MapReduce程序的基本方法\t133
5．4．1 為Eclipse安裝Hadoop插件\t133
5．4．2 WordCount：第一個MapReduce程序\t137
5．5 本章小結(jié)\t150
第6章 Hive和HBase的安裝與應(yīng)用\t151
6．1 在CentOS 7下安裝MySQL\t151
6．1．1 下載或復(fù)制MySQL安裝包\t151
6．1．2 執(zhí)行安裝命令\t152
6．1．3 啟動MySQL\t153
6．1．4 登錄MySQL\t153
6．1．5 使用MySQL\t154
6．1．6 問題與解決辦法\t156
6．2 Hive安裝與應(yīng)用\t157
6．2．1 下載并解壓Hive安裝包\t158
6．2．2 配置Hive\t158
6．2．3 啟動并驗證Hive\t161
6．2．4 Hive的基本應(yīng)用\t162
6．3 ZooKeeper集群安裝\t163
6．3．1 ZooKeeper簡介\t163
6．3．2 安裝ZooKeeper\t164
6．3．3 配置ZooKeeper\t165
6．3．4 啟動和測試\t166
6．4 HBase的安裝與應(yīng)用\t168
6．4．1 解壓并安裝HBase\t168
6．4．2 配置HBase\t169
6．4．3 啟動并驗證HBase\t171
6．4．4 HBase的基本應(yīng)用\t173
6．4．5 HBase應(yīng)用中常見問題及其解決辦法\t175
6．5 本章小結(jié)\t176
第7章 Sqoop和Kafka的安裝與應(yīng)用\t177
7．1 安裝部署Sqoop\t177
7．1．1 下載或復(fù)制Sqoop安裝包\t177
7．1．2 解壓并安裝Sqoop\t177
7．1．3 配置Sqoop\t178
7．1．4 啟動并驗證Sqoop\t180
7．1．5 測試Sqoop與MySQL的連接\t180
7．2 安裝部署Kafka集群\t182
7．2．1 下載或復(fù)制Kafka安裝包\t182
7．2．2 解壓縮Kafka安裝包\t182
7．2．3 配置Kafka集群\t183
7．2．4 Kafka的初步應(yīng)用\t184
7．3 本章小結(jié)\t188
第8章 Spark集群的安裝與開發(fā)環(huán)境的配置\t189
8．1 深入理解Spark\t189
8．1．1 Spark的系統(tǒng)架構(gòu)\t189
8．1．2 Spark的關(guān)鍵概念\t191
8．2 Scala的安裝與配置\t193
8．2．1 下載Scala安裝包\t194
8．2．2 安裝Scala\t194
8．2．3 啟動并應(yīng)用Scala\t195
8．3 Spark集群的安裝與配置\t195
8．3．1 安裝模式\t195
8．3．2 Spark的安裝\t196
8．3．3 啟動并驗證Spark\t198
8．3．4 幾點說明\t202
8．4 IDEA開發(fā)環(huán)境的安裝與配置\t203
8．4．1 IDEA簡介\t203
8．4．2 IDEA的安裝\t204
8．4．3 IDEA的配置\t205
8．5 本章小結(jié)\t208
第9章 Spark應(yīng)用基礎(chǔ)\t209
9．1 Spark應(yīng)用程序的運行模式\t209
9．1．1 Spark on Yarn-cluster-\t209
9．1．2 Spark on Yarn-client\t210
9．2 Spark的應(yīng)用設(shè)計\t211
9．2．1 分布式估算圓周率\t211
9．2．2 基于Spark MLlib的貸款風(fēng)險預(yù)測\t226
9．3 本章小結(jié)\t242
第三篇大數(shù)據(jù)處理與項目開發(fā)\t243
第10章交互式數(shù)據(jù)處理\t245
10．1 數(shù)據(jù)預(yù)處理\t245
10．1．1 查看數(shù)據(jù)\t245
10．1．2 數(shù)據(jù)擴展\t247
10．1．3 數(shù)據(jù)過濾\t247
10．1．4 數(shù)據(jù)上傳\t248
10．2 創(chuàng)建數(shù)據(jù)倉庫\t249
10．2．1 創(chuàng)建Hive數(shù)據(jù)倉庫的基本命令\t249
10．2．2 創(chuàng)建Hive分區(qū)表\t251
10．3 數(shù)據(jù)分析\t253
10．3．1 基本統(tǒng)計\t253
10．3．2 用戶行為分析\t254
10．3．3 實時數(shù)據(jù)\t256
10．4 本章小結(jié)\t256
第11章協(xié)同過濾推薦系統(tǒng)\t257
11．1 推薦算法概述\t257
11．1．1 基于人口統(tǒng)計學(xué)的推薦\t257
11．1．2 基于內(nèi)容的推薦\t258
11．1．3 協(xié)同過濾推薦\t258
11．2 協(xié)同過濾推薦算法分析\t259
11．2．1 基于用戶的協(xié)同過濾推薦\t259
11．2．2 基于物品的協(xié)同過濾推薦\t261
11．3 Spark MLlib推薦算法應(yīng)用\t262
11．3．1 ALS算法原理\t262
11．3．2 ALS的應(yīng)用設(shè)計\t264
11．4 本章小結(jié)\t277
第12章銷售數(shù)據(jù)分析系統(tǒng)\t279
12．1 數(shù)據(jù)采集\t279
12．1．1 在Windows平臺安裝JDK\t279
12．1．2 在Windows平臺安裝Eclipse\t281
12．1．3 將WebCollector項目導(dǎo)入Eclipse\t282
12．1．4 在Windows平臺安裝MySQL\t283
12．1．5 連接JDBC\t286
12．1．6 運行爬蟲程序\t286
12．2 在HBase集群上準(zhǔn)備數(shù)據(jù)\t287
12．2．1 將數(shù)據(jù)導(dǎo)入MySQL\t287
12．2．2 將MySQL表中的數(shù)據(jù)導(dǎo)入HBase集群\t289
12．3 安裝Phoenix中間件\t291
12．3．1 Phoenix架構(gòu)\t291
12．3．2 解壓安裝Phoenix\t293
12．3．3 Phoenix環(huán)境配置\t293
12．3．4 使用Phoenix\t294
12．4 基于Web的前端開發(fā)\t298
12．4．1 將Web前端項目導(dǎo)入Eclipse\t298
12．4．2 安裝Tomcat\t300
12．4．3 在Eclipse中配置Tomcat\t300
12．4．4 在Web瀏覽器中查看執(zhí)行結(jié)果\t303
12．5 本章小結(jié)\t305
參考文獻(xiàn)307