自己動手做大數(shù)據(jù)系統(tǒng)

定　價：￥49.00

作　者：	張魁等
出版社：	電子工業(yè)出版社
叢編項：
標　簽：	計算機?網(wǎng)絡(luò) 計算機期刊雜志

購買這本書可以去

ISBN：	9787121295867	出版時間：	2016-09-01	包裝：
開本：	16開	頁數(shù)：	248	字數(shù)：

內(nèi)容簡介

　　如果你是一位在校大學生，對大數(shù)據(jù)感興趣，也知道使用的企業(yè)越來越多，市場需求更是日新月異，但苦于自己基礎(chǔ)不夠，心有余而力不足；也看過不少大數(shù)據(jù)方面的書籍、博客、視頻等，但感覺進步不大；如果你是一位在職人員，但目前主要使用傳統(tǒng)技術(shù)，雖然對大數(shù)據(jù)很有興趣，也深知其對未來的影響，但因時間不夠，雖有一定的基礎(chǔ)，常常也是打兩天魚、曬三天網(wǎng)，進展不是很理想。如果你有上述疑惑或遇到相似問題，本書正好比較適合你。本書從OpenStack云平臺搭建、軟件部署、需求開發(fā)實現(xiàn)到結(jié)果展示，以縱向角度講解了生產(chǎn)性大數(shù)據(jù)項目上線的整個流程；以完成一個實際項目需求貫穿各章節(jié)，講述了Hadoop生態(tài)圈中互聯(lián)網(wǎng)爬蟲技術(shù)、Sqoop、Hive、HBase組件協(xié)同工作流程，并展示了Spark計算框架、R制圖軟件和SparkRHive組件的使用方法。本書的一大特色是提供了實際操作環(huán)境，用戶可以在線登錄云平臺來動手操作書中的數(shù)據(jù)和代碼，登錄網(wǎng)址請參考http：//www.feiguyun.com/support。

作者簡介

　　張粵磊，平安付電子支付有限公司的架構(gòu)師，2014年在機械工業(yè)出版社出版了《R與HADOOP大數(shù)據(jù)分析實戰(zhàn)》一書。

圖書目錄

第1章　為什么要自己動手做大數(shù)據(jù)系統(tǒng) 1
1．1　大數(shù)據(jù)時代 1
1．2　實戰(zhàn)大數(shù)據(jù)項目 2
1．3　大數(shù)據(jù)演練平臺 2
第2章　項目背景及準備 4
2．1　項目背景 4
2．2　項目簡介 4
2．3　項目架構(gòu) 4
2．4　操作系統(tǒng) 5
2．5　數(shù)據(jù)存儲 7
2．6　數(shù)據(jù)處理 8
2．7　開發(fā)工具 9
2．8　調(diào)試工具 10
2．9　版本管理 10
第3章　大數(shù)據(jù)環(huán)境搭建和配置 11
3．1　各組件功能說明 11
3．1．1　各種數(shù)據(jù)源的采集工具 12
3．1．2　企業(yè)大數(shù)據(jù)存儲工具 12
3．1．3　企業(yè)大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)倉庫工具 12
3．1．4　企業(yè)大數(shù)據(jù)系統(tǒng)的分析計算工具 13
3．1．5　企業(yè)大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)庫工具 13
3．2　大數(shù)據(jù)系統(tǒng)各組件安裝部署配置 13
3．2．1　安裝的前期準備工作 13
3．2．2　Hadoop基礎(chǔ)環(huán)境安裝及配置 15
3．2．3　Hive安裝及配置 21
3．2．4　Sqoop安裝及配置 24
3．2．5　Spark安裝及配置 30
3．2．6　Zookeeper安裝及配置 31
3．2．7　HBase安裝及配置 33
3．3　自動化安裝及部署說明 35
3．3．1　自動化安裝及部署整體架構(gòu)設(shè)計 35
3．3．2　大數(shù)據(jù)系統(tǒng)自動化部署邏輯調(diào)用關(guān)系 36
3．4　本章小結(jié) 43
第4章　大數(shù)據(jù)的獲取 44
4．1　使用爬蟲獲取互聯(lián)網(wǎng)數(shù)據(jù) 45
4．2　Python和Scrapy 框架的安裝 45
4．3　抓取和解析招聘職位信息 47
4．4　職位信息的落地 51
4．5　兩個爬蟲配合工作 53
4．6　讓爬蟲的架構(gòu)設(shè)計更加合理 55
4．7　獲取數(shù)據(jù)的其他方式 57
4．8　使用Sqoop同步論壇中帖子數(shù)據(jù) 57
4．9　本章小結(jié) 59
第5章　大數(shù)據(jù)的處理 60
5．1　Hive是什么 60
5．2　為什么使用Hive做數(shù)據(jù)倉庫建模 60
5．3　飛谷項目中Hive建模步驟 61
5．3．1　邏輯模型的創(chuàng)建 62
5．3．2　物理模型的創(chuàng)建 67
5．3．3　將爬蟲數(shù)據(jù)導(dǎo)入stg_job表 74
5．4　使用Hive進行數(shù)據(jù)清洗轉(zhuǎn)換 77
5．5　數(shù)據(jù)清洗轉(zhuǎn)換的必要性 78
5．6　使用HiveQL清洗數(shù)據(jù)、提取維度信息 79
5．6．1 使用HQL清洗數(shù)據(jù) 79
5．6．2 提取維度信息 82
5．7　定義Hive UDF封裝處理邏輯 85
5．7．1　Hive UDF的開發(fā)、部署和調(diào)用 86
5．7．2　Python版本的UDF 89
5．8　使用左外連接構(gòu)造聚合表rpt_job 92
5．9　讓數(shù)據(jù)處理自動調(diào)度 96
5．9．1　HQL的幾種執(zhí)行方式 96
5．9．2　Hive Thrift服務(wù) 99
5．9．3　使用JDBC連接Hive 100
5．9．4　Python調(diào)用HiveServer服務(wù) 103
5．9．5　用crontab實現(xiàn)的任務(wù)調(diào)度 105
5．10　本章小結(jié) 107
第6章　大數(shù)據(jù)的存儲 108
6．1　NoSQL及HBase簡介 108
6．2　HBase中的主要概念 110
6．3　HBase客戶端及JavaAPI 111
6．4　Hive數(shù)據(jù)導(dǎo)入HBase的兩種方案 114
6．4．1　利用既有的JAR包實現(xiàn)整合 114
6．4．2　手動編寫MapReduce程序 116
6．5　使用Java API查詢HBase中的職位信息 122
6．5．1　為什么是HBase而非Hive 122
6．5．2　多條件組合查詢HBase中的職位信息 123
6．6　如何顯示職位表中的某條具體信息 132
6．7　本章小結(jié) 133
第7章　大數(shù)據(jù)的展示 134
7．1　概述 134
7．2　數(shù)據(jù)分析的一般步驟 135
7．3　用R來做數(shù)據(jù)分析展示 135
7．3．1　在Ubuntu上安裝R 135
7．3．2　R的基本使用方式 137
7．4　用Hive充當R的數(shù)據(jù)來源 139
7．4．1　RHive組件 139
7．4．2　把R圖表整合到Web頁面中 145
7．5　本章小結(jié) 151
第8章　大數(shù)據(jù)的分析挖掘 152
8．1　基于Spark的數(shù)據(jù)挖掘技術(shù) 152
8．2　Spark和Hadoop的關(guān)系 153
8．3　在Ubuntu上安裝Spark集群 154
8．3．1　JDK和Hadoop的安裝 154
8．3．2　安裝Scala 154
8．3．3　安裝Spark 155
8．4　Spark的運行方式 157
8．5　使用Spark替代Hadoop Yarn引擎 160
8．5．1　使用spark-sql查看Hive表 160
8．5．2　在beeline客戶端使用Spark引擎 161
8．5．3　在Java代碼中引用Spark的ThriftServer 163
8．6　對招聘公司名稱做全文檢索 168
8．6．1　從HDFS數(shù)據(jù)源構(gòu)造JavaRDD 169
8．6．2　使用Spark SQL操作RDD 173
8．6．3　把RDD運行結(jié)果展現(xiàn)在前端 174
8．7　如何把Spark用得更好 175
8．8　SparkR組件的使用 177
8．8．1　SparkR的安裝及啟動 177
8．8．2　運行自帶的Sample例子 179
8．8．3　利用SparkR生成職位統(tǒng)計餅圖 179
8．9　本章小結(jié) 181
第9章　自己動手搭建支撐大數(shù)據(jù)系統(tǒng)的云平臺 182
9．1　云平臺架構(gòu) 182
9．1．1　一期云基礎(chǔ)平臺架構(gòu) 182
9．1．2　二期云基礎(chǔ)平臺架構(gòu) 184
9．2　云平臺搭建及部署 185
9．2．1　安裝組件前準備 185
9．2．2　Identity（Keystone）組件 190
9．2．3　Image（Glance）組件 198
9．2．4　Compute（Nova）組件 201
9．2．5　Storage（Cinder）組件 206
9．2．6　Networking（Neutron）組件 210
9．2．7　Ceph分布式存儲系統(tǒng) 221
9．2．8　Dashboard（Horizon）組件 230
9．3　Identity（Keystone）與LDAP的整合 232
9．4　配置Image組件大鏡像部署 235
9．5　配置業(yè)務(wù)系統(tǒng)無縫遷移 236
9．6　本章小結(jié) 237
參考文獻 238