注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫Hadoop與大數據挖掘 第2版

Hadoop與大數據挖掘 第2版

Hadoop與大數據挖掘 第2版

定 價:¥99.00

作 者: 王哲 張良均 李國輝 盧軍 梁曉陽 著
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111709473 出版時間: 2022-07-01 包裝: 平裝-膠訂
開本: 16開 頁數: 字數:  

內容簡介

  本書基于開源Hadoop生態(tài)圈的主流技術,深入淺出地介紹了大數據相關技術的原理、知識點及具體應用,適合教師教學使用和零基礎自學者使用。通過本書的學習,讀者可以理解大數據相關技術的原理,迅速掌握大數據技術的操作,為后續(xù)數據挖掘與分布式計算平臺的結合使用打下良好的技術基礎。

作者簡介

暫缺《Hadoop與大數據挖掘 第2版》作者簡介

圖書目錄

前言
第一部分 基礎篇
第1章 淺談大數據 2
1.1 大數據產生的背景 2
1.1.1 信息化浪潮 2
1.1.2 信息技術變革 3
1.1.3 數據生產方式變革 4
1.1.4 大數據的發(fā)展歷程 5
1.1.5 大數據時代的挑戰(zhàn) 6
1.1.6 大數據時代面臨的機遇 7
1.2 大數據概述 7
1.2.1 大數據的概念 8
1.2.2 大數據的特征 8
1.2.3 大數據的影響 8
1.2.4 大數據與互聯網、云計算的關系 11
1.3 大數據挖掘概述 11
1.3.1 數據挖掘的概念 11
1.3.2 大數據環(huán)境下的數據挖掘 12
1.3.3 數據挖掘的過程 12
1.3.4 數據挖掘常用工具 13
1.4 大數據平臺 14
1.5 小結 15
第2章 大數據基礎架構Hadoop——實現大數據分布式存儲與計算 16
2.1 Hadoop技術概述 16
2.1.1 Hadoop的發(fā)展歷史 16
2.1.2 Hadoop的特點 17
2.1.3 Hadoop存儲框架—HDFS 18
2.1.4 Hadoop計算引擎—MapReduce 20
2.1.5 Hadoop資源管理器—YARN 21
2.2 Hadoop應用場景介紹 23
2.3 Hadoop生態(tài)系統 23
2.4 Hadoop安裝配置 24
2.4.1 創(chuàng)建Linux虛擬機 25
2.4.2 設置固定IP 33
2.4.3 遠程連接虛擬機 35
2.4.4 配置本地yum源及安裝常用軟件 38
2.4.5 在Linux下安裝Java 42
2.4.6 修改配置文件 43
2.4.7 克隆虛擬機 48
2.4.8 配置SSH免密登錄 50
2.4.9 配置時間同步服務 51
2.4.10 啟動關閉集群 53
2.5 Hadoop HDFS文件操作命令 54
2.5.1 創(chuàng)建目錄 54
2.5.2 上傳和下載文件 55
2.5.3 查看文件內容 56
2.5.4 刪除文件或目錄 56
2.6 Hadoop MapReduce編程開發(fā) 57
2.6.1 使用IDEA搭建MapReduce開發(fā)環(huán)境 57
2.6.2 通過詞頻統計了解MapReduce執(zhí)行流程 67
2.6.3 通過源碼認識MapReduce編程 68
2.7 場景應用:電影網站用戶影評分析 74
2.7.1 了解數據字段并分析需求 74
2.7.2 多維度分析用戶影評 76
2.8 小結 91
第3章 數據倉庫Hive——實現大數據查詢與處理 92
3.1 Hive技術概述 92
3.1.1 Hive簡介 92
3.1.2 Hive的特點 93
3.1.3 Hive的架構 93
3.2 Hive應用場景介紹 94
3.3 Hive安裝配置 95
3.3.1 配置MySQL數據庫 95
3.3.2 配置Hive數據倉庫 96
3.4 HiveQL查詢語句 99
3.4.1 Hive的基礎數據類型 99
3.4.2 創(chuàng)建與管理數據庫 100
3.4.3 創(chuàng)建與管理數據表 101
3.4.4 Hive表的數據裝載 108
3.4.5 掌握select查詢 111
3.4.6 了解運算符的使用 112
3.4.7 掌握Hive內置函數 115
3.5 Hive自定義函數的使用 120
3.5.1 了解Hive自定義函數 120
3.5.2 自定義UDF 121
3.5.3 自定義UDAF 124
3.5.4 自定義UDTF 127
3.6 場景應用:基站掉話率排名統計 129
3.6.1 創(chuàng)建基站數據表并導入數據 130
3.6.2 統計基站掉話率 130
3.7 小結 132
第4章 分布式協調框架ZooKeeper——實現應用程序分布式協調服務 133
4.1 ZooKeeper技術概述 133
4.1.1 ZooKeeper簡介 133
4.1.2 ZooKeeper的特點 135
4.2 ZooKeeper應用場景介紹 135
4.3 ZooKeeper分布式安裝配置 136
4.4 ZooKeeper客戶端常用命令 138
4.4.1 創(chuàng)建znode 138
4.4.2 獲取znode數據 138
4.4.3 監(jiān)視znode 139
4.4.4 刪除znode 140
4.4.5 設置znode權限 140
4.5 ZooKeeper Java API操作 142
4.5.1 創(chuàng)建IDEA工程并連接ZooKeeper 142
4.5.2 獲取、修改和刪除znode數據 143
4.6 場景應用:服務器上下線動態(tài)監(jiān)控 146
4.7 小結 149
第5章 分布式數據庫HBase——實現大數據存儲與快速查詢 151
5.1 HBase技術概述 151
5.1.1 HBase的發(fā)展歷程 151
5.1.2 HBase的特點 152
5.1.3 HBase的核心功能模塊 153
5.1.4 HBase的數據模型 155
5.1.5 設計表結構的原則 155
5.2 HBase應用場景介紹 156
5.3 HBase安裝配置 157
5.4 HBase Shell操作 159
5.4.1 創(chuàng)建與刪除表 159
5.4.2 插入數據 161
5.4.3 查詢數據 162
5.4.4 刪除數據 163
5.4.5 掃描全表 163
5.4.6 按時間版本查詢記錄 164
5.5 HBase高級應用 165
5.5.1 IDEA開發(fā)環(huán)境搭建 165
5.5.2 HBase Java API使用 169
5.5.3 HBase與MapReduce交互 174
5.6 場景應用:用戶通話記錄數據存儲設計及查詢 180
5.6.1 設計通話記錄數據結構 180
5.6.2 查詢用戶通話記錄 181
5.7 小結 187
第6章 分布式計算框架Spark——實現大數據分析與挖掘 189
6.1 Spark技術概述 189
6.1.1 Spark的發(fā)展歷史 189
6.1.2 Spark的特點 190
6.1.3 Spark生態(tài)圈 191
6.2 Spark應用場景介紹 192
6.3 Spark集群安裝配置 192
6.4 Spark Core—底層基礎框架 196
6.4.1 Spark集群架構 196
6.4.2 Spark作業(yè)運行模式 197
6.4.3 彈性分布式數據集RDD 199
6.4.4 RDD算子基礎操作 200
6.4.5 場景應用:房屋銷售數據分析 201
6.5 Spark SQL—查詢引擎框架 205
6.5.1 Spark SQL概述 205
6.5.2 DataFrame基礎操作 205
6.5.3 場景應用:廣告

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號