Hadoop/Spark大數據機器學習

定　價：￥128.00

作　者：	翟俊海，張素芳著
出版社：	科學出版社
叢編項：	信息科學技術學術著作叢書
標　簽：	暫缺

購買這本書可以去

京東 (￥113.80)

ISBN：	9787030666871	出版時間：	2021-01-01	包裝：	平裝
開本：	16開	頁數：	240	字數：

內容簡介

　　人類已進入大數據時代。大數據是指具有海量（volume）、多模態(tài)（variety）、變化速度快（velocity）、蘊含價值高（value）和不精確性高（veracity）“5V”特征的數據。大數據給傳統(tǒng)的機器學習帶來巨大的挑戰(zhàn)，已引起學術界和工業(yè)界的高度關注。Hadoop和Spark正是在這種背景下產生的兩個大數據開源平臺。《Hadoop/Spark大數據機器學習》重點介紹基于這兩種大數據開源平臺的機器學習，包括機器學習概述、大數據與大數據處理系統(tǒng)、Hadoop分布式文件系統(tǒng)HDFS、Hadoop并行編程框架MapReduce、Hadoop大數據機器學習和Spark大數據機器學習。

作者簡介

暫缺《Hadoop/Spark大數據機器學習》作者簡介

圖書目錄

目錄
前言
第1章機器學習概述 1
1.1 分類與聚類 1
1.1.1 分類 1
1.1.2 聚類 4
1.2 K-近鄰算法與模糊K-近鄰算法 7
1.2.1 K-近鄰算法 7
1.2.2 模糊K-近鄰算法 8
1.3 K-均值算法與模糊K-均值算法 10
1.3.1 K-均值算法 10
1.3.2 模糊K-均值算法 12
1.4 決策樹算法 13
1.4.1 離散值決策樹算法 13
1.4.2 連續(xù)值決策樹算法 25
1.5 神經網絡 31
1.5.1 神經元模型 32
1.5.2 梯度下降算法 33
1.5.3 多層感知器模型 35
1.6 極限學習機 40
1.7 支持向量機 42
1.7.1 線性可分支持向量機 42
1.7.2 近似線性可分支持向量機 46
1.7.3 線性不可分支持向量機 47
1.8 主動學習 49
第2章大數據與大數據處理系統(tǒng) 53
2.1 大數據及其特征 53
2.2 Linux操作系統(tǒng)簡介 54
2.2.1 Linux版本 54
2.2.2 Linux的文件與目錄 56
2.2.3 Linux用戶與用戶組 62
2.2.4 Linux系統(tǒng)軟件包管理 65
2.2.5 Linux操作系統(tǒng)的安裝 66
2.3 大數據處理系統(tǒng)Hadoop 79
2.3.1 什么是Hadoop 79
2.3.2 Hadoop的特性 82
2.3.3 Hadoop的體系結構 82
2.3.4 Hadoop的運行機制 83
2.3.5 Hadoop 1.0和Hadoop 2.0的區(qū)別 85
2.3.6 Hadoop的安裝及大數據處理環(huán)境的架構 87
2.4 大數據處理系統(tǒng)Spark 95
2.4.1 什么是Spark 95
2.4.2 Spark的運行架構 96
2.4.3 Spark的工作機制 97
第3章 Hadoop分布式文件系統(tǒng)HDFS 106
3.1 HDFS概述 106
3.1.1 HDFS的優(yōu)勢 106
3.1.2 HDFS的局限性 107
3.2 HDFS的系統(tǒng)結構 107
3.3 HDFS的數據存儲 111
3.3.1 數據塊的存放策略 111
3.3.2 數據的讀取策略 112
3.3.3 文件系統(tǒng)元數據的持久性 114
3.3.4 HDFS的魯棒性 114
3.4 訪問HDFS 116
3.4.1 通過文件系統(tǒng)Shell訪問HDFS 116
3.4.2 通過文件系統(tǒng)Java API訪問HDFS 120
3.5 HDFS讀寫數據的過程 132
3.5.1 HDFS讀數據的過程 132
3.5.2 HDFS寫數據的過程 133
第4章 Hadoop并行編程框架MapReduce 135
4.1 MapReduce概述 135
4.2 MapReduce的大數據處理過程 136
4.2.1 Map階段 137
4.2.2 Shu2e階段 138
4.2.3 Reduce階段 140
4.3 一個例子:流量統(tǒng)計 141
4.4 MapReduce的系統(tǒng)結構 144
4.5 MapReduce的作業(yè)處理過程 146
4.6 MapReduce算法設計 147
4.6.1 大數據決策樹算法設計 147
4.6.2 大數據極限學習機算法設計 150
第5章 Hadoop大數據機器學習 152
5.1 基于Hadoop的大數據K-近鄰算法 155
5.1.1 大數據K-近鄰算法的基本思想 155
5.1.2 大數據K-近鄰算法的MapReduce編程實現 156
5.2 基于Hadoop的大數據極限學習機 170
5.2.1 大數據極限學習機的基本思想 170
5.2.2 大數據極限學習機的MapReduce編程實現 170
5.3 基于Hadoop的大數據主動學習 191
5.3.1 大數據主動學習的基本思想 191
5.3.2 大數據主動學習的MapReduce編程實現 192
第6章 Spark大數據機器學習 201
6.1 SparkMLlib 201
6.1.1 MLlib決策樹算法 201
6.1.2 MLlib決策森林算法 204
6.1.3 MLlib K-means算法 207
6.1.4 主成分分析 210
6.2 基于Spark的大數據K-近鄰算法 212
6.3 基于Spark的大數據主動學習 218
參考文獻 238