人類已進入大數據時代。大數據是指具有海量(volume)、多模態(tài)(variety)、變化速度快(velocity)、蘊含價值高(value)和不精確性高(veracity)“5V”特征的數據。大數據給傳統(tǒng)的機器學習帶來巨大的挑戰(zhàn),已引起學術界和工業(yè)界的高度關注。Hadoop和Spark正是在這種背景下產生的兩個大數據開源平臺?!禜adoop/Spark大數據機器學習》重點介紹基于這兩種大數據開源平臺的機器學習,包括機器學習概述、大數據與大數據處理系統(tǒng)、Hadoop分布式文件系統(tǒng)HDFS、Hadoop并行編程框架MapReduce、Hadoop大數據機器學習和Spark大數據機器學習。