本書將圍繞大數(shù)據(jù)技術的基本原理與實踐,介紹了大數(shù)據(jù)獲取、存儲、分析、數(shù)據(jù)挖掘和機器學習。內容涵蓋以下主題:Hadoop、Mapreduce、關聯(lián)規(guī)則、大規(guī)模監(jiān)督機器學習、數(shù)據(jù)流、集群、NoSQL系統(tǒng)(Pig、Hive),以及包括推薦系統(tǒng)、Web和安全性的應用程序。第1章重點闡述了大數(shù)據(jù)驅動的商業(yè)模式、技術生態(tài)體系,大數(shù)據(jù)的類型、特點、獲取技術。第2章概要介紹了大數(shù)據(jù)的軟硬件架構,包括大數(shù)據(jù)技術基礎與軟硬件設施、大數(shù)據(jù)存儲與管理技術、大數(shù)據(jù)的分布式處理技術平臺等,包括MapReduce編程框架原理、Spark結構與原理、基于Storm的大規(guī)模數(shù)據(jù)流的分布式處理技術等。第3章介紹了Python編程基礎,包括基本數(shù)據(jù)類型、基本控制流程、Numpy、Scipy、Pandas等。第4章介紹了大數(shù)據(jù)分析技術,包括基于MapReduce基礎編程、文本大數(shù)據(jù)分析與處理技術、大數(shù)據(jù)關聯(lián)分析、相似項的發(fā)現(xiàn)、基于大數(shù)據(jù)的推薦系統(tǒng)、基于大數(shù)據(jù)的圖與網絡分析、大數(shù)據(jù)聚類分析、時空大數(shù)據(jù)分析、非結構化大數(shù)據(jù)分析與處理、基于Storm的流數(shù)據(jù)分析技術等。第5章介紹了基于SparkMLlib/Mahout的大數(shù)據(jù)機器學習,包括機器學習基礎、典型機器學習問題、機器學習評價方法、并行機器學習算法,并進行了利用MLlib解決大數(shù)據(jù)并行分類問題、利用Mahout解決大數(shù)據(jù)推薦優(yōu)化問題實踐。第6章介紹了基于大數(shù)據(jù)的深度學習技術,包括深度學習基本原理、深度學習典型應用、Keras 基礎入門及應用案例。第7章介紹了材料大數(shù)據(jù)材料熱導率預測、旅游大數(shù)據(jù)分析、交通大數(shù)據(jù)分析、工業(yè)大數(shù)據(jù)分析、產品創(chuàng)新大數(shù)據(jù)分析等帶代碼、數(shù)據(jù)的案例。本書內容深入淺出,具有很強的理論與實踐指導作用,可作為數(shù)據(jù)科學與技術、人工智能、計算機科學、制造科學、機械工程等學科相關專業(yè)的本科生、研究生的教材或課程教學參考書,也是對工程技術人員、科研人員而言非常實用的工具書。