注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫深入理解大數據:大數據處理與編程實踐

深入理解大數據:大數據處理與編程實踐

深入理解大數據:大數據處理與編程實踐

定 價:¥79.00

作 者: 黃宜華 編
出版社: 機械工業(yè)出版社
叢編項: 計算機類專業(yè)系統(tǒng)能力培養(yǎng)系列教材
標 簽: 大學教材 大中專教材教輔

購買這本書可以去


ISBN: 9787111473251 出版時間: 2014-08-01 包裝: 平裝
開本: 16開 頁數: 520 字數:  

內容簡介

  《深入理解大數據:大數據處理與編程實踐》從HadoopMapReduce并行計算技術與系統(tǒng)的基本原理剖析著手,在系統(tǒng)介紹基本工作原理、編程模型、編程框架和接口的基礎上,著重系統(tǒng)化地介紹MapReduce并行算法設計與編程技術,較為全面地介紹了基本MapReduce算法設計、高級MapReduce編程技術、以及一系列較為復雜的機器學習和數據挖掘并行化算法,并引入來自IntelHadoop系統(tǒng)產品的一系列增強功能以及深度技術剖析;最后,為了提高讀者的算法設計與編程實戰(zhàn)能力,本書較為詳細地介紹了一系列綜合性和實戰(zhàn)性大數據處理和算法設計問題,這些問題來自課程同學參加的全國性大數據大賽中的獲獎算法、課程中的優(yōu)秀課程設計、以及來自本團隊的科研課題及業(yè)界實際的大數據應用實戰(zhàn)案例。

作者簡介

暫缺《深入理解大數據:大數據處理與編程實踐》作者簡介

圖書目錄

第一部分 Hadoop系統(tǒng)第1章 大數據處理技術簡介1.1 并行計算技術簡介1.1.1 并行計算的基本概念1.1.2 并行計算技術的分類1.1.3 并行計算的主要技術問題1.2 大數據處理技術簡介1.2.1 大數據的發(fā)展背景和研究意義1.2.2 大數據的技術特點1.2.3 大數據研究的主要目標、基本原則和基本途徑1.2.4 大數據計算模式和系統(tǒng)1.2.5 大數據計算模式的發(fā)展趨勢1.2.6 大數據的主要技術層面和技術內容1.3 MapReduce并行計算技術簡介1.3.1 MapReduce的基本概念和由來1.3.2 MapReduce的基本設計思想1.3.3 MapReduce的主要功能和技術特征1.4 Hadoop系統(tǒng)簡介1.4.1 Hadoop的概述與發(fā)展歷史1.4.2 Hadoop系統(tǒng)分布式存儲與并行計算構架1.4.3 Hadoop平臺的基本組成與生態(tài)系統(tǒng)1.4.4 Hadoop的應用現狀和發(fā)展趨勢第2章 Hadoop系統(tǒng)的安裝與操作管理2.1 Hadoop系統(tǒng)安裝方法簡介2.2 單機和單機偽分布式Hadoop系統(tǒng)安裝基本步驟2.2.1 安裝和配置JDK2.2.2 創(chuàng)建Hadoop用戶2.2.3 下載安裝Hadoop2.2.4 配置SSH2.2.5 配置Hadoop環(huán)境2.2.6 Hadoop的運行2.2.7 運行測試程序2.2.8 查看集群狀態(tài)2.3 集群分布式Hadoop系統(tǒng)安裝基本步驟2.3.1 安裝和配置JDK2.3.2 創(chuàng)建Hadoop用戶2.3.3 下載安裝Hadoop2.3.4 配置SSH2.3.5 配置Hadoop環(huán)境2.3.6 Hadoop的運行2.3.7 運行測試程序2.3.8 查看集群狀態(tài)2.4 Hadoop& ;MapReduce程序開發(fā)過程2.5 集群遠程作業(yè)提交與執(zhí)行2.5.1 集群遠程作業(yè)提交和執(zhí)行過程2.5.2 查看作業(yè)執(zhí)行結果和集群狀態(tài)第3章 大數據存儲--分布式文件系統(tǒng)HDFS3.1 HDFS的基本特征與構架3.1.1 HDFS的基本特征3.1.2 HDFS的基本框架與工作過程3.2 HDFS可靠性設計3.2.1 HDFS數據塊多副本存儲設計3.2.2 HDFS可靠性的設計實現3.3 HDFS文件存儲組織與讀寫3.3.1 文件數據的存儲組織3.3.2 數據的讀寫過程3.4 HDFS文件系統(tǒng)操作命令3.4.1 HDFS啟動與關閉3.4.2 HDFS文件操作命令格式與注意事項3.4.3 HDFS文件操作命令3.4.4 高級操作命令和工具3.5 HDFS基本編程接口與示例3.5.1 HDFS編程基礎知識3.5.2 HDFS基本文件操作API3.5.3 HDFS基本編程實例第4章 Hadoop& ;MapReduce并行編程框架4.1 MapReduce基本編程模型和框架4.1.1 MapReduce并行編程抽象模型4.1.2 MapReduce的完整編程模型和框架4.2 Hadoop& ;MapReduce基本構架與工作過程4.2.1 Hadoop系統(tǒng)構架和MapReduce程序執(zhí)行過程4.2.2 Hadoop& ;MapReduce執(zhí)行框架和作業(yè)執(zhí)行流程4.2.3 Hadoop& ;MapReduce作業(yè)調度過程和調度方法4.2.4 MapReduce執(zhí)行框架的組件和執(zhí)行流程4.3 Hadoop& ;MapReduce主要組件與編程接口4.3.1 數據輸入格式InputFormat4.3.2 輸入數據分塊InputSplit4.3.3 數據記錄讀入RecordReader4.3.4 Mapper類4.3.5 Combiner4.3.6 Partitioner4.3.7 Sort4.3.8 Reducer類4.3.9 數據輸出格式OutputFormat4.3.10 數據記錄輸出RecordWriter第5章 分布式數據庫HBase5.1 HBase簡介5.1.1 為什么需要NoSQL數據庫5.1.2 HBase的作用和功能特點5.2 HBase的數據模型5.2.1 HBase的基本數據模型5.2.2 HBase的查詢模式5.2.3 HBase表設計5.3 HBase的基本構架與數據存儲管理方法5.3.1 HBase在Hadoop生態(tài)中的位置和關系5.3.2 HBase的基本組成結構5.3.3 HBase& ;Region5.3.4 Region& ;Server5.3.5 HBase的總體組成結構5.3.6 HBase的尋址和定位5.3.7 HBase節(jié)點的上下線管理5.4 HBase安裝與操作5.4.1 安裝一個單機版的HBase5.4.2 HBase& ;Shell操作命令5.4.3 基于集群的HBase安裝和配置5.5 HBase的編程接口和編程示例5.5.1 表創(chuàng)建編程接口與示例5.5.2 表數據更新編程接口與示例5.5.3 數據讀取編程接口與示例5.5.4 HBase& ;MapReduce支持和編程示例5.6 HBase的讀寫操作和特性5.6.1 HBase的數據寫入5.6.2 HBase的數據讀取5.7 其他HBase功能5.7.1 Coprocessor5.7.2 批量數據導入Bulk& ;Load第6章 分布式數據倉庫Hive6.1 Hive的作用與結構組成6.2 Hive的數據模型6.2.1 Hive的數據存儲模型6.2.2 Hive的元數據存儲管理6.2.3 Hive的數據類型6.3 Hive的安裝6.3.1 下載Hive安裝包6.3.2 配置環(huán)境變量6.3.3 創(chuàng)建Hive數據文件目錄6.3.4 修改Hive配置文件6.4 Hive查詢語言--HiveQL6.4.1 DDL語句6.4.2 DML語句6.4.3 SELECT查詢語句6.4.4 數據表操作語句示例6.4.5 分區(qū)的使用6.4.6 桶的使用6.4.7 子查詢6.4.8 Hive的優(yōu)化和高級功能6.5 Hive& ;JDBC編程接口與程序設計第7章 Intel& ;Hadoop系統(tǒng)優(yōu)化與功能增強7.1 Intel& ;Hadoop系統(tǒng)簡介7.1.1 Intel& ;Hadoop系統(tǒng)的主要優(yōu)化和增強功能7.1.2 Intel& ;Hadoop的系統(tǒng)構成與組件7.2 Intel& ;Hadoop系統(tǒng)的安裝和管理7.3 Intel& ;Hadoop& ;HDFS的優(yōu)化和功能擴展7.3.1 HDFS的高可用性7.3.2 Intel& ;Hadoop系統(tǒng)高可用性配置服務7.3.3 Intel& ;Hadoop系統(tǒng)高可用性配置服務操作7.3.4 自適應數據塊副本調整策略7.4 Intel& ;Hadoop& ;HBase的功能擴展和編程示例7.4.1 HBase大對象存儲(LOB)7.4.2 加鹽表7.4.3 HBase跨數據中心大表7.5 Intel& ;Hadoop& ;Hive的功能擴展和編程示例7.5.1 開源Hive的不足7.5.2 Intel& ;Hadoop“Hive& ;over& ;HBase”優(yōu)化設計7.5.3 Hive& ;over& ;HBase的架構第二部分 MapReduce的編程和算法設計第8章 MapReduce基礎算法程序設計8.1 WordCount8.1.1 WordCount算法編程實現8.2 矩陣乘法8.2.1 矩陣乘法原理和實現思路8.2.2 矩陣乘法的MapReduce程序實現8.3 關系代數運算8.3.1 選擇操作8.3.2 投影操作8.3.3 交運算8.3.4 差運算8.3.5 自然連接8.4 單詞共現算法8.4.1 單詞共現算法的基本設計8.4.2 單詞共現算法的實現8.4.3 單詞共現算法實現中的細節(jié)問題8.5 文檔倒排索引8.5.1 簡單的文檔倒排索引8.5.2 帶詞頻等屬性的文檔倒排索引8.6 PageRank網頁排名算法8.6.1 PageRank的簡化模型8.6.2 PageRank的隨機瀏覽模型8.6.3 PageRank的MapReduce實現8.7 專利文獻分析算法8.7.1 構建專利被引用列表8.7.2 專利被引用次數統(tǒng)計8.7.3 專利被引用次數直方圖統(tǒng)計8.7.4 按照年份或國家統(tǒng)計專利數第9章 MapReduce高級程序設計技術9.1 簡介9.2 復合鍵值對的使用9.2.1 把小的鍵值對合并成大的鍵值對9.2.2 巧用復合鍵讓系統(tǒng)完成排序9.3 用戶定制數據類型9.3.1 Hadoop內置的數據類型9.3.2 用戶自定義數據類型的實現9.4 用戶定制數據輸入輸出格式9.4.1 Hadoop內置的數據輸入格式與RecordReader9.4.2 用戶定制數據輸入格式與RecordReader9.4.3 Hadoop內置的數據輸出格式與RecordWriter9.4.4 用戶定制數據輸出格式與RecordWriter9.4.5 通過定制數據輸出格式實現多集合文件輸出9.5 用戶定制Partitioner和Combiner9.5.1 用戶定制Partitioner9.5.2 用戶定制Combiner9.6 組合式MapReduce計算作業(yè)9.6.1 迭代MapReduce計算任務9.6.2 順序組合式MapReduce作業(yè)的執(zhí)行9.6.3 具有復雜依賴關系的組合式MapReduce作業(yè)的執(zhí)行9.6.4 MapReduce前處理和后處理步驟的鏈式執(zhí)行9.7 多數據源的連接9.7.1 基本問題數據示例9.7.2 用DataJoin類實現Reduce端連接9.7.3 用全局文件復制方法實現Map端連接9.7.4 帶Map端過濾的Reduce端連接9.7.5 多數據源連接解決方法的限制9.8 全局參數/數據文件的傳遞與使用9.8.1 全局作業(yè)參數的傳遞9.8.2 查詢全局的MapReduce作業(yè)屬性9.8.3 全局數據文件的傳遞9.9 關系數據庫的連接與訪問9.9.1 從數據庫中輸入數據9.9.2 向數據庫中輸出計算結果第10章 MapReduce數據挖掘基礎算法10.1 K-Means聚類算法10.1.1 K-Means聚類算法簡介10.1.2 基于MapReduce的K-Means算法的設計實現10.2 KNN最近鄰分類算法10.2.1 KNN最近鄰分類算法簡介10.2.2 基于MapReduce的KNN算法的設計實現10.3 樸素貝葉斯分類算法10.3.1 樸素貝葉斯分類算法簡介10.3.2 樸素貝葉斯分類并行化算法的設計10.3.3 樸素貝葉斯分類并行化算法的實現10.4 決策樹分類算法10.4.1 決策樹分類算法簡介10.4.2 決策樹并行化算法的設計10.4.3 決策樹并行化算法的實現10.5 頻繁項集挖掘算法10.5.1 頻繁項集挖掘問題描述10.5.2& ; Apriori頻繁項集挖掘算法簡介10.5.3 Apriori頻繁項集挖掘并行化算法的設計10.5.4 Apriori頻繁項集挖掘并行化算法的實現10.5.5 基于子集求取的頻繁項集挖掘算法的設計10.5.6 基于子集求取的頻繁項集挖掘并行化算法的實現10.6 隱馬爾科夫模型和最大期望算法10.6.1 隱馬爾科夫模型的基本描述10.6.2 隱馬爾科夫模型問題的解決方法10.6.3 最大期望算法概述10.6.4 并行化隱馬爾科夫算法設計10.6.5 隱馬爾科夫算法的并行化實現第11章 大數據處理算法設計與應用編程案例11.1 基于MapReduce的搜索引擎算法11.1.1 搜索引擎工作原理簡介11.1.2 基于MapReduce的文檔預處理11.1.3 基于MapReduce的文檔倒排索引構建11.1.4 建立Web信息查詢服務11.2 基于MapReduce的大規(guī)模短文本多分類算法11.2.1 短文本多分類算法工作原理簡介11.2.2 并行化分類訓練算法設計實現11.2.3 并行化分類預測算法設計實現11.3 基于MapReduce的大規(guī)?;蛐蛄斜葘λ惴?1.3.1 基因序列比對算法簡介11.3.2 并行化BLAST算法的設計與實現11.4 基于MapReduce的大規(guī)模城市路徑規(guī)劃算法11.4.1 問題背景和要求11.4.2 數據輸入11.4.3 程序設計要求11.4.4 算法設計總體框架和處理過程11.4.5 并行化算法的設計與實現11.5 基于MapReduce的大規(guī)模重復文檔檢測算法11.5.1 重復文檔檢測問題描述11.5.2 重復文檔檢測方法和算法設計11.5.3 重復文檔檢測并行化算法設計實現11.6 基于內容的并行化圖像檢索算法與引擎11.6.1 基于內容的圖像檢索問題概述11.6.2 圖像檢索方法和算法設計思路11.6.3 并行化圖像檢索算法實現11.7 基于MapReduce的大規(guī)模微博傳播分析11.7.1 微博分析問題背景與并行化處理過程11.7.2 并行化微博數據獲取算法的設計實現11.7.3 并行化微博數據分析算法的設計實現11.8 基于關聯規(guī)則挖掘的圖書推薦算法11.8.1 圖書推薦和關聯規(guī)則挖掘簡介11.8.2 圖書頻繁項集挖掘算法設計與數據獲取11.8.3 圖書關聯規(guī)則挖掘并行化算法實現11.9 基于Hadoop的城市智能交通綜合應用案例11.9.1 應用案例概述11.9.2 案例一:交通事件檢測11.9.3 案例二:交通流統(tǒng)計分析功能11.9.4 案例三:道路旅行時間分析11.9.5 案例四:HBase實時查詢11.9.6 案例五:HBase& ;Endpoint快速統(tǒng)計11.9.7 案例六:利用Hive高速統(tǒng)計附錄附錄A OpenMP并行程序設計簡介附錄B MPI并行程序設計簡介附錄C 英特爾Apache& ;Hadoop*系統(tǒng)安裝手冊參考文獻

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號