注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)Hive入門與大數(shù)據(jù)分析實(shí)戰(zhàn)

Hive入門與大數(shù)據(jù)分析實(shí)戰(zhàn)

Hive入門與大數(shù)據(jù)分析實(shí)戰(zhàn)

定 價(jià):¥89.00

作 者: 遲殿委
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787302634218 出版時(shí)間: 2023-06-01 包裝: 平裝-膠訂
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來(lái)進(jìn)行數(shù)據(jù)的提取、轉(zhuǎn)換、加載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。Hive能將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并能提供SQL查詢分析功能,將SQL語(yǔ)句轉(zhuǎn)換成MapReduce任務(wù)來(lái)執(zhí)行,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)進(jìn)行分析的目的。本書(shū)配套示例源碼、PPT課件、教學(xué)大綱。本書(shū)可作為Hive數(shù)據(jù)倉(cāng)庫(kù)初學(xué)者的入門書(shū),也可作為Hive大數(shù)據(jù)分析與大數(shù)據(jù)應(yīng)用開(kāi)發(fā)工程師的指導(dǎo)手冊(cè),還可作為高等院?;蛘吒呗毟邔S?jì)算機(jī)技術(shù)、人工智能、大數(shù)據(jù)技術(shù)及相關(guān)專業(yè)的教材或教學(xué)參考書(shū)?!禜ive入門與大數(shù)據(jù)分析實(shí)戰(zhàn)》共分11章,內(nèi)容包括數(shù)據(jù)倉(cāng)庫(kù)與Hive、Hive部署與基本操作、Hive語(yǔ)法基礎(chǔ)、Hive數(shù)據(jù)定義、Hive數(shù)據(jù)操作、Hive查詢、Hive函數(shù)、Hive數(shù)據(jù)壓縮、Hive調(diào)優(yōu)、基于Hive的網(wǎng)站流量分析項(xiàng)目實(shí)戰(zhàn)、旅游酒店評(píng)價(jià)大數(shù)據(jù)分析項(xiàng)目實(shí)戰(zhàn)。后的兩個(gè)項(xiàng)目實(shí)戰(zhàn)(均包括SQL和Java編程兩種解決方法)幫助讀者提高Hive大數(shù)據(jù)分析的綜合實(shí)戰(zhàn)能力。本書(shū)注重基礎(chǔ),內(nèi)容翔實(shí),突出示例講解,既可以作為從事數(shù)據(jù)分析處理的科研工程技術(shù)人員的自學(xué)用書(shū),也可以作為高等學(xué)校相關(guān)專業(yè)的本科生、研究生的教學(xué)用書(shū)。

作者簡(jiǎn)介

  遲殿委,計(jì)算機(jī)軟件與理論專業(yè)碩士,系統(tǒng)架構(gòu)設(shè)計(jì)師。有多年企業(yè)軟件研發(fā)經(jīng)驗(yàn)和豐富的JavaEE、大數(shù)據(jù)技術(shù)培訓(xùn)經(jīng)驗(yàn),熟練掌握J(rèn)avaEE與大數(shù)據(jù)全棧技術(shù)框架,擅長(zhǎng)JavaEE系統(tǒng)架構(gòu)設(shè)計(jì)、大數(shù)據(jù)分析與挖掘。著有圖書(shū)《Hive入門與大數(shù)據(jù)分析實(shí)戰(zhàn)》《Hadoop大數(shù)據(jù)分析技術(shù)》《Hadoop Spark大數(shù)據(jù)分析實(shí)戰(zhàn)》《Spring Boot企業(yè)級(jí)開(kāi)發(fā)實(shí)戰(zhàn)(視頻教學(xué)版)》《深入淺出Java編程》《Spring Boot Spring Cloud微服務(wù)開(kāi)發(fā)》。

圖書(shū)目錄

第1章  數(shù)據(jù)倉(cāng)庫(kù)與Hive1
1.1  數(shù)據(jù)倉(cāng)庫(kù)概述1
1.1.1  數(shù)據(jù)倉(cāng)庫(kù)特征與重要概念1
1.1.2  數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)方式2
1.2  Hive數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介5
1.3  Hive版本和MapReduce版本的WordCount比較6
1.4  Hive和Hadoop的關(guān)系7
1.5  Hive和關(guān)系數(shù)據(jù)庫(kù)的異同8
1.6  Hive數(shù)據(jù)存儲(chǔ)簡(jiǎn)介9
第2章  Hive部署與基本操作11
2.1  Linux環(huán)境的搭建11
2.1.1  VirtualBox虛擬機(jī)安裝11
2.1.2  安裝Linux操作系統(tǒng)13
2.1.3  SSH工具與使用19
2.1.4  Linux統(tǒng)一設(shè)置21
2.2  Hadoop偽分布式環(huán)境的搭建23
2.2.1  安裝本地模式運(yùn)行的Hadoop23
2.2.2  Hadoop偽分布式環(huán)境的準(zhǔn)備25
2.2.3  Hadoop偽分布式的安裝29
2.3  Hadoop完全分布式環(huán)境的搭建35
2.3.1  Hadoop完全分布式集群的搭建35
2.3.2  ZooKeeper高可靠集群的搭建40
2.3.3  Hadoop高可靠集群的搭建44
2.4  Hive的安裝與配置53
2.4.1  Hive的安裝與啟動(dòng)53
2.4.2  基本的SQL操作命令54
2.5  Hive的一些命令56
2.5.1  顯示Hive的幫助56
2.5.2  顯示Hive某個(gè)命令的幫助56
2.5.3  變量與屬性56
2.5.4  指定SQL語(yǔ)句或文件57
2.5.5  顯示表頭58
2.6  Hive元數(shù)據(jù)庫(kù)58
2.6.1  Derby58
2.6.2  MySQL60
2.7  MySQL的安裝61
2.8  配置MySQL保存Hive元數(shù)據(jù)62
2.9  HiveServer2與Beeline配置65
第3章  Hive語(yǔ)法基礎(chǔ)68
3.1  數(shù)據(jù)類型列表68
3.2  集合類型69
3.2.1  array測(cè)試70
3.2.2  map測(cè)試71
3.2.3  struct測(cè)試71
3.3  數(shù)據(jù)類型轉(zhuǎn)換72
3.4  運(yùn)算符73
3.5  Hive表存儲(chǔ)格式74
3.6  Hive的其他操作命令75
3.7  Hive分析Tomcat日志案例76
第4章  Hive數(shù)據(jù)定義79
4.1  數(shù)據(jù)庫(kù)的增刪改查79
4.1.1  在默認(rèn)位置創(chuàng)建數(shù)據(jù)庫(kù)79
4.1.2  指定目錄創(chuàng)建數(shù)據(jù)庫(kù)80
4.1.3  顯示當(dāng)前使用的數(shù)據(jù)庫(kù)81
4.1.4  刪除數(shù)據(jù)庫(kù)81
4.2  創(chuàng)建內(nèi)部表81
4.3  使用關(guān)鍵字external創(chuàng)建外部表83
4.3.1  指定現(xiàn)有目錄84
4.3.2  先創(chuàng)建表,再指定目錄84
4.3.3  顯示某個(gè)表或某個(gè)分區(qū)的信息85
4.4  創(chuàng)建分桶表86
4.5  分區(qū)表89
4.5.1  創(chuàng)建和顯示分區(qū)表89
4.5.2  增加、刪除和修改分區(qū)90
4.6  顯示某張表的詳細(xì)信息92
4.7  指定輸入輸出都是SequenceFile類型94
4.8  關(guān)于視圖94
4.8.1  使用視圖降低查詢的復(fù)雜度94
4.8.2  查看視圖的信息95
4.8.3  刪除視圖95
第5章  Hive數(shù)據(jù)操作96
5.1  向表中裝載數(shù)據(jù)96
5.2  通過(guò)Insert向表中插入數(shù)據(jù)97
5.3  動(dòng)態(tài)分區(qū)插入數(shù)據(jù)98
5.4  創(chuàng)建表并插入數(shù)據(jù)100
5.5  導(dǎo)出數(shù)據(jù)100
第6章  Hive查詢103
6.1  SelectFrom語(yǔ)句103
6.2  Select基本查詢104
6.3  Where語(yǔ)句105
6.4  Group By語(yǔ)句107
6.5  Join語(yǔ)句108
6.6  排序110
6.6.1  Order By110
6.6.2  Sort By112
6.6.3  Distribute By113
6.6.4  Cluster By114
6.7  抽樣查詢114
第7章  Hive函數(shù)117
7.1  查看系統(tǒng)內(nèi)置函數(shù)117
7.2  常用內(nèi)置函數(shù)117
7.3  Hive的其他函數(shù)121
7.3.1  準(zhǔn)備數(shù)據(jù)121
7.3.2  其他函數(shù)的使用121
7.3.3  顯示某個(gè)函數(shù)的幫助信息131
7.4  自定義函數(shù)132
7.4.1  Hive自定義UDF的過(guò)程132
7.4.2  Hive UDTF函數(shù)135
第8章  Hive數(shù)據(jù)壓縮138
8.1  數(shù)據(jù)壓縮格式138
8.2  數(shù)據(jù)壓縮配置139
8.2.1  Snappy壓縮方式配置139
8.2.2  MapReduce支持的壓縮編碼141
8.2.3  MapReduce壓縮參數(shù)配置142
8.3  開(kāi)啟Map端和Reduce端的輸出壓縮142
8.4  常用Hive表存儲(chǔ)格式比較144
8.5  存儲(chǔ)與壓縮相結(jié)合148
第9章  Hive調(diào)優(yōu)151
9.1  Hadoop計(jì)算框架特性151
9.2  Hive優(yōu)化的常用手段151
9.3  Hive優(yōu)化要點(diǎn)152
9.3.1  全排序152
9.3.2  怎樣做笛卡兒積156
9.3.3  怎樣寫(xiě)exist/in子句156
9.3.4  怎樣決定Reducer個(gè)數(shù)156
9.3.5  合并MapReduce操作157
9.3.6  Bucket與Sampling157
9.3.7  Partition158
9.3.8  Join158
9.3.9  數(shù)據(jù)傾斜160
9.3.10  合并小文件161
9.3.11  Group By163
第10章  基于Hive的網(wǎng)站流量分析項(xiàng)目實(shí)戰(zhàn)164
10.1  項(xiàng)目需求及分析164
10.1.1  數(shù)據(jù)集及數(shù)據(jù)說(shuō)明164
10.1.2  功能需求165
10.2  利用Java實(shí)現(xiàn)數(shù)據(jù)清洗165
10.2.1  數(shù)據(jù)上傳到HDFS166
10.2.2  http.log數(shù)據(jù)清洗166
10.2.3  phone.txt數(shù)據(jù)清洗170
10.3  利用MySQL實(shí)現(xiàn)數(shù)據(jù)清洗173
10.3.1  http.log數(shù)據(jù)清洗173
10.3.2  phone.txt數(shù)據(jù)清洗175
10.4  數(shù)據(jù)分析的實(shí)現(xiàn)176
10.4.1  創(chuàng)建Hive庫(kù)和表176
10.4.2  使用SQL進(jìn)行數(shù)據(jù)分析176
第11章  旅游酒店評(píng)價(jià)大數(shù)據(jù)分析項(xiàng)目實(shí)戰(zhàn)180
11.1  項(xiàng)目介紹180
11.2  項(xiàng)目需求及分析181
11.2.1  數(shù)據(jù)集及數(shù)據(jù)說(shuō)明181
11.2.2  功能需求183
11.3  利用Java實(shí)現(xiàn)數(shù)據(jù)清洗184
11.3.1  本地Hadoop運(yùn)行環(huán)境搭建184
11.3.2  數(shù)據(jù)上傳到HDFS186
11.3.3  Hadoop數(shù)據(jù)清洗189
11.4  利用MySQL實(shí)現(xiàn)數(shù)據(jù)清洗192
10.4.1  hotelbasic.csv數(shù)據(jù)清洗192
10.4.2  hoteldata.csv數(shù)據(jù)清洗193
11.5  數(shù)據(jù)分析的實(shí)現(xiàn)194
11.5.1  構(gòu)建Hive數(shù)據(jù)倉(cāng)庫(kù)表194
11.5.2  導(dǎo)出結(jié)果數(shù)據(jù)到MySQL197
11.6  分析結(jié)果數(shù)據(jù)可視化200
11.6.1  數(shù)據(jù)可視化開(kāi)發(fā)200
11.6.2  數(shù)據(jù)可視化部署208

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)