1大數據采集處理方法1
1.1爬蟲程序設計方案1
1.2爬蟲程序實現方法5
1.3數據清洗20
2大數據存儲方法27
2.1分布式文件系統(tǒng)存儲大數據27
2.1.1HDFS體系結構27
2.1.2HDFS數據存儲方式28
2.1.3HDFS讀寫方式28
2.2分布式數據庫存儲大數據32
2.2.1Hbase體系結構32
2.2.2配置Hbase33
2.2.3Hbase表操作38
2.2.4訪問Hbase數據資源44
3大數據計算方法50
3.1分布式計算平臺構建方法50
3.2分布式計算框架構建方法60
3.3分布式計算程序設計方法63
4大數據分析模型構建方法78
4.1準備訓練數據78
4.2機器學習路徑和算法設計方法82
4.3數據可視化輔助建模方法88
4.4構建大數據分析模型91
5大數據分析模型檢驗方法108
5.1回歸診斷108
5.2交叉驗證113
6大數據分析模型優(yōu)化方法117
6.1Feature Scaling優(yōu)化法117
6.2逐步回歸優(yōu)化法118
6.3PCA主成分分析優(yōu)化方法120
6.4神經網絡優(yōu)化大數據分析模型127
參考文獻151