1.1 什么是數據挖掘 1
1.2 數據挖掘解決的商業(yè)問題 4
1.3 數據挖掘的任務 5
1.3.1 分類 5
1.3.2 聚類 5
1.3.3 關聯 6
1.3.4 回歸 6
1.3.5 預測 7
1.3.6 序列分析 7
1.3.7 偏差分析 8
1.4 數據挖掘技術 8
1.5 數據流 9
1.6 數據挖掘項目的生命周期 10
1.6.1 第1步:數據收集 10
1.6.2 第2步:數據清理和轉換 10
1.6.3 第3步:模型構建 12
1.6.4 第4步:模型評估 12
1.6.5 第5步:報告 13
1.6.6 第6步:預測(評分) 13
1.6.7 第7步:應用集成 13
1.6.8 第8步:模型管理 13
1.7 數據挖掘當前市場與主要廠商 14
1.7.1 數據挖掘市場的大小 14
1.7.2 主要生產廠商和產品 14
1.8 目前存在的問題及挑戰(zhàn) 15
1.9 數據挖掘標準 16
1.10 OLE DB for DM規(guī)范和
XML for Analysis規(guī)范 16
1.10.1 用于數據挖掘的SQL/Multimedia 17
1.10.2 Java數據挖掘API 18
1.10.3 預測模型標記語言 20
1.10.4 Crisp-DM模型 23
1.10.5 公共倉庫元數據 24
1.11 數據挖掘的新趨勢 25
1.12 本章小結 26
第2章 OLE DB for DM規(guī)范 27
2.1 OLE DB介紹 27
2.2 為什么使用OLE DB進行數據挖掘 29
2.3 OLE DB for DM規(guī)范中的基本概念 31
2.3.1 事例 31
2.3.2 事例鍵 32
2.3.3 嵌套鍵 32
2.3.4 事例表和嵌套表 33
2.3.5 標量列和表列 33
2.3.6 數據挖掘模型 33
2.3.7 模型創(chuàng)建 33
2.3.8 模型訓練 33
2.3.9 模型預測 34
2.4 DMX 34
2.4.1 數據挖掘的3個步驟 34
2.4.2 預測函數 43
2.4.3 單例查詢 50
2.4.4 僅僅使用內容進行預測 51
2.4.5 鉆取模型的內容 52
2.4.6 內容查詢 52
2.5 理解模式行集 52
2.5.1 Mining_Services模式行集 53
2.5.2 Service_Parameters模式行集 54
2.5.3 Mining_Models模式行集 54
2.5.4 Mining_Columns模式行集 55
2.5.5 Mining_Model_Content模式行集 55
2.5.6 Query_Content模式行集 58
2.5.7 Mining_Functions模式行集 59
2.5.8 Model_PMML模式行集 60
2.6 理解用于挖掘結構的DMX擴展 60
2.6.1 挖掘結構 60
2.6.2 挖掘結構的DMX擴展 61
2.6.3 Mining Structure模式行集 62
2.7 本章小結 63
第3章 實踐SQL Server數據挖掘 65
3.1 BI Dev Studio介紹 65
3.1.1 理解用戶界面 66
3.1.2 脫機模式和即時模式 68
3.2 設置數據源 72
3.2.1 數據源 72
3.2.2 使用數據源視圖 74
3.3 創(chuàng)建和編輯模型 83
3.3.1 結構和模型 83
3.3.2 使用數據挖掘向導 83
3.3.3 創(chuàng)建MovieClick挖掘結構和挖掘模型 88
3.3.4 使用數據挖掘設計器 89
3.4 處理 94
3.5 使用模型 96
3.5.1 了解模型查看器 96
3.5.2 使用挖掘準確性圖表 98
3.5.3 為MovieClick模型創(chuàng)建一個提升圖 101
3.5.4 使用挖掘模型預測 101
3.5.5 針對MovieClick模型執(zhí)行查詢 102
3.5.6 創(chuàng)建數據挖掘報表 103
3.6 使用SQL Server Management Studio 104
3.6.1 了解Management Studio用戶界面 105
3.6.2 使用對象資源管理器 106
3.6.3 使用查詢編輯器 106
3.7 本章小結 107
第4章 Microsoft貝葉斯算法 109
4.1 貝葉斯算法介紹 109
4.2 理解貝葉斯算法的基本原理 110
4.3 貝葉斯算法的參數 112
4.4 使用貝葉斯算法 113
4.4.1 DMX 114
4.4.2 理解貝葉斯模型的內容 115
4.4.3 瀏覽貝葉斯模型 117
4.5 本章小結 120
第5章 Microsoft決策樹算法 121
5.1 決策樹算法介紹 121
5.2 決策樹算法的基本原理 122
5.2.1 決策樹生成的基本思想 122
5.2.2 處理變量中的多個狀態(tài) 125
5.2.3 避免過度訓練 125
5.2.4 結合先驗知識 126
5.2.5 特征選擇 126
5.2.6 使用連續(xù)的輸入屬性 127
5.2.7 回歸 127
5.2.8 使用Microsoft決策樹算法進行關聯分析 128
5.3 理解算法參數 129
5.4 使用決策樹算法 131
5.4.1 DMX查詢 131
5.4.2 模型內容 135
5.4.3 解釋模型 136
5.5 本章小結 139
第6章 Microsoft時序算法 141
6.1 Microsoft時序算法介紹 141
6.2 Microsoft時序算法的
基本原理 142
6.2.1 自動回歸 142
6.2.2 使用多個時間序列 144
6.2.3 自動回歸樹 144
6.2.4 季節(jié)性 145
6.2.5 預測歷史 146
6.2.6 高速緩存預測 146
6.3 理解時序算法的參數 147
6.4 使用Microsoft時序算法 148
6.4.1 DMX查詢 148
6.4.2 模型內容 152
6.4.3 模型解釋 152
6.5 本章小結 155
第7章 Microsoft聚類算法 157
7.1 Microsoft聚類算法介紹 158
7.2 聚類算法的基本原理 159
7.2.1 硬聚類算法與軟聚類算法 160
7.2.2 離散聚類 161
7.2.3 可伸縮聚類 162
7.2.4 聚類預測 163
7.3 聚類算法的參數 163
7.4 使用聚類模型 166
7.4.1 將聚類作為一個分析步驟 166
7.4.2 DMX 167
7.4.3 模型內容 169
7.4.4 理解聚類模型 169
7.5 本章小結 174
第8章 Microsoft序列聚類算法 175
8.1 Microsoft序列聚類算法介紹 175
8.2 Microsoft序列聚類算法的基本原理 176
8.2.1 什么是馬爾可夫鏈 176
8.2.2 馬爾可夫鏈的階 176
8.2.3 狀態(tài)轉移矩陣 177
8.2.4 使用馬爾可夫鏈來進行聚類 178
8.2.5 聚類分解 180
8.3 序列聚類算法的參數 180
8.4 使用序列聚類算法 181
8.4.1 DMX查詢 181
8.4.2 模型內容 185
8.4.3 解釋模型 185
8.5 本章小結 189
第9章 Microsoft關聯規(guī)則算法 191
9.1 Microsoft關聯規(guī)則算法介紹 191
9.2 關聯規(guī)則算法的基本原理 192
9.2.1 理解關聯規(guī)則算法的基本概念 192
9.2.2 挖掘頻繁項集 195
9.2.3 生成關聯規(guī)則 198
9.2.4 預測 198
9.3 關聯算法的參數 199
9.4 使用關聯算法 200
9.4.1 DMX查詢 200
9.4.2 模型內容 202
9.4.3 解釋模型 203
9.5 本章小結 205
第10章 Microsoft神經網絡算法 207
10.1 Microsoft神經網絡算法的基本原理 207
10.1.1 什么是神經網絡 208
10.1.2 組合和激活 209
10.1.3 反向傳播、誤差函數和共軛梯度 211
10.1.4 處理神經網絡的簡單示例 212
10.1.5 規(guī)范化和映射 213
10.1.6 網絡拓撲 214
10.1.7 訓練終止條件 215
10.2 神經網絡算法的參數 215
10.3 DMX查詢 216
10.4 模型內容 218
10.5 解釋模型 219
10.6 本章小結 221
第11章 挖掘OLAP立方體 223
11.1 OLAP介紹 224
11.1.1 理解星型模式和雪花模式 225
11.1.2 理解維和層次 225
11.1.3 理解度量和度量組 226
11.1.4 理解立方體的處理和存儲 227
11.1.5 使用前攝緩存 228
11.1.6 查詢立方體 228
11.2 執(zhí)行計算 229
11.3 瀏覽立方體 230
11.4 理解統一維度模型 231
11.5 理解OLAP和數據挖掘之間的關系 234
11.5.1 OLAP在聚集數據方面給數據挖掘帶來的好處 235
11.5.2 OLAP需要數據挖掘來發(fā)現模式 235
11.5.3 OLAP挖掘與關系挖掘 236
11.6 使用向導和編輯器來構建OLAP挖掘模型 237
11.6.1 使用數據挖掘向導 237
11.6.2 構建客戶細分模型 237
11.6.3 創(chuàng)建購物籃模型 239
11.6.4 創(chuàng)建銷售預測模型 242
11.6.5 使用數據挖掘編輯器 245
11.7 理解數據挖掘維 246
11.8 在DMX查詢內部使用MDX 248
11.9 將AMO用于OLAP挖掘模型 249
11.10 本章小結 253
第12章 SQL Server集成服務
數據挖掘 255
12.1 SSIS介紹 255
12.1.1 理解SSIS包 257
12.1.2 任務流 257
12.1.3 數據流 259
12.2 在SSIS環(huán)境中進行數據挖掘 261
12.2.1 數據挖掘任務 262
12.2.2 數據挖掘轉換 267
12.3 本章小結 276
第13章 SQL Server數據挖掘的體系結構 277
13.1 Analysis Services體系
結構介紹 277
13.2 XML for Analysis 278
13.2.1 XMLA的API 279
13.2.2 XMLA和Analysis Services 282
13.3 處理體系結構 283
13.4 數據挖掘管理 284
13.4.1 服務器配置 284
13.4.2 數據挖掘安全 285
13.5 本章小結 287
第14章 SQL Server數據挖掘編程 289
14.1 數據挖掘API 290
14.1.1 ADO 291
14.1.2 ADO.NET 291
14.1.3 ADOMD.NET 291
14.1.4 Server ADOMD 292
14.1.5 AMO 292
14.2 使用Analysis Services的API 292
14.3 使用Microsoft.AnalysisServices
創(chuàng)建和管理挖掘模型 293
14.3.1 AMO的基本原理 294
14.3.2 AMO應用程序和安全 295
14.3.3 對象的創(chuàng)建 296
14.4 瀏覽和查詢挖掘模型 305
14.4.1 使用ADOMD.NET來預測 306
14.4.2 瀏覽模型 309
14.4.3 存儲過程 311
14.4.4 編寫存儲過程 312
14.5 本章小結 317
第15章 實現一個Web交叉銷售
應用程序 319
15.1 源數據描述 319
15.2 構建模型 320
15.2.1 確定數據挖掘任務 320
15.2.2 將決策樹算法應用于關聯任務 320
15.2.3 使用關聯規(guī)則算法 322
15.2.4 兩個模型的比較 324
15.3 執(zhí)行預測 325
15.3.1 批處理預測查詢 325
15.3.2 使用單例預測查詢 327
15.4 在Web應用程序中集成預測功能 327
15.4.1 理解Web應用程序的體系結構 327
15.4.2 設置權限 328
15.4.3 分析Web推薦應用程序的樣例代碼 329
15.5 本章小結 332
第16章 使用Microsoft Excel進行高級預測 333
16.1 針對會話模型來配置Analysis Services 333
16.2 使用高級預測工具 334
16.3 ExcelTimeSeries插件的體系結構 336
16.4 構建輸入數據集 336
16.5 創(chuàng)建和訓練挖掘模型 339
16.5.1 連接數據挖掘引擎 339
16.5.2 創(chuàng)建和訓練 340
16.6 預測序列 342
16.7 結合所有代碼 343
16.8 本章小結 346
第17章 擴展SQL Server數據挖掘 347
17.1 理解插件算法 347
17.1.1 插件算法的架構 348
17.1.2 插件算法的概念 348
17.1.3 模型的創(chuàng)建和處理 350
17.1.4 預測 351
17.1.5 內容導航 352
17.1.6 受托管的插件 352
17.1.7 安裝插件算法 353
17.2 使用數據挖掘查看器 353
17.3 本章小結 354
第18章 總結與其他資源 355
18.1 重新回顧SQL Server 2005
數據挖掘的亮點 355
18.1.1 最新的算法 355
18.1.2 易于使用的工具 356
18.1.3 簡單而強大的API 356
18.1.4 與同類BI技術的集成 357
18.2 探討數據挖掘的新領域及應用357
18.3 延伸閱讀 358
18.3.1 Microsoft數據挖掘的資源358
18.3.2 數據挖掘的其他資源 358
18.3.3 流行的數據挖掘Web站點359
18.3.4 流行的數據挖掘會議 359
附錄A 導入數據集 361
A.1 數據集 361
A.1.1 MovieClick數據集 361
A.1.2 Voting Records數據集 363
A.1.3 FoodMart 2000數據集 364
A.1.4 College Plans數據集 364
A.2 導入數據集 364
附錄B 支持的VBA函數和
Excel函數 369
附錄C 學習資源 373