叢書前言
譯者序
前言
第1章 大數據集成的挑戰(zhàn)和機遇1
1.1 傳統(tǒng)數據集成2
1.1.1 航班示例:數據源2
1.1.2 航班示例:數據集成7
1.1.3 數據集成:體系結構和三個主要步驟10
1.2 大數據集成:挑戰(zhàn)12
1.2.1 “V”維度13
1.2.2 案例研究:深網數據量15
1.2.3 案例研究:抽取的領域數據18
1.2.4 案例研究:深網數據的質量22
1.2.5 案例研究:淺網結構化數據25
1.2.6 案例研究:抽取的知識三元組28
1.3 大數據集成:機遇30
1.3.1 數據冗余性31
1.3.2 長數據32
1.3.3 大數據平臺33
1.4 章節(jié)安排33
第2章 模式對齊34
2.1 傳統(tǒng)模式對齊:快速導覽35
2.1.1 中間模式35
2.1.2 屬性匹配36
2.1.3 模式映射37
2.1.4 查詢問答38
2.2 應對多樣性和高速性的挑戰(zhàn)39
2.2.1 概率模式對齊39
2.2.2 按需集成用戶反饋52
2.3 應對多樣性和海量性的挑戰(zhàn)54
2.3.1 集成深網數據55
2.3.2 集成Web表格59
第3章 記錄鏈接68
3.1 傳統(tǒng)記錄鏈接:快速導覽69
3.1.1 兩兩匹配71
3.1.2 聚類72
3.1.3 分塊74
3.2 應對海量性挑戰(zhàn)76
3.2.1 使用MapReduce并行分塊77
3.2.2 meta-blocking:修剪兩兩匹配83
3.3 應對高速性挑戰(zhàn)88
3.4 應對多樣性挑戰(zhàn)95
3.5 應對真實性挑戰(zhàn)100
3.5.1 時態(tài)記錄鏈接100
3.5.2 具有唯一性約束的記錄鏈接107
第4章 大數據集成:數據融合113
4.1 傳統(tǒng)數據融合:快速導覽114
4.2 應對真實性挑戰(zhàn)116
4.2.1 數據源的準確度117
4.2.2 值為真的概率118
4.2.3 數據源之間的復制關系121
4.2.4 端到端的解決方案128
4.2.5 擴展性和適應性131
4.3 應對海量性挑戰(zhàn)134
4.3.1 基于MapReduce框架做離線融合135
4.3.2 在線數據融合136
4.4 應對高速性挑戰(zhàn)142
4.5 應對多樣性挑戰(zhàn)146
第5章 大數據集成:出現的新問題149
5.1 眾包的角色149
5.1.1 利用傳遞關系150
5.1.2 眾包端到端的工作流155
5.1.3 未來的工作158
5.2 數據源選擇158
5.2.1 靜態(tài)數據源160
5.2.2 動態(tài)數據源162
5.2.3 未來的工作166
5.3 數據源分析166
5.3.1 Bellman系統(tǒng)167
5.3.2 概述數據源170
5.3.3 未來的工作174
第6章 結論175
參考文獻177
索引184