如今,流式數(shù)據(jù)是大數(shù)據(jù)中的一個大問題。 隨著越來越多的企業(yè)試圖掌控遍布全球的無限海量數(shù)據(jù)集,流式系統(tǒng)終于到了足以被主流接納的成熟度。通過這本實用指南,數(shù)據(jù)工程師、數(shù)據(jù)科學家和開發(fā)人員將學習到如何以概念化和無關于平臺的方式處理流式數(shù)據(jù)。 基于對Tyler Akidau的熱門博文《Streaming 101》和 《Streaming 102》的拓展,本書將帶你從入門到細致入微地理解實時數(shù)據(jù)流處理的what、where、when和how。你還將與合著者Slava Chernyak和Reuven Lax一起深入了解水印和exactly-once處理。你將學習到: 如何比較流式和批量數(shù)據(jù)處理模式 健全的亂序數(shù)據(jù)處理背后的核心原理和概念 水印如何在無限數(shù)據(jù)集中跟蹤進度和完整性 exactly-once數(shù)據(jù)處理技術如何確保正確性 流和表的概念如何構成批量和流式數(shù)據(jù)處理的基礎 用現(xiàn)實世界的例子演示強大的持久狀態(tài)機制背后的實用動機 時變關系(time-varying relations)如何將流處理和熟悉的SQL及關系代數(shù)世界聯(lián)系起來