本書描述了減少數據基礎設施成本和開發(fā)時間的技巧,適用于軟件工程師、數據工程師、開發(fā)者和系統(tǒng)管理員。你不僅可以從中獲得關于Spark的全面理解,也將學會如何讓它運轉自如。 在本書中你將發(fā)現: * Spark SQL的新接口如何在SQL的RDD數據結構上改善性能 * Core Spark和Spark SQL之間的數據拼接選擇 * 充分發(fā)揮標準RDD轉換功能的技巧 * 如何處理Spark的鍵/值對范式的相關性能問題 * 編寫高性能Spark代碼,不使用Scala或JVM * 如何在應用建議的改進措施時測試功能和性能 * 使用Spark MLlib和Spark ML機器學習庫 * Spark的流組件和外部社區(qū)軟件包