Summary 簡介 快速上手 Spark Shell 獨立應用程序 開始翻滾吧! 编程指南 引入 Spark 初始化 Spark Spark RDDs 并行集合 外部數據集 RDD 操作 傳遞函數到 Spark 使用键值對 轉換 行動 RDD持久化 共享變量 從這裏開始 Spark Streaming 一個快速的例子 基本概念 關聯 初始化StreamingContext 離散流 輸入DStreams DStream中的轉換 DStream的輸出操作 缓存或持久化 Checkpointing 部署應用程序 監控應用程序 性能優化 減少處理時間 設置正確的批次大小 記憶體優化 容錯語意 Spark SQL 開始 資料來源 RDDs parquet文件 JSON數據集 Hive表 性能優化 其它SQL接口 編寫語言集成(Language-Integrated)的相關查詢 Spark SQL數據類型 MLlib 數據類型(Data Type) 本地向量(Local vector) 標記點(Labeled point) 本地矩陣(Local matrix) 分布矩陣(Distributed matrix) RowMatrix IndexedRowMatrix CoordinateMatrix 基本統計分析(Basic Statistics) 概述統計量(Summary Statistics) 相關性(Correlations) 分層抽樣(Stratified sampling) 假設檢定(Hypothesis testing) 隨機數據生成(Random data generation) 分類與迴歸(Classification and Regression) 線性方法(Linear Methods) 數學公式(Mathematical formulation) 損失函數(Loss Function) 正則化(Regularizers) 最佳化 (Optimization) 二元分類(Binary classification) 線性支持向量機(SVMs) 邏輯斯迴歸(Logistic regression) 評估指標(Evaluation metrics) 示例(Examples) GraphX编程指南 開始 屬性圖 圖操作 Pregel API 圖建立者 頂點和邊RDDs 圖算法 例子 部署 提交應用程序 獨立運行Spark 在yarn上運行Spark 更多文件 Spark配置 RDD 持久化