Spark编程指南 - 简体中文版
Introduction
1.
快速上手
1.1.
Spark Shell
1.2.
独立应用程序
1.3.
开始翻滚吧!
2.
编程指南
2.1.
引入 Spark
2.2.
初始化 Spark
2.3.
Spark RDDs
2.3.1.
并行集合
2.3.2.
外部数据集
2.3.3.
RDD 操作
2.3.3.1.
传递函数到 Spark
2.3.3.2.
使用键值对
2.3.3.3.
Transformations
2.3.3.4.
Actions
2.3.4.
RDD持久化
2.4.
共享变量
2.5.
从这里开始
3.
Spark Streaming
3.1.
一个快速的例子
3.2.
基本概念
3.2.1.
关联
3.2.2.
初始化StreamingContext
3.2.3.
离散流
3.2.4.
输入DStreams
3.2.5.
DStream中的转换
3.2.6.
DStream的输出操作
3.2.7.
缓存或持久化
3.2.8.
Checkpointing
3.2.9.
部署应用程序
3.2.10.
监控应用程序
3.3.
性能调优
3.3.1.
减少批数据的执行时间
3.3.2.
设置正确的批容量
3.3.3.
内存调优
3.4.
容错语义
4.
Spark SQL
4.1.
开始
4.2.
数据源
4.2.1.
RDDs
4.2.2.
parquet文件
4.2.3.
JSON数据集
4.2.4.
Hive表
4.3.
性能调优
4.4.
其它SQL接口
4.5.
编写语言集成(Language-Integrated)的相关查询
4.6.
Spark SQL数据类型
5.
GraphX编程指南
5.1.
开始
5.2.
属性图
5.3.
图操作符
5.4.
Pregel API
5.5.
图构造者
5.6.
顶点和边RDDs
5.7.
图算法
5.8.
例子
6.
部署
6.1.
独立运行Spark
6.2.
在yarn上运行Spark
7.
更多文档
Powered by
GitBook
Spark编程指南 - 简体中文版
基本概念
在了解简单的例子的基础上,下面将介绍编写Spark Streaming应用程序必需的一些基本概念。
关联
初始化StreamingContext
离散流
输入DStreams
DStream中的转换
DStream的输出操作
缓存或持久化
Checkpointing
部署应用程序
监控应用程序