• Return to book
  • Review this book
  • About the author
  • Introduction
  • 1. 最佳实践
    • 1.1. 避免使用 GroupByKey
    • 1.2. 不要将大型 RDD 的所有元素拷贝到请求驱动者
  • 2. 常规故障处理
    • 2.1. Job aborted due to stage failure: Task not serializable
    • 2.2. 缺失依赖
    • 2.3. 执行 start-all.sh 错误 - Connection refused
    • 2.4. Spark 组件之间的网络连接问题
  • 3. 性能 & 优化
    • 3.1. 一个 RDD 有多少个分区
    • 3.2. 数据本地性
  • 4. Spark Streaming
    • 4.1. ERROR OneForOneStrategy
Powered by GitBook

Databricks Spark Knowledge Base ZH-CN

Databricks Spark 知识库

  • 最佳实践
    • 避免使用 GroupByKey
    • 不要将大型 RDD 的所有元素拷贝到请求驱动者
  • 常规故障处理
    • Job aborted due to stage failure: Task not serializable
    • 缺失依赖
    • 执行 start-all.sh 错误 - Connection refused
    • Spark 组件之间的网络连接问题
  • 性能 & 优化
    • 一个 RDD 有多少个分区
    • 数据本地性
  • Spark Streaming
    • ERROR OneForOneStrategy

Copyright

本文翻译自: http://databricks.gitbooks.io/databricks-spark-knowledge-base/ 著作权归原作者所有。

License

此内容使用的授权许可请查看这里。