Spark 组件之间的网络连接问题会导致各式各样的警告/错误:
SparkContext <-> Spark Standalone Master:
如果 SparkContext 不能连接到 Spark standalone master,会显示下面的错误
ERROR AppClient$ClientActor: All masters are unresponsive! Giving up.
ERROR SparkDeploySchedulerBackend: Spark cluster looks dead, giving up.
ERROR TaskSchedulerImpl: Exiting due to error from cluster scheduler: Spark cluster looks down
如果 driver 能够连接到 master 但是 master 不能回连到 driver上,这时 Master 的日志会记录多次尝试连接 driver 失败并且会报告不能连接:
INFO Master: Registering app SparkPi
INFO Master: Registered app SparkPi with ID app-XXX-0000
INFO: Master: Removing app app-app-XXX-0000
[...]
INFO Master: Registering app SparkPi
INFO Master: Registered app SparkPi with ID app-YYY-0000
INFO: Master: Removing app app-YYY-0000
[...]
在这样的情况下,master 报告应用已经被成功地注册了。但是注册成功的通知 driver 接收失败了, 这时 driver 会自动尝试几次重新连接直到失败的次数太多而放弃重试。其结果是 Master web UI 会报告多个失败的应用,即使只有一个 SparkContext 被创建。
如果你遇到上述的任何错误:
SPARK_LOCAL_IP
为集群的可寻地址主机名。这节将描述我们如何绑定 Spark 组件的网络接口和端口。
在每节里,配置会按照优先级降序的方式排列。如果前面所有配置没有提供则使用最后一条作为默认配置。
Hostname:
spark.driver.host
属性SPARK_LOCAL_IP
环境变量的设置是主机名(hostname),就会使用设置时的主机名。如果 SPARK_LOCAL_IP
设置的是一个 IP 地址,这个 IP 地址会被解析为主机名。InetAddress.getLocalHost
方法的返回值。Port:
spark.driver.port
属性。Hostname:
Master
或 Worker
进程启动时使用 --host
或 -h
选项(或是过期的选项 --ip
或 -i
)。SPARK_MASTER_HOST
环境变量(仅应用在 Master
上)。SPARK_LOCAL_IP
环境变量的设置是主机名(hostname),就会使用设置时的主机名。如果 SPARK_LOCAL_IP
设置的是一个 IP 地址,这个 IP 地址会被解析为主机名。InetAddress.getLocalHost
方法的返回值。Port:
Master
或 Worker
进程启动时使用 --port
或 -p
选项。SPARK_MASTER_PORT
或 SPARK_WORKER_PORT
环境变量(分别应用到 Master
和 Worker
上)。