在 YARN 上运行 Spark 应用程序涉及到配置 Spark,准备 YARN 环境,并使用 spark-submit 提交应用程序。以下是在 YARN 上运行 Spark 应用程序的基本步骤:

1. 安装 Spark:
   - 下载 Spark 并解压缩到你的计算机上。

2. 配置 Spark:
   - 进入 Spark 的 conf 目录,复制 spark-env.sh.template 为 spark-env.sh。
   - 编辑 spark-env.sh 文件,设置 Spark 的环境变量,例如:
     export SPARK_HOME=/path/to/spark
     export HADOOP_CONF_DIR=/path/to/hadoop/conf

3. 配置 Hadoop YARN:
   - 确保你的 Hadoop 配置正确,包括 HADOOP_CONF_DIR 指向 Hadoop 配置目录。
   - 在 Hadoop 的 bin 目录中运行 yarn 命令,确保 YARN 管理器正常运行。

4. 编写并打包 Spark 应用程序:
   - 编写你的 Spark 应用程序,并将其打包为 JAR 文件。

5. 提交 Spark 应用程序:
   - 在 Spark 的 bin 目录中运行 spark-submit 命令来提交你的应用程序:
     ./spark-submit --class your.package.YourAppClass \
                    --master yarn \
                    --deploy-mode client \
                    your-app.jar
     替换 your.package.YourAppClass 为你的应用程序的主类,your-app.jar 为你打包的 JAR 文件。

6. 查看应用程序状态:
   - 你可以通过 YARN ResourceManager 的 Web UI 或者命令行来查看你的 Spark 应用程序的状态。

在上述步骤中,--master yarn 表示在 YARN 上运行,--deploy-mode client 表示在客户端模式下运行。你还可以选择使用 --deploy-mode cluster,这将在 YARN 集群上启动 Driver 程序。请注意,配置文件和环境变量的正确设置对于 Spark 应用程序的顺利运行是非常重要的。

如果你的应用程序依赖于外部库,确保这些库在集群的每个节点上都是可用的。你可能需要将这些库打包到你的 JAR 文件中,或者配置 Spark 的 --jars 选项来引用这些库。


转载请注明出处:http://www.pingtaimeng.com/article/detail/9378/Spark