1. 安装 Spark:
- 下载 Spark 并解压缩到你的计算机上。
2. 配置 Spark:
- 进入 Spark 的 conf 目录,复制 spark-env.sh.template 为 spark-env.sh。
- 编辑 spark-env.sh 文件,设置 Spark 的环境变量,例如:
export SPARK_HOME=/path/to/spark
export HADOOP_CONF_DIR=/path/to/hadoop/conf
3. 配置 Hadoop YARN:
- 确保你的 Hadoop 配置正确,包括 HADOOP_CONF_DIR 指向 Hadoop 配置目录。
- 在 Hadoop 的 bin 目录中运行 yarn 命令,确保 YARN 管理器正常运行。
4. 编写并打包 Spark 应用程序:
- 编写你的 Spark 应用程序,并将其打包为 JAR 文件。
5. 提交 Spark 应用程序:
- 在 Spark 的 bin 目录中运行 spark-submit 命令来提交你的应用程序:
./spark-submit --class your.package.YourAppClass \
--master yarn \
--deploy-mode client \
your-app.jar
6. 查看应用程序状态:
- 你可以通过 YARN ResourceManager 的 Web UI 或者命令行来查看你的 Spark 应用程序的状态。
在上述步骤中,--master yarn 表示在 YARN 上运行,--deploy-mode client 表示在客户端模式下运行。你还可以选择使用 --deploy-mode cluster,这将在 YARN 集群上启动 Driver 程序。请注意,配置文件和环境变量的正确设置对于 Spark 应用程序的顺利运行是非常重要的。
如果你的应用程序依赖于外部库,确保这些库在集群的每个节点上都是可用的。你可能需要将这些库打包到你的 JAR 文件中,或者配置 Spark 的 --jars 选项来引用这些库。
转载请注明出处:http://www.pingtaimeng.com/article/detail/9378/Spark