启动 Spark Shell:
Scala Shell:
./bin/spark-shell
Python Shell:
./bin/pyspark
在 Windows 上,您可以使用相应的 .cmd 文件,例如 spark-shell.cmd 或 pyspark.cmd。
使用 Spark Shell:
1. Scala Shell 示例:
// 创建一个包含 1 到 10 的整数的 RDD
val data = 1 to 10
val rdd = sc.parallelize(data)
// 执行一些简单的转换和动作操作
val doubledRDD = rdd.map(x => x * 2)
val sum = doubledRDD.reduce((a, b) => a + b)
// 打印结果
println(s"Original RDD: ${rdd.collect().mkString(", ")}")
println(s"Doubled RDD: ${doubledRDD.collect().mkString(", ")}")
println(s"Sum of Doubled RDD: $sum")
2. Python Shell 示例:
# 创建一个包含 1 到 10 的整数的 RDD
data = list(range(1, 11))
rdd = sc.parallelize(data)
# 执行一些简单的转换和动作操作
doubled_rdd = rdd.map(lambda x: x * 2)
total_sum = doubled_rdd.reduce(lambda a, b: a + b)
# 打印结果
print(f"Original RDD: {rdd.collect()}")
print(f"Doubled RDD: {doubled_rdd.collect()}")
print(f"Sum of Doubled RDD: {total_sum}")
Spark Shell 提供的功能:
- 实时反馈: 您可以即时查看每个步骤的输出,方便调试和理解 Spark 的操作。
- 交互式探索: Spark Shell 允许您交互式地探索数据、测试算法和尝试 Spark 的各种功能。
- Shell 环境配置: 您可以在启动 Shell 时通过命令行参数进行配置,例如设置内存分配、应用程序名称等。
- Scala、Java、Python 支持: Spark Shell 提供了 Scala、Java 和 Python 三种语言的支持,方便不同语言背景的开发者使用。
Spark Shell 是学习 Spark、快速尝试代码和进行原型开发的有力工具。在实际生产环境中,通常会使用 Spark 提交脚本或应用程序来执行更复杂的任务。
转载请注明出处:http://www.pingtaimeng.com/article/detail/9336/Spark