Scala 中的 DataFrame API 查询:
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder.appName("Example").getOrCreate()
// 读取数据
val df = spark.read.json("path/to/data.json")
// 显示数据架构
df.printSchema()
// 选择特定列
val selectedData = df.select("name", "age")
// 运行过滤操作
val filteredData = df.filter(df("age") > 21)
// 使用 groupBy 和聚合函数
val result = df.groupBy("age").agg("age" -> "count")
// 显示结果
result.show()
Python 中的 DataFrame API 查询:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Example").getOrCreate()
# 读取数据
df = spark.read.json("path/to/data.json")
# 显示数据架构
df.printSchema()
# 选择特定列
selected_data = df.select("name", "age")
# 运行过滤操作
filtered_data = df.filter(df["age"] > 21)
# 使用 groupBy 和聚合函数
result = df.groupBy("age").agg({"age": "count"})
# 显示结果
result.show()
这些代码片段演示了如何使用DataFrame API执行一些常见的操作,包括读取数据、选择列、过滤数据、使用groupBy进行分组聚合等。在这些例子中,DataFrame API的使用与Scala和Python中的其他标准库和语法集成得相当好。
值得注意的是,Spark还提供了在SQL中编写查询的能力,无论是在Scala还是Python中,都可以使用Spark SQL执行类似的查询。这种集成性质使得开发人员可以更自然地在Spark中进行数据处理和分析。
转载请注明出处:http://www.pingtaimeng.com/article/detail/9365/Spark