1. 创建SparkSession:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("SparkSQLExample").getOrCreate()
2. 加载数据:
假设你有一个Parquet文件,你可以使用spark.read.parquet()方法加载数据。这里以加载一个名为people.parquet的文件为例:
data = spark.read.parquet("path/to/people.parquet")
3. 创建临时视图:
将数据注册为一个临时视图,以便通过SQL查询进行访问。
data.createOrReplaceTempView("people")
4. 执行SQL查询:
使用Spark SQL执行SQL查询。
result = spark.sql("SELECT * FROM people WHERE age BETWEEN 20 AND 30")
5. 显示查询结果:
打印查询结果或以其他方式处理它。
result.show()
这只是一个简单的入门示例,实际使用中可能会涉及到更复杂的数据处理和查询。确保你已经配置好Spark环境,并根据实际情况修改路径和文件名。
转载请注明出处:http://www.pingtaimeng.com/article/detail/9362/Spark