基本语法:
STORE alias INTO 'output_path' [USING store_function] [WITH_PATH];
- alias: 要存储的数据的别名。
- 'output_path': 存储数据的目标路径或位置。
- [USING store_function]: 可选项,指定存储器函数,该函数负责将数据以特定格式保存到目标位置。如果不指定,默认使用 PigStorage,适用于文本文件。
- [WITH_PATH]: 可选项,指定是否将输出路径写入输出文件中。
示例:
假设有一个数据别名 result 包含了处理过的数据,以下是存储数据的示例:
-- 将处理过的数据存储到目标位置
STORE result INTO 'output' USING PigStorage(',');
这里的 result 是我们处理过的数据的别名,使用 STORE 将其存储到 'output' 目录中,数据将以逗号分隔的形式写入文件。
使用其他存储器:
如果你希望以不同的格式或存储方式保存数据,可以使用其他存储器函数。例如,使用 JsonStorage 存储数据为JSON格式:
-- 使用 JsonStorage 存储数据为 JSON 格式
STORE result INTO 'output_json' USING JsonStorage();
WITH_PATH 选项:
WITH_PATH 选项可用于将输出路径写入输出文件中,有助于跟踪数据的来源。在 STORE 语句中添加 WITH_PATH 后,输出文件中将包含文件的完整路径。
-- 将处理过的数据存储到目标位置,并将输出路径写入输出文件
STORE result INTO 'output_with_path' USING PigStorage(',') WITH_PATH;
注意事项:
- 存储路径: 存储路径可以是本地文件系统路径或Hadoop分布式文件系统(HDFS)路径,具体取决于你的需求和存储位置。
- 存储器函数: 根据存储数据的格式和要求,选择适当的存储器函数是很重要的。常见的存储器函数包括 PigStorage、TextLoader、JsonStorage 等。
- WITH_PATH: 使用 WITH_PATH 选项可以方便地记录输出文件的完整路径,但请注意可能会引入一些额外的信息量。
通过合理使用 STORE 操作,你可以将处理过的数据存储到指定的位置,以备后续的分析、查询或其他操作。
转载请注明出处:http://www.pingtaimeng.com/article/detail/11088/Apache Pig