1. 数据结构:
- Series: 类似于一维数组的数据结构,可以包含不同类型的数据。
- DataFrame: 二维表格,类似于关系型数据库或 Excel 表格,是 Pandas 中最常用的数据结构。
2. 创建数据结构:
- 从列表或数组创建 Series:
import pandas as pd
data = [1, 2, 3, 4, 5]
series = pd.Series(data)
- 从字典创建 DataFrame:
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
3. 基本操作:
- 索引和选择:
df['Name'] # 选择 'Name' 列
df.iloc[0] # 选择第一行
- 过滤数据:
df[df['Age'] > 30] # 选择年龄大于 30 的行
- 处理缺失值:
df.dropna() # 删除包含缺失值的行
df.fillna(value) # 用指定值填充缺失值
- 数据排序:
df.sort_values(by='Age', ascending=False) # 按年龄降序排序
4. 统计和汇总:
- 描述性统计:
df.describe() # 提供平均值、标准差等统计信息
- 分组和聚合:
df.groupby('Category').mean() # 按 'Category' 列分组并计算均值
5. 读写数据:
- 读取数据:
df = pd.read_csv('filename.csv') # 从 CSV 文件中读取数据
- 写入数据:
df.to_csv('output.csv', index=False) # 将 DataFrame 写入 CSV 文件
Pandas 的功能非常丰富,上述只是一些基本操作。它的文档提供了详细的说明和示例,可供进一步学习和参考。通过结合 Pandas 和其他 Python 数据科学库(如 NumPy、Matplotlib、Seaborn等),您可以进行强大的数据分析和可视化。
转载请注明出处:http://www.pingtaimeng.com/article/detail/12028/AI人工智能