Pandas 是一个强大而灵活的 Python 数据分析库,广泛用于处理和分析结构化数据。以下是一个简单的 Pandas 教程,介绍 Pandas 的基本概念和用法。

安装 Pandas

首先,确保你已经安装了 Python。然后,使用以下命令安装 Pandas:
pip install pandas

Pandas 基础

1. 导入 Pandas:
   import pandas as pd

2. 创建 Series:
   data = [1, 2, 3, 4, 5]
   series = pd.Series(data)
   print(series)

3. 创建 DataFrame:
   data = {'Name': ['Alice', 'Bob', 'Charlie'],
           'Age': [25, 30, 35],
           'City': ['New York', 'San Francisco', 'Los Angeles']}
   df = pd.DataFrame(data)
   print(df)

4. 读取和写入数据:
   # 读取 CSV 文件
   df = pd.read_csv('data.csv')

   # 写入 CSV 文件
   df.to_csv('output.csv', index=False)

数据检查和基本操作

1. 查看数据:
   # 查看头部数据
   print(df.head())

   # 查看尾部数据
   print(df.tail())

2. 基本信息:
   # 显示数据类型、非空值数量等信息
   print(df.info())

   # 显示基本统计信息
   print(df.describe())

3. 索引和选择数据:
   # 选择列
   print(df['Name'])

   # 使用 loc 根据标签选择行
   print(df.loc[0])

   # 使用 iloc 根据索引选择行
   print(df.iloc[0])

4. 条件过滤:
   # 根据条件过滤数据
   filtered_data = df[df['Age'] > 30]
   print(filtered_data)

数据处理

1. 缺失值处理:
   # 删除包含缺失值的行
   df.dropna()

   # 填充缺失值
   df.fillna(value)

2. 重复值处理:
   # 删除重复行
   df.drop_duplicates()

3. 排序:
   # 根据某一列排序
   df.sort_values(by='Age', ascending=False)

数据分析和统计

1. 分组和聚合:
   # 按城市分组,计算平均年龄
   grouped_data = df.groupby('City')['Age'].mean()
   print(grouped_data)

2. 计数和唯一值:
   # 计算每个城市的人数
   city_counts = df['City'].value_counts()
   print(city_counts)

   # 获取唯一城市列表
   unique_cities = df['City'].unique()
   print(unique_cities)

3. 数据透视表:
   # 创建数据透视表
   pivot_table = pd.pivot_table(df, values='Age', index='City', aggfunc='mean')
   print(pivot_table)

数据可视化

Pandas 集成了 Matplotlib,可以使用 Pandas 提供的内置绘图功能进行简单的数据可视化。
# 使用 Pandas 内置的绘图功能
df.plot(x='Name', y='Age', kind='bar', title='Age Distribution')

以上是一个简单的 Pandas 教程,涵盖了基本的数据处理、分析和可视化功能。Pandas 提供了更多复杂和高级的功能,你可以在[官方文档](https://pandas.pydata.org/pandas-docs/stable/index.html)中找到详细信息。


转载请注明出处:http://www.pingtaimeng.com/article/detail/276/Python3