安装 Pandas
首先,确保你已经安装了 Python。然后,使用以下命令安装 Pandas:
pip install pandas
Pandas 基础
1. 导入 Pandas:
import pandas as pd
2. 创建 Series:
data = [1, 2, 3, 4, 5]
series = pd.Series(data)
print(series)
3. 创建 DataFrame:
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'San Francisco', 'Los Angeles']}
df = pd.DataFrame(data)
print(df)
4. 读取和写入数据:
# 读取 CSV 文件
df = pd.read_csv('data.csv')
# 写入 CSV 文件
df.to_csv('output.csv', index=False)
数据检查和基本操作
1. 查看数据:
# 查看头部数据
print(df.head())
# 查看尾部数据
print(df.tail())
2. 基本信息:
# 显示数据类型、非空值数量等信息
print(df.info())
# 显示基本统计信息
print(df.describe())
3. 索引和选择数据:
# 选择列
print(df['Name'])
# 使用 loc 根据标签选择行
print(df.loc[0])
# 使用 iloc 根据索引选择行
print(df.iloc[0])
4. 条件过滤:
# 根据条件过滤数据
filtered_data = df[df['Age'] > 30]
print(filtered_data)
数据处理
1. 缺失值处理:
# 删除包含缺失值的行
df.dropna()
# 填充缺失值
df.fillna(value)
2. 重复值处理:
# 删除重复行
df.drop_duplicates()
3. 排序:
# 根据某一列排序
df.sort_values(by='Age', ascending=False)
数据分析和统计
1. 分组和聚合:
# 按城市分组,计算平均年龄
grouped_data = df.groupby('City')['Age'].mean()
print(grouped_data)
2. 计数和唯一值:
# 计算每个城市的人数
city_counts = df['City'].value_counts()
print(city_counts)
# 获取唯一城市列表
unique_cities = df['City'].unique()
print(unique_cities)
3. 数据透视表:
# 创建数据透视表
pivot_table = pd.pivot_table(df, values='Age', index='City', aggfunc='mean')
print(pivot_table)
数据可视化
Pandas 集成了 Matplotlib,可以使用 Pandas 提供的内置绘图功能进行简单的数据可视化。
# 使用 Pandas 内置的绘图功能
df.plot(x='Name', y='Age', kind='bar', title='Age Distribution')
以上是一个简单的 Pandas 教程,涵盖了基本的数据处理、分析和可视化功能。Pandas 提供了更多复杂和高级的功能,你可以在[官方文档](https://pandas.pydata.org/pandas-docs/stable/index.html)中找到详细信息。
转载请注明出处:http://www.pingtaimeng.com/article/detail/276/Python3