Pandas 是 Python 語言中的一個強大的資料分析套件,提供了高效且便捷的數據操作和分析工具。以下是 Pandas 套件的主要特性:
1. 資料結構
Series:
一種一維的標籤化數據結構,類似於一維數組、列表或字典。每個元素都有一個標籤(索引)。
例子:
python
複製程式碼
import pandas as pd
s = pd.Series([1, 3, 5, 7])
print(s)
DataFrame:
二維的標籤化數據結構,類似於電子表格或 SQL 表。每一行和每一列都有標籤(索引和列標)。
例子:
python
複製程式碼
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
print(df)
2. 資料操作
資料讀取與寫入:
Pandas 支持從多種文件格式讀取數據,如 CSV、Excel、SQL 數據庫、JSON 等。
例子:
python
複製程式碼
df = pd.read_csv('data.csv')
df.to_excel('output.xlsx')
資料選擇與過濾:
使用標籤(索引)或條件選擇和過濾資料。
例子:
python
複製程式碼
# 選擇列
df['A']
# 選擇行
df.loc[0]
# 選擇行和列
df.loc[0, 'A']
# 條件過濾
df[df['A'] > 1]
3. 資料清理
缺失值處理:
Pandas 提供了便捷的方法來檢查和處理缺失數據。
例子:
python
複製程式碼
df.dropna() # 刪除有缺失值的行
df.fillna(0) # 用0填補缺失值
資料轉換:
資料格式轉換、型別轉換、資料分組與合併。
例子:
python
複製程式碼
df['A'] = df['A'].astype(float) # 型別轉換
grouped = df.groupby('B').sum() # 分組
4. 資料分析
描述性統計:
提供多種描述性統計函數,如均值、標準差、最大值、最小值等。
例子:
python
複製程式碼
df.describe()
時間序列分析:
對時間序列資料進行處理和分析,支持時間索引、重採樣、移動平均等操作。
例子:
python
複製程式碼
df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)
df.resample('M').mean() # 按月重採樣並計算均值
5. 資料視覺化
快速視覺化:
與 Matplotlib 結合,Pandas 支持快速資料視覺化,如折線圖、柱狀圖、直方圖等。
例子:
python
複製程式碼
df.plot(kind='line') # 繪製折線圖
df['A'].hist() # 繪製直方圖
總結
Pandas 是一個功能強大且靈活的資料分析套件,其主要特性包括:
便捷的資料結構(Series 和 DataFrame)
強大的資料讀取與寫入功能
靈活的資料選擇與過濾操作
有效的資料清理與處理方法
全面的資料分析工具
支持快速資料視覺化
這些特性使 Pandas 成為資料科學家和分析師進行資料處理和分析的首選工具之一。