Pandas 科学计算入门
Pandas 入门
基本操作
- Pandas 基于 NumPy 开发,提供了大量快捷便利的数据处理方法,由 AQR Capital Management 于 2008 年开发,2009 年开源发布, 是支撑 Python 科学计算的强大工具
1 | import pandas as pd |
Pandas 数据结构
数据结构 | 维度 | 轴标签 |
---|---|---|
Series | 一维 | index(唯一的轴) |
DataFrame | 二维 | index(行)和columns(列) |
Panel | 三维 | items、major_axis 和 minor_axis |
Series
最基础的 Pandas 对象,它定义了 NumPy 的 ndarray 对象的接口 __arrat__()
, 因此可以用 NumPy 的数组处理函数直接处理 Series 对象。
1 | import pandas as pd |
无索引时默认为0,1,2…
DataFrame
DataFrame 是表格型的数据结构,它含一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值)
1 | import numpy as np |
没有指定索引时行列名为索引的数值,看着怪怪的
当然也可以读取本地数据文件来建立 Series 和 DataFrame
函数 | 说明 |
---|---|
read_csv() | 从 csv 格式的文本文件读取数据 |
read_execl() | 从 Excel 文件读取数据 |
read_sql() | 从 SQL 数据库的查询结果载入数据 |
read_pickle() | 读入 pickle() 序列化后的数据 |
Pandas 数据的选取和清洗
用中括号[]选取行列
- 可以使用单个标签如 ‘a’ 或者标签的列表或数组如 [‘a’, ‘b’, ‘c’]来索引
- 具有标签’a’: ‘f’ 的切片对象,但与 Python 的 切片相反,包括开始和停止。
df['A']
会返回 Series 对象,等效于df.A
,df[['A']]
返回的是 DataFrame
df.loc & df.iloc & df.ix 标签定位
- 用逗号分隔开的左边的是行索引,右边的是列索引
- ‘:’ 表示全部
- loc 可以使用行列的索引(字母)来获取值而 iloc 使用的是整型的索引
- ix 既可以使用字母来索引也可以用整型的索引
df.at & df.iat
- 精确定位,使用方法如
df.at['a', 'A']
,df.iat[0, 0]
数据清洗的基础操作
- 我们获取的数据有些时候并不完整或者包含错误,这就需要我们批量的统一处理来便于我们的后续计算
1 | import pandas as pd |
Pandas 科学计算入门