Pandas 数组/标量/数据类型参考手册
对于大多数数据类型,Pandas 使用 NumPy 数组作为具体的存储对象,这些对象被包含在 Index(索引)、Series(序列)或 DataFrame(数据框)中。
对于某些数据类型,Pandas 扩展了 NumPy 的类型系统。这些类型的字符串别名可以在 dtypes 中找到。
Pandas 数组
类/方法 | 描述 |
---|---|
pd.array(data, dtype) |
创建一个 Pandas 数组(ExtensionArray )。 |
pd.Series.array |
返回 Series 的底层数组(ExtensionArray )。 |
pd.arrays.IntegerArray |
用于存储整数数据的数组(支持缺失值)。 |
pd.arrays.BooleanArray |
用于存储布尔数据的数组(支持缺失值)。 |
pd.arrays.StringArray |
用于存储字符串数据的数组(支持缺失值)。 |
pd.arrays.IntervalArray |
用于存储区间数据的数组。 |
pd.arrays.DatetimeArray |
用于存储日期时间数据的数组。 |
pd.arrays.TimedeltaArray |
用于存储时间差数据的数组。 |
pd.arrays.PeriodArray |
用于存储周期数据的数组。 |
pd.arrays.SparseArray |
用于存储稀疏数据的数组。 |
Pandas 标量
类/方法 | 描述 |
---|---|
pd.NA |
表示缺失值的标量(类似于 NaN )。 |
pd.Timestamp |
表示时间戳的标量。 |
pd.Timedelta |
表示时间差的标量。 |
pd.Period |
表示周期的标量。 |
pd.Interval |
表示区间的标量。 |
pd.Categorical |
表示分类数据的标量。 |
Pandas 数据类型
类/方法 | 描述 |
---|---|
pd.StringDtype() |
字符串数据类型(支持缺失值)。 |
pd.BooleanDtype() |
布尔数据类型(支持缺失值)。 |
pd.Int8Dtype() |
8 位整数数据类型(支持缺失值)。 |
pd.Int16Dtype() |
16 位整数数据类型(支持缺失值)。 |
pd.Int32Dtype() |
32 位整数数据类型(支持缺失值)。 |
pd.Int64Dtype() |
64 位整数数据类型(支持缺失值)。 |
pd.Float32Dtype() |
32 位浮点数数据类型(支持缺失值)。 |
pd.Float64Dtype() |
64 位浮点数数据类型(支持缺失值)。 |
pd.CategoricalDtype() |
分类数据类型。 |
pd.DatetimeTZDtype() |
带时区的日期时间数据类型。 |
pd.PeriodDtype() |
周期数据类型。 |
pd.IntervalDtype() |
区间数据类型。 |
pd.SparseDtype() |
稀疏数据类型。 |
常用方法
数组方法
方法 | 描述 |
---|---|
array.take(indices) |
根据索引从数组中提取元素。 |
array.copy() |
复制数组。 |
array.isna() |
检查数组中的缺失值。 |
array.fillna(value) |
用指定值填充缺失值。 |
array.unique() |
返回数组中的唯一值。 |
array.value_counts() |
返回数组中每个值的频率。 |
标量方法
方法 | 描述 |
---|---|
timestamp.to_pydatetime() |
将 Timestamp 转换为 Python 的 datetime 对象。 |
timedelta.total_seconds() |
将 Timedelta 转换为总秒数。 |
period.start_time |
返回 Period 的起始时间。 |
period.end_time |
返回 Period 的结束时间。 |
interval.left |
返回 Interval 的左边界。 |
interval.right |
返回 Interval 的右边界。 |
数据类型方法
方法 | 描述 |
---|---|
dtype.name |
返回数据类型的名称。 |
dtype.kind |
返回数据类型的种类(如 i 表示整数,f 表示浮点数)。 |
dtype.construct_array_type() |
返回与数据类型关联的数组类。 |
实例
import pandas as pd
# 创建 Pandas 数组
arr = pd.array([1, 2, None], dtype=pd.Int64Dtype())
print(arr)
# 使用 Pandas 标量
ts = pd.Timestamp('2023-01-01')
print(ts.year) # 输出年份
# 使用 Pandas 数据类型
dtype = pd.StringDtype()
print(dtype.name) # 输出数据类型名称
# 创建 Pandas 数组
arr = pd.array([1, 2, None], dtype=pd.Int64Dtype())
print(arr)
# 使用 Pandas 标量
ts = pd.Timestamp('2023-01-01')
print(ts.year) # 输出年份
# 使用 Pandas 数据类型
dtype = pd.StringDtype()
print(dtype.name) # 输出数据类型名称
如果需要更详细的信息,可以参考 Pandas 官方文档。