Python中的数据类型
与数据统计分析紧密相关的是数据类型(也叫数据结构),即数据是以什么样的结构存储起来的。为此,我们需要首先掌握Python中的几个基本数据类型和第三方包提供的常用数据类型。
查看数据类型
内置函数type()
可以查看数据的类型,例如:type(1)
会输出<class 'int'>
。
Python 中的基本数据类型
在 Python 中,有数字、字符串、元组、列表、字典、集合六种基本的数据类型。其中字符串、元组、列表为序列类型,字典为映射类型,集合为集合类型。
数字类型
Python3 中有 3 种类型的数字,即int
、float
、complex
,分别是整数、浮点数、复数类型。其中bool
类型是int
的子类型,因为该类型的数字只能是0
和1
。
关于数字类型的详细内容见数字类型 。
序列类型
所谓序列sequence
,指的是一块可存放多个值的连续内存空间,这些值按一定顺序排列,可通过每个值所在位置的编号(称为索引)访问它们。在Python中,字符串str
、元组tuple
、列表list
都是序列。
关于序列的详细内容见序列。
字符串
字符串str
是由 Unicode 码位构成的不可变序列。使用单引号' '
、双引号" "
或者三引号""" """
、''' '''
指定字符串。例如'字符串'
、"abc"
、"""字符串"""
。
关于字符串的详细内容见字符串。
元组
元组tuple
是一维序列,长度固定,不可变。元组用圆括号()
表示,其中的成员用逗号,
分隔。例如(1,2,3)
。
关于元组的详细内容见元组。
列表
列表list
是一维序列,但长度可变,内容可编辑。列表用方括号[]
表示,其中的成员用逗号,
分隔。如[1,2,3]
关于列表的详细内容见列表。
映射类型:字典
字典dict
是将键key
和值value
一一对应的一种数据类型,字典的大小和内容是可变的。字典用花括号{}
表示,键与对应的值用冒号:
连接,键值对之间用逗号,
分隔。如{'姓名':'小明','性别':'男'}
。
关于字典的详细内容见字典。
集合类型
集合set
是由唯一元素组成的无序集合,可看成是只有键
没有值
的字典,集合set
是可变的。集合用花括号{}
来表示,成员之间用逗号,
隔开。例如{1,2,3}
。
第三方包提供的常用数据类型
数组ndarray
数组ndarray
是第三方包Numpy提供的数据类型,可以是一维(也被叫作向量vector)、二维(也被叫作矩阵matrix)和多维,数组中的元素类型都是相同类型。数组由实际数据和元数据(维度、类型)构成,例如np.array(data1, dtype=np.float32)
。
数组的创建案例见:数组的创建。
系列series
系列series
是第三方包Pandas提供的数据类型,由索引Seires.index和一维数值Series.values组成,Series
可以理解为有序号的单列表格。不同与Numpy中的一维数组,Pandas中的系列除了可以存储数字外,还可存储字符、对象等多种类型的数据。使用Pandas提供的函数Series
可以创建系列。
系列数据的基本操作见:系列series
数据框dataframe
数据框(dataframe)是由第三方包[[../pandas/Pandas|Pandas]]提供的一种带标签的二维数组,是一种表格结构的数据,因此也有文档中把这种数据叫作表。数据框由行索引(index)、列索引(columns)和二维数组(values)组成。 数据框的每一列和每一行都是一个系列(series)。
数据框的更多内容见:数据框基础知识。
常用数据数据类型转换
使用数据类型函数可以转换常用类型。如str、int、dict等等。
还可以将DataFrame
类型转化为列表类型。例如
='records') df.to_dict(orient