发布网友 发布时间:2022-03-03 15:56
共1个回答
热心网友 时间:2022-03-03 17:26
pandas是本书后续内容的首选库。pandas可以满足以下需求:
具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误。.
集成时间序列功能
既能处理时间序列数据也能处理非时间序列数据的数据结构
数*算和简约(比如对某个轴求和)可以根据不同的元数据(轴编号)执行
灵活处理缺失数据
合并及其他出现在常见数据库(例如基于SQL的)中的关系型运算
1、pandas数据结构介绍
两个数据结构:Series和DataFrame。Series是一种类似于以为NumPy数组的对象,它由一组数据(各种NumPy数据类型)和与之相关的一组数据标签(即索引)组成的。可以用index和values分别规定索引和值。如果不规定索引,会自动创建 0 到 N-1 索引。
#-*- encoding:utf-8 -*-import numpy as npimport pandas as pdfrom pandas import Series,DataFrame#Series可以设置index,有点像字典,用index索引obj = Series([1,2,3],index=['a','b','c'])#print obj['a']#也就是说,可以用字典直接创建Seriesdic = dict(key = ['a','b','c'],value = [1,2,3])DataFrame是一种表格型结构,含有一组有序的列,每一列可以是不同的数据类型。既有行索引,又有列索引,可以被看做由Series组成的字典(使用共同的索引)。跟其他类似的数据结构(比如R中的data.frame),DataFrame面向行和列的操作基本是平衡的。其实,DataFrame中的数据是以一个或者多个二维块存放的(不是列表、字典或者其他)。
#-*- encoding:utf-8 -*-import numpy as npimport pandas as pdfrom pandas import Series,DataFrame#构建DataFrame可以直接传入等长的列表或Series组成的字典#不等长会产生错误data = {'a':[1,2,3], 'c':[4,5,6], 'b':[7,8,9]另一种常见的结构是嵌套字典,即字典的字典,这样的结构会默认为外键为列,内列为行。
#-*- encoding:utf-8 -*-import numpy as npimport pandas as pdfrom pandas import Series,DataFrame#内层字典的键值会被合并、排序以形成最终的索引pop = {'Nevada':{2001:2.4,2002:2.9}, 'Ohio':{2000:1.5,2001:1.7,2002:3.6}}下面列出了DataFrame构造函数能够接受的各种数据。
索引对象
#-*- encoding:utf-8 -*-import numpy as npimport pandas as pdfrom pandas import Series,DataFrame#pandas索引对象负责管理轴标签和其他元数据,构建Series和DataFrame时,所用到的任何数组或其他序列的标签都被转换为Indexobj = Series(range(3),index = ['a','b','c'])pandas中的Index是一个类,pandas中主要的Index对象(什么时候用到)。
下面是Index的方法与属性,值得注意的是:index并不是数组。
2、基本功能
下面介绍基本的Series 和 DataFrame 数据处理手段。首先是索引:
#-*- encoding:utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame#Series有一个reindex函数,可以将索引重排,以致元素顺序发生变化obj = Series([1,2,3,4],index=['a','b','c','d'])#注意这里的reindex并不改变obj的值,得到的是一个“副本”#fill_value 显然是填充空的index的值#print obj.reindex(['a','c','d','b','e'],fill_value = 0)#print objobj2 = Series(['red','blue'],index=[0,4])#method = ffill,意味着前向值填充obj3 = obj2.reindex(range(6),method='ffill')#print obj3#DataFrame 的reindex可以修改行、列或者两个都改frame = DataFrame(np.arange(9).reshape((3,3)),index = ['a','c','d'],columns = ['Ohio','Texas','California'])#只是传入一列数,是对行进行reindex,因为...frame的行参数叫index...(我这么猜的)frame2 = frame.reindex(['a','b','c','d'])#print frame2#当传入原来没有的index是,当然返回的是空NaN#frame3 = frame.reindex(['e'])#print frame3states = ['Texas','Utah','California']#这是对行、列重排#注意:这里的method是对index 也就是行进行的填充,列是不能填充的(不管method的位置如何)frame4 = frame.reindex(index = ['a','b','c','d'],columns=states,method = 'ffill')#print frame4#使用ix的标签索引功能,重新索引变得比较简洁print frame.ix[['a','d','c','b'],states]丢弃指定轴上的项
#-*- encoding:utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame#drop函数可以丢弃轴上的列、行值obj = Series(np.arange(3.),index = ['a','b','c'])#原Series并不丢弃obj.drop('b')#print obj#注意下面,行可以随意丢弃,列需要加axis = 1print frame.drop(['a'])print frame.drop(['Ohio'],axis = 1)下面说索引、选取和过滤
#-*- encoding:utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame下面是常用的索引选项:
算术运算和数据对齐
#pandas 有一个重要的功能就是能够根据索引自动对齐,其中索引不重合的部分值为NaNs1 = Series([1,2,3],['a','b','c'])除了add之外,还有其他的方法:
DataFrame和Series之间的运算
#下面看一下DataFrame和Series之间的计算过程arr = DataFrame(np.arange(12.).reshape((3,4)),columns = list('abcd'))#下面的结果标明,就是按行分别相减即可,叫做 broadcasting#注意:默认情况下,DataFrame和Series的计算会将Series的索引匹配到DataFrame的列,然后进行计算,再沿着行一直向下广播#注意:下面的式子中,如果写arr - arr[0]是错的,因为只有标签索引函数ix后面加数字才表示行print arr - arr.ix[0]下面是函数应用和映射
#-*- encoding:utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame#NumPy的元素级数组方法也适用于pandas对象frame = DataFrame(np.random.randn(4,3),columns = list('abc'),index = ['Ut','Oh','Te','Or'])print frame#下面是求绝对值:#print np.abs(frame)#另一种常见的做法是:将一个函数应用到行或者列上,用apply方法,与R语言类似fun = lambda x:x.max() - x.min()#默认是应用在每一列上print frame.apply(fun)#下面是应用在列上print frame.apply(fun,axis = 1)#很多统计函数根本不用apply,直接调用方法就可以了print frame.sum()#除了标量值之外,apply函数后面还可以接返回多个值组成的的Series的函数,有没有很漂亮?def f(x): return Series([x.min(),x.max()],index = ['min','max'])#print frame.apply(f)#元素级的python函数也是可以用的,但是要使用applymap函数format = lambda x: '%.2f' % xprint frame.applymap(format)#之所以要用applymap是因为Series有一个应用于元素级函数的map方法??#这里的map很有用print frame['b'].map(format)排序与排名
#-*- encoding:utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame#用sort_index函数对行、列的索引进行排序obj = Series(range(4),index = ['d','a','b','c'])print obj.sort_index()带有重复值的轴索引
#-*- encoding:utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom pandas import Series,DataFrame#虽然pandas的很多函数(如reindex)要求标签唯一,但是并不具有强制性obj = Series(range(5),index = list('aabbc'))print obj#索引是否唯一用is_unique看是否唯一print obj.index.is_unique#对于重复值的索引,选取的话返回一个Series,唯一的索引返回一个标量print obj['a']#对于DataFrame也是如此df = DataFrame(np.random.randn(4,3),index = list('aabb'))print dfprint df.ix['b']#####自己导入数据的时候数据处理之前可以做一下index唯一性等,自己创建DataFrame注意不能这样3、汇总和计算描述统计
#-*- encoding:utf-8 -*-import numpy as npimport osimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as pltimport time#pandas 对象拥有一组常用的数学和统计方法,大部分属于简约统计,用于从Series中提取一个值,或者 从DataFrame中提取一列或者一行Series#注意:与NumPy数组相比,这些函数都是基于没有缺失数据的建设构建的,也就是说:这些函数会自动忽略缺失值。df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = list('abcd'),columns=['one','two'])print df.sum()print df.sum(axis = 1)#下面是一些函数,idxmin 和 idmax 返回的是达到最小或者最大的索引print df.idxmin()print df.idxmin(axis=1)#关于累积型的函数print df.cumsum()#describe函数,与R语言中的describe函数基本相同print df.describe()#对于非数值型的数据,看看下面的结果obj = Series(['c','a','a','b','d'] * 4)print obj.describe()'''结果为:相关系数与协方差
有些汇总