解析pandas apply() 函数用法(推荐)
理解 pandas 的函数,要对函数式编程有一定的概念和理解。函数式编程,包括函数式编程思维,当然是一个很复杂的话题,但对今天介绍的 apply()
函数,只需要理解:函数作为一个对象,能作为参数传递给其它函数,也能作为函数的返回值。
函数作为对象能带来代码风格的巨大改变。举一个例子,有一个类型为 list 的变量,包含 从 1 到 10 的数据,需要从其中找出能被 3 整除的所有数字。用传统的方法:
def can_divide_by_three(number): if number % 3 == 0: return True else: return False selected_numbers = [] for number in range(1, 11): if can_divide_by_three(number): selected_numbers.append(number)
循环是不可少的,因为 can_divide_by_three()
函数只用一次,考虑用 lambda 表达式简化:
divide_by_three = lambda x : True if x % 3 == 0 else False selected_numbers = [] for number in range(1, 11): if divide_by_three(item): selected_numbers.append(item)
以上是传统编程思维方式,而函数式编程思维则完全不同。我们可以这样想:从 list 中取出特定规则的数字,能不能只关注和设置规则,循环这种事情交给编程语言去处理呢?当然可以。当编程人员只关心规则(规则可能是一个条件,或者由某一个 function 来定义),代码将大大简化,可读性也更强。
Python 语言提供 filter()
函数,语法如下:
filter(function, sequence)
filter()
函数的功能:对 sequence 中的 item 依次执行 function(item),将结果为 True 的 item 组成一个 List/String/Tuple(取决于 sequence 的类型)并返回。有了这个函数,上面的代码可以简化为:
divide_by_three = lambda x : True if x % 3 == 0 else False selected_numbers = filter(divide_by_three, range(1, 11))
将 lambda 表达式放在语句中,代码简化到只需要一句话就够了:
selected_numbers = filter(lambda x: x % 3 == 0, range(1, 11))
Series.apply()
回到主题, pandas 的 apply()
函数可以作用于 Series
或者整个 DataFrame
,功能也是自动遍历整个 Series
或者 DataFrame
, 对每一个元素运行指定的函数。
举一个例子,现在有这样一组数据,学生的考试成绩:
Name Nationality Score 张 汉 400 李 回 450 王 汉 460
如果民族不是汉族,则总分在考试分数上再加 5 分,现在需要用 pandas 来做这种计算,我们在 Dataframe 中增加一列。当然如果只是为了得到结果, numpy.where()
函数更简单,这里主要为了演示 Series.apply()
函数的用法。
import pandas as pd df = pd.read_csv("studuent-score.csv") df['ExtraScore'] = df['Nationality'].apply(lambda x : 5 if x != '汉' else 0) df['TotalScore'] = df['Score'] + df['ExtraScore']
对于 Nationality 这一列, pandas 遍历每一个值,并且对这个值执行 lambda 匿名函数,将计算结果存储在一个新的 Series
中返回。上面代码在 jupyter notebook 中显示的结果如下:
Name Nationality Score ExtraScore TotalScore
0 张 汉 400 0 400
1 李 回 450 5 455
2 王 汉 460 0 460
apply()
函数当然也可执行 python 内置的函数,比如我们想得到 Name 这一列字符的个数,如果用 apply()
的话:
df['NameLength'] = df['Name'].apply(len)
apply 函数接收带有参数的函数
根据 pandas 帮助文档 pandas.Series.apply — pandas 1.3.1 documentation,该函数可以接收位置参数或者关键字参数,语法如下:
Series.apply(func, convert_dtype=True, args=(), **kwargs)
对于 func 参数来说,该函数定义中的第一个参数是必须的,所以 funct() 除第一个参数之外的其它参数则被视为额外的参数,作为参数来传递。我们仍以刚才的示例进行说明,假设除汉族外,其他少数名族有加分,我们把加分放在函数的参数中,先定义一个 add_extra() 函数:
def add_extra(nationality, extra): if nationality != "汉": return extra else: return 0
对 df 新增一列:
df['ExtraScore'] = df.Nationality.apply(add_extra, args=(5,))
位置参数通过 args = () 来传递参数,类型为 tuple。也可用下面的方法调用:
df['ExtraScore'] = df.Nationality.apply(add_extra, extra=5)
运行后结果为:
Name Nationality Score ExtraScore
0 张 汉 400 0
1 李 回 450 5
2 王 汉 460 0
将 add_extra 作为 lambda 函数:
df['Extra'] = df.Nationality.apply(lambda n, extra : extra if n == '汉' else 0, args=(5,))
下面继续讲解关键字参数。假设我们对不同的民族可以给不同的加分,定义 add_extra2() 函数:
def add_extra2(nationaltiy, **kwargs): return kwargs[nationaltiy] df['Extra'] = df.Nationality.apply(add_extra2, 汉=0, 回=10, 藏=5)
运行结果为:
Name Nationality Score Extra
0 张 汉 400 0
1 李 回 450 10
2 王 汉 460 0
对照 apply 函数的语法,不难理解。
DataFrame.apply()
DataFrame.apply()
函数则会遍历每一个元素,对元素运行指定的 function。比如下面的示例:
import pandas as pd import numpy as np matrix = [ [1,2,3], [4,5,6], [7,8,9] ] df = pd.DataFrame(matrix, columns=list('xyz'), index=list('abc')) df.apply(np.square)
对 df 执行 square()
函数后,所有的元素都执行平方运算:
x y z a 1 4 9 b 16 25 36 c 49 64 81
如果只想 apply()
作用于指定的行和列,可以用行或者列的 name
属性进行限定。比如下面的示例将 x 列进行平方运算:
df.apply(lambda x : np.square(x) if x.name=='x' else x)
x y z a 1 2 3 b 16 5 6 c 49 8 9
下面的示例对 x 和 y 列进行平方运算:
df.apply(lambda x : np.square(x) if x.name in ['x', 'y'] else x)
x y z a 1 4 3 b 16 25 6 c 49 64 9
下面的示例对第一行 (a 标签所在行)进行平方运算:
df.apply(lambda x : np.square(x) if x.name == 'a' else x, axis=1)
默认情况下 axis=0
表示按列,axis=1
表示按行。
apply() 计算日期相减示例
平时我们会经常用到日期的计算,比如要计算两个日期的间隔,比如下面的一组关于 wbs 起止日期的数据:
wbs date_from date_to job1 2019-04-01 2019-05-01 job2 2019-04-07 2019-05-17 job3 2019-05-16 2019-05-31 job4 2019-05-20 2019-06-11
假定要计算起止日期间隔的天数。比较简单的方法就是两列相减(datetime 类型):
import pandas as pd import datetime as dt wbs = { "wbs": ["job1", "job2", "job3", "job4"], "date_from": ["2019-04-01", "2019-04-07", "2019-05-16","2019-05-20"], "date_to": ["2019-05-01", "2019-05-17", "2019-05-31", "2019-06-11"] } df = pd.DataFrame(wbs) df['elpased'] = df['date_to'].apply(pd.to_datetime) - df['date_from'].apply(pd.to_datetime)
apply()
函数将 date_from
和 date_to
两列转换成 datetime 类型。我们 print 一下 df:
wbs date_from date_to elapsed 0 job1 2019-04-01 2019-05-01 30 days 1 job2 2019-04-07 2019-05-17 40 days 2 job3 2019-05-16 2019-05-31 15 days 3 job4 2019-05-20 2019-06-11 22 days
日期间隔已经计算出来,但后面带有一个单位 days,这是因为两个 datetime
类型相减,得到的数据类型是 timedelta64
,如果只要数字,还需要使用 timedelta
的 days
属性转换一下。
elapsed= df['date_to'].apply(pd.to_datetime) - df['date_from'].apply(pd.to_datetime) df['elapsed'] = elapsed.apply(lambda x : x.days)
使用 DataFrame.apply()
函数也能达到同样的效果,我们需要先定义一个函数 get_interval_days()
函数的第一列是一个 Series
类型的变量,执行的时候,依次接收 DataFrame 的每一行。
import pandas as pd import datetime as dt def get_interval_days(arrLike, start, end): start_date = dt.datetime.strptime(arrLike[start], '%Y-%m-%d') end_date = dt.datetime.strptime(arrLike[end], '%Y-%m-%d') return (end_date - start_date).days wbs = { "wbs": ["job1", "job2", "job3", "job4"], "date_from": ["2019-04-01", "2019-04-07", "2019-05-16","2019-05-20"], "date_to": ["2019-05-01", "2019-05-17", "2019-05-31", "2019-06-11"] } df = pd.DataFrame(wbs) df['elapsed'] = df.apply( get_interval_days, axis=1, args=('date_from', 'date_to'))
参考
Pandas的Apply函数——Pandas中最好用的函数
pandas.Series.apply — pandas 1.3.1 documentation
到此这篇关于pandas apply() 函数用法的文章就介绍到这了,更多相关pandas apply() 函数内容请搜索猪先飞以前的文章或继续浏览下面的相关文章希望大家以后多多支持猪先飞!
原文出处:https://blog.csdn.net/stone0823/article/details/100008619
相关文章
- eval函数在php中是一个函数并不是系统组件函数,我们在php.ini中的disable_functions是无法禁止它的,因这他不是一个php_function哦。 eval()针对php安全来说具有很...2016-11-25
- 在php中eval是一个函数并且不能直接禁用了,但eval函数又相当的危险了经常会出现一些问题了,今天我们就一起来看看eval函数对数组的操作 例子, <?php $data="array...2016-11-25
Python astype(np.float)函数使用方法解析
这篇文章主要介绍了Python astype(np.float)函数使用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下...2020-06-08- 这篇文章主要介绍了Python中的imread()函数用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-16
- 本文主要介绍了C# 中取绝对值的函数。具有很好的参考价值。下面跟着小编一起来看下吧...2020-06-25
- 下面小编就为大家带来一篇C#学习笔记- 随机函数Random()的用法详解。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...2020-06-25
pandas pd.read_csv()函数中parse_dates()参数的用法说明
这篇文章主要介绍了pandas pd.read_csv()函数中parse_dates()参数的用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-03-05- CREATE FUNCTION ChangeBigSmall (@ChangeMoney money) RETURNS VarChar(100) AS BEGIN Declare @String1 char(20) Declare @String2 char...2016-11-25
Android开发中findViewById()函数用法与简化
findViewById方法在android开发中是获取页面控件的值了,有没有发现我们一个页面控件多了会反复研究写findViewById呢,下面我们一起来看它的简化方法。 Android中Fin...2016-09-20- 这篇文章主要介绍了C++中Sort函数详细解析,sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变...2022-08-18
- strstr() 函数搜索一个字符串在另一个字符串中的第一次出现。该函数返回字符串的其余部分(从匹配点)。如果未找到所搜索的字符串,则返回 false。语法:strstr(string,search)参数string,必需。规定被搜索的字符串。 参数sea...2013-10-04
PHP函数分享之curl方式取得数据、模拟登陆、POST数据
废话不多说直接上代码复制代码 代码如下:/********************** curl 系列 ***********************///直接通过curl方式取得数据(包含POST、HEADER等)/* * $url: 如果非数组,则为http;如是数组,则为https * $header:...2014-06-07- Foreach 函数(PHP4/PHP5)foreach 语法结构提供了遍历数组的简单方式。foreach 仅能够应用于数组和对象,如果尝试应用于其他数据类型的变量,或者未初始化的变量将发出错误信息。...2013-09-28
- free函数是释放之前某一次malloc函数申请的空间,而且只是释放空间,并不改变指针的值。下面我们就来详细探讨下...2020-04-25
- 今天小编就为大家分享一篇Pandas实现DataFrame按行求百分数(比例数),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-05-09
- PHP 函数 strip_tags 提供了从字符串中去除 HTML 和 PHP 标记的功能,该函数尝试返回给定的字符串 str 去除空字符、HTML 和 PHP 标记后的结果。由于 strip_tags() 无法实际验证 HTML,不完整或者破损标签将导致更多的数...2014-05-31
SQL Server中row_number函数的常见用法示例详解
这篇文章主要给大家介绍了关于SQL Server中row_number函数的常见用法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-12-08- 本文主要介绍了python使用pandas按照行数分割表格,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2021-08-13
- 分享一个PHP加密解密的函数,此函数实现了对部分变量值的加密的功能。 加密代码如下: /* *功能:对字符串进行加密处理 *参数一:需要加密的内容 *参数二:密钥 */ function passport_encrypt($str,$key){ //加密函数 srand(...2015-10-30
php的mail函数发送UTF-8编码中文邮件时标题乱码的解决办法
最近遇到一个问题,就是在使用php的mail函数发送utf-8编码的中文邮件时标题出现乱码现象,而邮件正文却是正确的。最初以为是页面编码的问题,发现页面编码utf-8没有问题啊,找了半天原因,最后找到了问题所在。 1.使用 PEAR 的...2015-10-21