Python和Excel的完美结合：4大常用操作汇总！

教育 2024-10-16 16:48 黑龙江

以前，商业分析对应的英文单词是Business Analysis，大家用的分析工具是Excel，后来数据量大了，Excel应付不过来了（Excel最大支持行数为1048576行），人们开始转向python和R这样的分析工具了，这时候商业分析对应的单词是Business Analytics。

其实python和Excel的使用准则一样，都是[We don't repeat ourselves]，都是尽可能用更方便的操作替代机械操作和纯体力劳动。

用python做数据分析，离不开著名的pandas包，经过了很多版本的迭代优化，pandas现在的生态圈已经相当完整了，官网还给出了它和其他分析工具的对比：

本文用的主要也是pandas，绘图用的库是plotly，实现的Excel的常用功能有：

Python和Excel的交互
vlookup函数
数据透视表
绘图

以后如果发掘了更多Excel的功能，会回来继续更新和补充。开始之前，首先按照惯例加载pandas包：

import numpy as npimport pandas as pdpd.set_option('max_columns', 10)pd.set_option('max_rows', 20)pd.set_option('display.float_format', lambda x: '%.2f' % x) # 禁用科学计数法

Python和Excel的交互

pandas里最常用的和Excel I/O有关的四个函数是read_csv/ read_excel/ to_csv/ to_excel，它们都有特定的参数设置，可以定制想要的读取和导出效果。

比如说想要读取这样一张表的左上部分：

可以用pd.read_excel("test.xlsx", header=1, nrows=17, usecols=3)，返回结果：

dfOut[]: 工号姓名性别部门0 A0001 张伟男工程1 A0002 王秀英女人事2 A0003 王芳女行政3 A0004 郑勇男市场4 A0005 张丽女研发5 A0006 王艳女后勤6 A0007 李勇男市场7 A0008 李娟女工程8 A0009 张静女人事9 A0010 王磊男行政10 A0011 李娜女市场11 A0012 刘诗雯女研发12 A0013 王刚男后勤13 A0014 叶倩女后勤14 A0015 金雯雯女市场15 A0016 王超杰男工程16 A0017 李军男人事

输出函数也同理，使用多少列，要不要index，标题怎么放，都可以控制。

vlookup函数

vlookup号称是Excel里的神器之一，用途很广泛，下面的例子来自豆瓣，VLOOKUP函数最常用的10种用法，你会几种?

案例一

问题：A3:B7单元格区域为字母等级查询表，表示60分以下为E级、60~69分为D级、70~79分为C级、80~89分为B级、90分以上为A级。D:G列为初二年级1班语文测验成绩表，如何根据语文成绩返回其字母等级？

方法：在H3:H13单元格区域中输入=VLOOKUP（G3, $A$3:$B$7, 2）

python实现：

df = pd.read_excel("test.xlsx", sheet_name=0)def grade_to_point(x):    if x >= 90:        return 'A'    elif x >= 80:        return 'B'    elif x >= 70:        return 'C'    elif x >= 60:        return 'D'    else:        return 'E'

df['等级'] = df['语文'].apply(grade_to_point)df
Out[]:      学号   姓名 性别   语文 等级0   101  王小丽  女   69  D1   102  王宝勤  男   85  B2   103  杨玉萍  女   49  E3   104  田东会  女   90  A4   105  陈雪蛟  女   73  C5   106  杨建丰  男   42  E6   107  黎梅佳  女   79  C7   108   张兴   男   91  A8   109  马进春  女   48  E9   110  魏改娟  女  100  A10  111  王冰研  女   64  D

案例二

问题：在Sheet1里面如何查找折旧明细表中对应编号下的月折旧额？（跨表查询）

方法：在Sheet1里面的C2:C4单元格输入 =VLOOKUP(A2, 折旧明细表!A$2:$G$12, 7, 0)

python实现：使用merge将两个表按照编号连接起来就行

df1 = pd.read_excel("test.xlsx", sheet_name='折旧明细表')df2 = pd.read_excel("test.xlsx", sheet_name=1) #题目里的sheet1df2.merge(df1[['编号', '月折旧额']], how='left', on='编号')Out[]:     编号   资产名称  月折旧额0  YT001    电动门   13991  YT005  桑塔纳轿车  11472  YT008    打印机    51

案例三

问题：类似于案例二，但此时需要使用近似查找。

方法：在B2:B7区域中输入公式=VLOOKUP(A2&"*", 折旧明细表!$B$2:$G$12, 6, 0)

python实现：这个比起上一个要麻烦一些，需要用到一些pandas的使用技巧。

df1 = pd.read_excel("test.xlsx", sheet_name='折旧明细表') df3 = pd.read_excel("test.xlsx", sheet_name=3) #含有资产名称简写的表df3['月折旧额'] = 0for i in range(len(df3['资产名称'])):    df3['月折旧额'][i] = df1[df1['资产名称'].map(lambda x:df3['资产名称'][i] in x)]['月折旧额']
df3Out[]:   资产名称   月折旧额0   电动   13991   货车   24382   惠普    1323   交联  101334  桑塔纳   11475   春兰    230

案例四

问题：在Excel中录入数据信息时，为了提高工作效率，用户希望通过输入数据的关键字后，自动显示该记录的其余信息，例如，输入员工工号自动显示该员工的信命，输入物料号就能自动显示该物料的品名、单价等。

如图所示为某单位所有员工基本信息的数据源表，在“2010年3月员工请假统计表”工作表中，当在A列输入员工工号时，如何实现对应员工的姓名、身份证号、部门、职务、入职日期等信息的自动录入？

方法：使用VLOOKUP+MATCH函数，在“2010年3月员工请假统计表”工作表中选择B3:F8单元格区域，输入下列公式=IF($A3="","",VLOOKUP($A3,员工基本信息!$A:$H,MATCH(B$2,员工基本信息!$2:$2,0),0))，按下【Ctrl+Enter】组合键结束。

python实现：上面的Excel的方法用得很灵活，但是pandas的想法和操作更简单方便些。

df4 = pd.read_excel("test.xlsx", sheet_name='员工基本信息表')df5 = pd.read_excel("test.xlsx", sheet_name='请假统计表')df5.merge(df4[['工号', '姓名', '部门', '职务', '入职日期']], on='工号')Out[]:       工号   姓名  部门   职务       入职日期0  A0004  龚梦娟  后勤   主管 2006-11-201  A0003   赵敏  行政   文员 2007-02-162  A0005   黄凌  研发  工程师 2009-01-143  A0007   王维  人事   经理 2006-07-244  A0016  张君宝  市场  工程师 2007-08-145  A0017   秦羽  人事  副经理 2008-03-06

案例五：

问题：用VLOOKUP函数实现批量查找，VLOOKUP函数一般情况下只能查找一个，那么多项应该怎么查找呢？如下图，如何把张一的消费额全部列出？

方法：在C9：C11单元格里面输入公式=VLOOKUP(B$9&ROW(A1),IF({1,0},$B$2:$B$6&COUNTIF(INDIRECT("b2:b"&ROW($2:$6)),B$9),$C$2:$C$6),2,)，按SHIFT+CTRL+ENTER键结束。

python实现：vlookup函数有两个不足（或者算是特点吧），一个是被查找的值一定要在区域里的第一列，另一个是只能查找一个值，剩余的即便能匹配也不去查找了，这两点都能通过灵活应用if和indirect函数来解决，不过pandas能做得更直白一些。

df6 = pd.read_excel("test.xlsx", sheet_name='消费额')df6[df6['姓名'] == '张一'][['姓名', '消费额']]Out[]:    姓名   消费额0  张一   1002  张一   3004  张一  1000

数据透视表

数据透视表是Excel的另一个神器，本质上是一系列的表格重组整合的过程。这里用的案例来自知乎，Excel数据透视表有什么用途：（https://www.zhihu.com/question/22484899/answer/39933218 ）

问题：需要汇总各个区域，每个月的销售额与成本总计，并同时算出利润。

通过Excel的数据透视表的操作最终实现了下面这样的效果：

python实现：对于这样的分组的任务，首先想到的就是pandas的groupby，代码写起来也简单，思路就是把刚才Excel的点鼠标的操作反映到代码命令上：

df = pd.read_excel('test.xlsx', sheet_name='销售统计表')df['订购月份'] = df['订购日期'].apply(lambda x:x.month)df2 = df.groupby(['订购月份', '所属区域'])[['销售额', '成本']].agg('sum')df2['利润'] = df2['销售额'] - df2['成本']df2
Out[]:                  销售额         成本        利润订购月份 所属区域                                1    南京    134313.61   94967.84  39345.77     常熟    177531.47  163220.07  14311.40     无锡    316418.09  231822.28  84595.81     昆山    159183.35  145403.32  13780.03     苏州    287253.99  238812.03  48441.962    南京    187129.13  138530.42  48598.71     常熟    154442.74  126834.37  27608.37     无锡    464012.20  376134.98  87877.22     昆山    102324.46   86244.52  16079.94     苏州    105940.34   91419.54  14520.80             ...        ...       ...11   南京    286329.88  221687.11  64642.77     常熟   2118503.54 1840868.53 277635.01     无锡    633915.41  536866.77  97048.64     昆山    351023.24  342420.18   8603.06     苏州   1269351.39 1144809.83 124541.5612   南京    894522.06  808959.32  85562.74     常熟    324454.49  262918.81  61535.68     无锡   1040127.19  856816.72 183310.48     昆山   1096212.75  951652.87 144559.87     苏州    347939.30  302154.25  45785.05
[60 rows x 3 columns]

也可以使用pandas里的pivot_table函数来实现：

df3 = pd.pivot_table(df, values=['销售额', '成本'], index=['订购月份', '所属区域'] , aggfunc='sum')df3['利润'] = df3['销售额'] - df3['成本']df3 
Out[]:                   成本        销售额        利润订购月份 所属区域                                1    南京     94967.84  134313.61  39345.77     常熟    163220.07  177531.47  14311.40     无锡    231822.28  316418.09  84595.81     昆山    145403.32  159183.35  13780.03     苏州    238812.03  287253.99  48441.962    南京    138530.42  187129.13  48598.71     常熟    126834.37  154442.74  27608.37     无锡    376134.98  464012.20  87877.22     昆山     86244.52  102324.46  16079.94     苏州     91419.54  105940.34  14520.80             ...        ...       ...11   南京    221687.11  286329.88  64642.77     常熟   1840868.53 2118503.54 277635.01     无锡    536866.77  633915.41  97048.64     昆山    342420.18  351023.24   8603.06     苏州   1144809.83 1269351.39 124541.5612   南京    808959.32  894522.06  85562.74     常熟    262918.81  324454.49  61535.68     无锡    856816.72 1040127.19 183310.48     昆山    951652.87 1096212.75 144559.87     苏州    302154.25  347939.30  45785.05
[60 rows x 3 columns]

pandas的pivot_table的参数index/ columns/ values和Excel里的参数是对应上的（当然，我这话说了等于没说，数据透视表里不就是行/列/值吗还能有啥。）

但是我个人还是更喜欢用groupby，因为它运算速度非常快。我在打kaggle比赛的时候，有一张表是贷款人的行为信息，大概有2700万行，用groupby算了几个聚合函数，几秒钟就完成了。

groupby的功能很全面，内置了很多aggregate函数，能够满足大部分的基本需求，如果你需要一些其他的函数，可以搭配使用apply和lambda。

不过pandas的官方文档说了，groupby之后用apply速度非常慢，aggregate内部做过优化，所以很快，apply是没有优化的，所以建议有问题先想想别的方法，实在不行的时候再用apply。

我打比赛的时候，为了生成一个新变量，用了groupby的apply，写了这么一句：ins['weight'] = ins[['SK_ID_PREV'， 'DAYS_ENTRY_PAYMENT']].groupby('SK_ID_PREV').apply(lambda x: 1-abs(x)/x.sum().abs()).iloc[:,1]，1000万行的数据，足足算了十多分钟，等得我心力交瘁。

绘图

因为Excel画出来的图能够交互，能够在图上进行一些简单操作，所以这里用的python的可视化库是plotly，案例就用我这个学期发展经济学课上的作业吧，当时的图都是用Excel画的，现在用python再画一遍。开始之前，首先加载plotly包。

import plotly.offline as offimport plotly.graph_objs as gooff.init_notebook_mode()

柱状图

当时用Excel画了很多的柱状图，其中的一幅图是：

下面用plotly来画一下：

df = pd.read_excel("plot.xlsx", sheet_name='高等教育入学率')trace1 = go.Bar(        x=df['国家'],        y=df[1995],        name='1995',        opacity=0.6,        marker=dict(                color='powderblue'                )        )
trace2 = go.Bar(        x=df['国家'],        y=df[2005],        name='2005',        opacity=0.6,        marker=dict(                color='aliceblue',                )        )
trace3 = go.Bar(        x=df['国家'],        y=df[2014],        name='2014',        opacity=0.6,        marker=dict(                color='royalblue'                )        )
layout = go.Layout(barmode='group')data = [trace1, trace2, trace3]fig = go.Figure(data, layout)off.plot(fig)

雷达图

用Excel画的：

用python画的：

df = pd.read_excel('plot.xlsx', sheet_name='政治治理')theta = df.columns.tolist()theta.append(theta[0])names = df.indexdf[''] = df.iloc[:,0]df = np.array(df)
trace1 = go.Scatterpolar(        r=df[0],        theta=theta,        name=names[0]        )
trace2 = go.Scatterpolar(        r=df[1],        theta=theta,        name=names[1]        )
trace3 = go.Scatterpolar(        r=df[2],        theta=theta,        name=names[2]        )
trace4 = go.Scatterpolar(        r=df[3],        theta=theta,        name=names[3]        )
data = [trace1, trace2, trace3, trace4]layout = go.Layout(        polar=dict(                radialaxis=dict(                        visible=True,                        range=[0,1]                        )                ),        showlegend=True        )fig = go.Figure(data, layout)off.plot(fig)

画起来比Excel要麻烦得多。

总体而言，如果画简单基本的图形，用Excel是最方便的，如果要画高级一些的或者是需要更多定制化的图形，使用python更合适。

原文：www.jianshu.com/p/9bc9f473dd22

-END-

今天，小编给大家准备了一份《217款 Excel可视化图表》

《217款 Excel可视化图表》部分内容概览

扫描/识别下方二维码

即可免费领取

《217款 Excel可视化图表》部分内容

小伙伴们，快来关注我们领取新人福利吧！

长按关注【爱数据LoveData】

即可领取新人见面礼

《小爱学习包》部分内容

《见面礼》部分内容

往期精彩

1.这10个Excel功能，SQL也能实现！(附面试原题)

2.掌握这20个 SQL 优化方法，你就无敌了！

3.36个顶级数据分析方法与模型，高效分析必备！

4.Python的网络爬虫技术在豆瓣电影中的应用：抓取、清洗及可视化分析9种最常用数据分析方法！

5.Excel技巧大揭秘：5个令你进阶的必备玩法！

http://mp.weixin.qq.com/s?__biz=MjM5MTI3MzUwMA==&mid=2650173484&idx=3&sn=443b9f0d20db987a9411324c8df48715

爱数据LoveData

国内领先数据分析社区，专注数据分析知识分享及求职辅导。爱数据作为一线数据厂商（帆软、观远、永洪等）培训合作伙伴，曾联合阿里、美团、滴滴等一线公司开展数据领域专题分享会。积累10年+行业经验，链接千人数据分析高端人脉，累计服务15w+用户。

最新文章

收藏：20张数据分析学习思维导图大全，有了它学习思路超清晰！

1.8W岗位不如1.5W？选公司需谨慎，尤其是数据分析师！

【大厂面试】100道华为数据分析面试题（附答案）！

手把手教你数据分析方法论和业务实战——用户画像篇

全网最高性价比的「数据分析」课程，0基础→进阶！

数据分析必备——漏斗分析模型

详解数据分析的 9 个经典问题

【行业前沿】数据岗位有哪些？你不知道的职业机会和发展空间

万字总结，行业分析到底应该怎么做！

面试没有项目怎么办？？？？↘

人人都必须学会的 Excel 三大技能

干货| 这篇电商数据分析案例一定要看！

48道数据分析师高频面试题

数据分析·就业实战班，0基础高薪入职必备！

判断客户价值，用好这3个数据分析模型就足够了！

Excel常用电子表格公式大全！【汇总篇】

Python实现「数据可视化」的3大步骤，保姆级讲解！

4000字详解，数据标签体系构建方法

Excel数据分析的4大神技！高效处理数据！

万字长文——数据分析深度理解，全是方法论及经验，不看真的就亏了！

分享一个完整的数据分析流程

数据分析面试：常见问题回答战略

掌握这20个 SQL 优化方法，你就无敌了！

Python可视化利器：8个流行工具包，总有一款适合你！

一份优秀的数据分析报告，8步就能搞定！

微博商业分析师JD拆解，还有这些隐藏要求？

这10个统计学问题数据分析师可一定要知道！（附资源）

数据分析案例分享：1个完整的聚类分析怎么做？

大厂面试真题中如何考察数分思维？分享2个通用模型

一份高价值的「数据分析报告」怎么撰写？数据分析师必看！

一线数据分析师教你如何写简历才能脱颖而出！

终于有人把数据指标体系讲明白了，附案例！

拿到16K*13薪！eBay的支付和风险分析师「业务面」都问啥？

可视化图表种类还不清楚？快来看看这两个宝藏网站吧~

【项目经验篇】数据分析求职必备

月薪8K，15K，20K数据分析师简历，有哪些区别？

面试必备！<京东>用户行为分析！面试用项目说话！！！！！！

看完这50道MySQL面试题，你也能进BAT！

最硬核的数据领域课程，学完就能拿高薪！

爬取6874条数据，告诉你数据分析师的薪资待遇！

16种常见的竞品分析方法，建议收藏！

数据分析Excel必备技能：数据透视表使用教程

AARRR模型——用户激活指标+方法，太实用了，收藏！

万字总结：「统计学」知识大梳理

数据分析师入行\转行，这份「职业生涯规划」请收好

数据岗位对比！哪个更有“钱”途？

Python和Excel的完美结合：4大常用操作汇总！

22道数据分析面试题，涵盖95%常考知识点！

面试中，打败90%数据分析师的「项目问题」怎么破？

实操案例讲解！手把手教你搭建RFM客户价值分析模型（附实战代码）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉