点击上方"蓝字",关注"Python当打之年"
中秋佳节即将来临,本期我们通过分析某宝中秋月饼的销售情况,看看哪些口味月饼卖得好,哪些地方月饼卖得好,希望对小伙伴们有所帮助。,希望对大家有所帮助,如有疑问或者需要改进的地方可以联系小编。
Pandas — 数据处理
Pyecharts — 数据可视化
jieba — 分词 collections — 数据统计
可视化部分:
Bar — 柱状图 Pie — 饼状图 Map— 地图 Stylecloud — 词云图
import re
import jieba
import stylecloud
import pandas as pd
from collections import Counter
from pyecharts.charts import Bar
from pyecharts.charts import Map
from pyecharts.charts import Pie
from pyecharts.charts import Grid
from pyecharts.charts import Page
from pyecharts import options as opts
2.1 读取数据
df = pd.read_excel("月饼.xlsx")
df.head(10)
结果:
print(df.shape)
df.drop_duplicates(inplace=True)
print(df.shape)(4520, 5)
(1885, 5)一共有4520条数据,去重后还有1885条数据(某宝一个店铺会在不同页面推荐,导致重复数据比较多)。
2.3 空值处理
处理购买人数为空的记录: df['付款情况'] = df['付款情况'].replace(np.nan,'0人付款')
2.4 处理付款情况字段
df[df['付款情况'].str.contains("万")]
付款人数超过10000后会直接用"万"替代,这里我们需要将其恢复:
# 提取数值
df['num'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款情况']]
df['num'] = df['num'].astype('float')
# 计算销量
df['销量'] = df['num'] * df['unit']
df = df[df['地址'].notna()]
df['省份'] = df['地址'].str.split(' ').apply(lambda x:x[0])
# 删除多余的列
df.drop(['付款情况', 'num', 'unit'], axis=1, inplace=True)
# 重置索引
df = df.reset_index(drop=True)结果:
bar0 = (
Bar()
.add_xaxis(shop_top10.index.tolist()[::-1])
.add_yaxis('sales_num', shop_top10.values.tolist()[::-1])
.reversal_axis()
.set_global_opts(title_opts=opts.TitleOpts(title='月饼商品销量Top10'),
xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-30)))
.set_series_opts(label_opts=opts.LabelOpts(position='right'))
)
效果:
商品名称太长显示不全,我们调整一下边距:
bar1 = (
Bar()
.add_xaxis(shop_top10.index.tolist()[::-1])
.add_yaxis('sales_num', shop_top10.values.tolist()[::-1],itemstyle_opts=opts.ItemStyleOpts(color=JsCode(color_js)))
.reversal_axis()
.set_global_opts(title_opts=opts.TitleOpts(title='月饼商品销量Top10'),),
)
.set_series_opts(label_opts=opts.LabelOpts(position='right'))
)
# 将图形整体右移
grid = (
Grid()
.add(bar1, grid_opts=opts.GridOpts(pos_left='45%', pos_right='10%'))
)
还可以来些其他(比如:形状)设置:
bar3 = (
Bar(init_opts=opts.InitOpts(
width='800px', height='600px',))
.add_xaxis(shop_top10.index.tolist())
.add_yaxis('', shop_top10.values.tolist(),
category_gap='30%',
)
.set_global_opts(
xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-30)),
title_opts=opts.TitleOpts(
title='月饼销量排名TOP10店铺',
pos_left='center',
pos_top='4%',
title_textstyle_opts=opts.TextStyleOpts(
color='#ed1941', font_size=16)
),
visualmap_opts=opts.VisualMapOpts(
is_show=False,
),
)
)
稻香村 的月饼销量遥遥领先。
map_chart = Map(init_opts=opts.InitOpts(theme='light',
width='800px',
height='600px'))
map_chart.add('',
[list(z) for z in zip(province_num.index.tolist(), province_num.values.tolist())],
maptype='china',
is_map_symbol_show=False
)
map_chart.set_global_opts(
visualmap_opts=opts.VisualMapOpts(
is_show=True,
is_piecewise=True,
min_ = 0,
max_ = 1,
split_number = 5,
series_index=0,
pos_top='70%',
pos_left='10%',
),
legend_opts=opts.LegendOpts(is_show=False),
tooltip_opts=opts.TooltipOpts(
is_show=True,
trigger='item',
formatter='{b}:{c}'
),
title_opts=dict(
text='全国各地区月饼销量',
left='center',
top='5%',
textStyle=dict(
color='#DC143C'))
)
map_chart.render_notebook()
结果:
3.4 不同价格区间的月饼销量占比
3.5 月饼口味分布
3.6 词云图
👉 公众号后台回复【可视化项目源码】获取更多可视化代码+数据
以上就是本期为大家整理的全部内容了,如果需要数据文件,可以在公众号后台回复 “ 中秋 ” 获取,喜欢的朋友可以点赞、点在看也可以分享让更多人知道。
往期推荐
可视化 | Flask+Mysql+Echarts 豆瓣电影Top250数据分析系统
Pandas+Pyecharts | 海南旅游攻略数据分析可视化
Pandas+Pyecharts | 全国海底捞门店数据分析可视化
Pandas+Pyecharts | 京东某商品销量数据分析可视化
Pandas+Pyecharts | 全国星巴克门店数据分析可视化
Pandas+Pyecharts | 第七次人口普查数据分析可视化
Pandas+Pyecharts | 快手APP全国大学生用户数据分析可视化
Pandas+Pyecharts | 奥迪汽车销量数据分析可视化
Pandas+Pyecharts | 剧荒了?用Python找找最近的热播好剧!
Pandas+Pyecharts | 2023年胡润百富榜数据分析可视化
Pandas+Pyecharts | 2023软科中国大学排名分析可视化
Pandas+Pyecharts | 成都大运会奖牌数据分析可视化
Pandas+Pyecharts | 电子产品销售数据分析可视化+用户RFM画像
Pandas+Pyecharts | 北京近五年历史天气数据可视化
Pandas+Pyecharts | 中国高校及专业数据分析可视化
Pandas+Pyecharts | 新冠疫情数据动态时序可视化
Pandas+Pyecharts | 全国吃穿住行消费排行榜,最‘抠门’的地区居然是北京!!!
Pandas+Pyecharts | 2022世界500强数据分析可视化
Pandas+Pyecharts | 上海市餐饮数据分析可视化
Pandas+Pyecharts | 山东省高考考生数据分析可视化
Pandas+Pyecharts | 20000+天猫订单数据可视化
Pandas+Pyecharts | 40000+汽车之家数据分析可视化
Pandas+Pyecharts | 广州市已成交房源信息数据可视化
Pandas+Pyecharts | 某直聘平台招聘信息数据可视化
可视化 | 分享一套Flask+Pyecharts可视化模板
用Python分析了3W+《独行月球》影评数据,看看观众们怎么说~