大家好,我是欧K~
本期我们利用Python分析「2024年中国500强企业信息数据」,看看:我国各城市500强企业数量地图分布、各行业500强数量、员工数量和营业收入关系、正负资产收益率占比、净利率分布、利润最高的十大行业都有哪些等等,希望对大家有所帮助,如有疑问或者需要改进的地方可以联系小编。
下期:【爬虫 | 2024年中国500强企业信息数据爬虫】
涉及到的库:
Pandas — 数据处理
Pyecharts — 数据可视化
import pandas as pd
from pyecharts.charts import *
from pyecharts import options as opts
import warnings
warnings.filterwarnings('ignore')
2.1 读取数据
df = pd.read_excel('./2024年中国五百强排行榜.xlsx')
2.2 数据信息
df.info()
2.3 数据去重
df = df.drop_duplicates()
df['地址'] = df['地址'].replace({'香港特别行政区':'香港','上海市':'上海'})
df['员工数量'] = df['员工数量'].replace({'-':0})
df['员工数量'] = df['员工数量'].fillna(0).astype('int')
def get_map_city():
map_city = (
Map()
.add('',
data_pair=data_pair,
maptype='china-cities',
)
.set_global_opts(
visualmap_opts=opts.VisualMapOpts(
pos_left = '20%',
pos_bottom='20%',
range_color=range_color,
),
title_opts=opts.TitleOpts(
title='1-各城市500强企业数量地图分布',
subtitle=subtitle,
pos_top='1%',
pos_left="center",
),
))
中国500强最多的10个城市:北京(97)、上海(49)、深圳(37)、香港(33)、杭州(23)、广州(22)、 南京(9)、 重庆(6)、济南(6)、台北(6)。
def get_bar1():
bar1 = (
Bar()
.add_xaxis(x_data)
.add_yaxis("",y_data)
.set_global_opts(
title_opts=opts.TitleOpts(
title='2-各行业500强数量',
subtitle=subtitle,
pos_top='1%',
pos_left="center",
),
visualmap_opts=opts.VisualMapOpts(
range_color=range_color
),
) )
中国500强最多的10个行业:金属产品(55)、房地产(37)、化学品(29)、银行(28)、车辆与零部件(27)、电子、电气设备(26)、 多元化金融(23)、 工程与建筑(22)、能源(21)、半导体、电子元件(619)。
3.3 员工数量TOP20公司的营业收入
上图可以看出:员工数量和营业收入没有很显著的线性关系。
def get_bar1():
pie1 = (
Pie()
.add('',
data,
)
.set_global_opts(
title_opts=opts.TitleOpts(
title='4-正负资产收益率占比',
subtitle=subtitle,
pos_top='1%',
pos_left="center",
),
visualmap_opts=opts.VisualMapOpts(
range_color=range_color
),
) )
正资产收益率的公司一共442家,占比88.4%,负资产收益率的公司一共54家,占比超过了10%。
3.5 净利率分布
利润最高的10大行业:炼油(10463.67)、银行(9341.71)、电信(6186.23)、邮件、包裹及货物包装运输(5884.5)、互联网服务和零售(3544.58)、人寿与健康保险(股份)(3225.64)、船务(2996.4)、饮料(2693.53)、网络、通讯设备(2661.97)、采矿、原油生产(2283.48)
def get_scatter1():
scatter1 = (
Scatter()
.add_xaxis(x_data)
.add_yaxis('', y_data,
)
.set_global_opts(
title_opts=opts.TitleOpts(
title='7-负利润行业数量',
subtitle=subtitle,
pos_top='2%',
pos_left="center",
),
visualmap_opts=opts.VisualMapOpts(
type_='size',
),
)
)
负利润最多的行业:房地产(19家),金属产品(10家),食品生产(6家),车辆与零部件(4家),航空(3家),化学品(2家),林产品与纸制品(2家),人寿与健康保险(股份)(2家),贸易(1家),酒店、赌场、度假村(1家)
def get_wordcloud(x_data,y_data):
wordcloud = (
WordCloud()
.add(series_name="", data_pair, word_size_range=[5, 45])
.set_global_opts(
title_opts=opts.TitleOpts(
title='8-公司名称词云',
subtitle=subtitle,
pos_top='1%',
pos_left="1%",
)
)
)
👉 在线运行:
以上就是本期为大家整理的全部内容了,喜欢的朋友可以点赞、点在看也可以分享让更多人知道。
往期推荐
源码下载 | 【01-50】Pthon可视化系列文章资源(源码+数据)
可视化 | Flask+Mysql+Echarts 豆瓣电影Top250数据分析系统
53 | 基于Lasso回归和随机森林的上海链家二手房房价预测
52 | 基于KNN近邻和随机森林模型对用户转化进行分析与预测
Pandas+Pyecharts | 全国热门旅游景点数据分析可视化
可视化 | 分享一套Flask+Pyecharts可视化模板
用Python分析了3W+《独行月球》影评数据,看看观众们怎么说~