Pandas+Pyecharts | 2024年中国500强企业数据分析可视化

科技   科技   2024-12-27 08:10   天津  
点击上方"蓝字",关注"Python当打之年"
后台回复"1",领取众多Python学习资料

大家好,我是欧K~

本期我们利用Python分析2024年中国500强企业信息数,看看:我国各城市500强企业数量地图分布、各行业500强数量、员工数量和营业收入关系、正负资产收益率占比、净利率分布、利润最高的十大行业都有哪些等等,希望对大家有所帮助,如有疑问或者需要改进的地方可以联系小编。

下期:【爬虫 | 2024年中国500强企业信息数据爬虫】

涉及到的库:
Pandas — 数据处理
Pyecharts — 数据可视化

1. 导入模块

import pandas as pd
from pyecharts.charts import *
from pyecharts import options as opts
import warnings
warnings.filterwarnings('ignore')


2. Pandas数据处理

2.1 读取数据 

df = pd.read_excel('./2024年中国五百强排行榜.xlsx')

2.2 数据信息 

df.info()

2.3 数据去重

df = df.drop_duplicates()
2.4 地址数据处理
df['地址'] = df['地址'].replace({'香港特别行政区':'香港','上海市':'上海'})
2.5 员工数量数据处理
df['员工数量'] = df['员工数量'].replace({'-':0})
df['员工数量'] = df['员工数量'].fillna(0).astype('int')


3. Pyecharts数据可视化

3.1 各城市500强企业数量地图分布
def get_map_city():
    map_city = (
    Map()
    .add('',
          data_pair=data_pair,
          maptype='china-cities',
    )
    .set_global_opts(
        visualmap_opts=opts.VisualMapOpts(
            pos_left = '20%',
            pos_bottom='20%',
            range_color=range_color,
        ),
        title_opts=opts.TitleOpts(
            title='1-各城市500强企业数量地图分布',
            subtitle=subtitle,
            pos_top='1%',
            pos_left="center",
        ),
    ))
  • 中国500强最多的10个城市北京(97)、上海(49)、深圳(37)、香港(33)、杭州(23)、广州(22)、 南京(9)、 重庆(6)、济南(6)、台北(6)。
3.2 各行业500强数量
def get_bar1():
    bar1 = (
        Bar()
        .add_xaxis(x_data)
        .add_yaxis("",y_data)
        .set_global_opts(
            title_opts=opts.TitleOpts(
                title='2-各行业500强数量',
                subtitle=subtitle,
                pos_top='1%',
                pos_left="center",
            ),
            visualmap_opts=opts.VisualMapOpts(
                range_color=range_color
             ),
        )    )
  • 中国500强最多的10个行业金属产品(55)、房地产(37)、化学品(29)、银行(28)、车辆与零部件(27)、电子、电气设备(26)、 多元化金融(23)、 工程与建筑(22)、能源(21)、半导体、电子元件(619)。

3.3 员工数量TOP20公司的营业收入

  • 上图可以看出:员工数量和营业收入没有很显著的线性关系。
3.4 正负资产收益率占比
def get_bar1():
    pie1 = (
        Pie()
        .add('',
             data,
            )
        .set_global_opts(
            title_opts=opts.TitleOpts(
                title='4-正负资产收益率占比',
                subtitle=subtitle,
                pos_top='1%',
                pos_left="center",
            ),
            visualmap_opts=opts.VisualMapOpts(
                range_color=range_color
            ),
        )    )
  • 正资产收益率的公司一共442家,占比88.4%,负资产收益率的公司一共54家,占比超过了10%。

3.5 净利率分布

3.6 利润最高的十大行业
  • 利润最高的10大行业:炼油(10463.67)、银行(9341.71)、电信(6186.23)、邮件、包裹及货物包装运输(5884.5)、互联网服务和零售(3544.58)、人寿与健康保险(股份)(3225.64)、船务(2996.4)、饮料(2693.53)、网络、通讯设备(2661.97)、采矿、原油生产(2283.48)
3.7 负利润行业数量
def get_scatter1():
    scatter1 = (
        Scatter()
        .add_xaxis(x_data)
        .add_yaxis('', y_data,
                  )
        .set_global_opts(
            title_opts=opts.TitleOpts(
                title='7-负利润行业数量',
                subtitle=subtitle,
                pos_top='2%',
                pos_left="center",
            ),
            visualmap_opts=opts.VisualMapOpts(
                type_='size',
            ),
        )
    )
  • 负利润最多的行业:房地产(19家),金属产品(10家),食品生产(6家),车辆与零部件(4家),航空(3家),化学品(2家),林产品与纸制品(2家),人寿与健康保险(股份)(2家),贸易(1家),酒店、赌场、度假村(1家)
3.8 公司名称词云
def get_wordcloud(x_data,y_data):
    wordcloud = (
        WordCloud()
        .add(series_name="", data_pair, word_size_range=[5, 45])
        .set_global_opts(
            title_opts=opts.TitleOpts(
                title='8-公司名称词云',
                subtitle=subtitle,
                pos_top='1%',
                pos_left="1%",
            )
        )
    )

4. 源码
👉 公众号后台回复可视化项目源码获取更多可视化代码+数据

👉 在线运行:

https://www.heywhale.com/home/column/60e2740e3aeb9c0017b967a2
END

以上就是本期为大家整理的全部内容了,喜欢的朋友可以点赞、点在看也可以分享让更多人知道。

 往期推荐 

源码下载 | 【01-50】Pthon可视化系列文章资源(源码+数据)

爬虫 | Python爬取某平台杭州二手房数据

爬虫 | Python搞定软科中国大学排名

爬虫 | Python爬取胡润百富榜数据

爬虫 | Python爬取微博实时热搜榜信息

爬虫 | Python爬取B站榜排行榜信息

可视化 | Flask+Mysql+Echarts 豆瓣电影Top250数据分析系统

55 | 实习僧网Python岗位招聘数据分析可视化

54 | 2024年美国总统大选数据分析可视化

53 | 基于Lasso回归和随机森林的上海链家二手房房价预测

53 | 上海链家二手房数据分析可视化

52 | 基于KNN近邻和随机森林模型对用户转化进行分析与预测

51 | 深圳市共享单车数据分析可视化

01-50 | Pthon可视化系列文章资源(源码+数据)

Pandas+Pyecharts | 全国热门旅游景点数据分析可视化

可视化 | 再分享一套Flask+Pyecharts可视化模板二

可视化 | 分享一套Flask+Pyecharts可视化模板

可视化 | Python直观展示中国代表团冬奥会荣耀时刻

用Python分析了3W+《独行月球》影评数据,看看观众们怎么说~

Matplotlib | 世界足球俱乐部排名可视化

40000+条考研信息数据可视化(学校、专业分数分布)

【在看】的您又变好看了呢

Python当打之年
当打之年,专注于各领域Python技术,量的积累,质的飞跃。后台回复:【可视化项目源码】可获取可视化系列文章源码和数据
 最新文章