ModelCube实验 | 基于Seaborn的保险费用数据散点图实践

文摘 2024-08-05 07:27 浙江

ModelCube（modelcube.cn）是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术，实现了科研场景中全类型数据管理与标注，实验环境快速获取与灵活定制，模型的全生命周期管理，科研成果的管理与发布，以及 AI驱动的论文检索和学习等功能。

在本实验中，大家将学习到如何利用Python的可视化库Seaborn来绘制散点图。在本实验中，大家将处理真实世界的数据集。

import pandas as pd
pd.plotting.register_matplotlib_converters()
import warnings
warnings.filterwarnings("ignore")
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
print("Setup Complete")

Setup Complete

1. 加载并检查数据

我们将使用保险费用数据集，看看我们是否能理解为什么一些客户比其他客户支付更多的保险费用。

数据集共1,388条数据，7个字段，字段说明如下：

字段名称	字段说明
age	年龄
sex	性别
bmi	体重指数
children	健康保险覆盖的子女数/受抚养子女数
smoker	是否吸烟
region	受益人在美国的居住区，东北部，东南部，西南部，西北部
charges	医疗保险收取的个人医疗费用

insurance_filepath = "../dataset/10418/insurance.csv"

insurance_data = pd.read_csv(insurance_filepath)

和往常一样，我们通过打印前五行来检查数据集是否正确加载。

insurance_data.head()

2. 散点图

要创建一个简单的散点图，我们使用"sns.scatterplot"命令并指定以下值：

水平x轴('x=insurance_data['bmi']`)
垂直y轴("y=insurance_data["charges"]")

sns.scatterplot(x=insurance_data['bmi'], y=insurance_data['charges'])

上面的散点图表明体重指数(BMI)和保险费用呈正相关，BMI较高的客户通常也倾向于支付更多的保险费用。(这种模式是有道理的，因为高BMI通常与更高的慢性病风险有关。)

要仔细检查这种关系的强度，大家可能需要添加一条回归线或最适合数据的线。我们通过将命令更改为"sns.regplot"来完成此操作。

sns.regplot(x=insurance_data['bmi'], y=insurance_data['charges'])

3. 颜色编码散点图

我们可以使用散点图来显示('bmi'，'charges'，'smoker')三个变量之间的关系!一种方法是对点进行颜色编码。

例如，为了了解吸烟如何影响BMI和保险费用之间的关系，我们可以用"吸烟"对点进行颜色编码，并在轴上绘制其他两列("bmi"、"charges")。

sns.scatterplot(x=insurance_data['bmi'], y=insurance_data['charges'], hue=insurance_data['smoker'])

这个散点图显示，虽然不吸烟者往往会随着BMI的增加而支付略高的费用，但吸烟者支付的费用要高得多。

为了进一步强调这一事实，我们可以使用"sns.lmplot"命令添加两条回归线，分别对应吸烟者和非吸烟者。(大家会注意到，相对于不吸烟者的回归线，吸烟者的回归曲线斜率要陡得多!)

sns.lmplot(x="bmi", y="charges", hue="smoker", data=insurance_data)

上面的"sns.lmplot"命令的工作方式与大家迄今为止所了解的命令略有不同：

我们没有设置'x=insurance_data['bmi']'来选择'insurance_data'中的'bmi'列，而是设置'x="bmi"'来仅指定列的名称。
类似地，y="charges"和hue="smoker"也包含列的名称。
我们用data=insurance_data指定数据集。

最后，还有一个大家需要了解的图，它看起来可能与平常看到的散点图的方式略有不同。通常，我们使用散点图来突出两个连续变量(如"bmi"和"charges")之间的关系。然而，我们可以调整散点图的设计，使其在主轴之一上具有分类变量(如"吸烟者")。我们将把这种图类型称为分类散点图，并使用"sns.swamplot"命令构建它。

sns.swarmplot(x=insurance_data['smoker'],
              y=insurance_data['charges'])

除其他外，这个图形向我们表明：

平均而言，非吸烟者的收费低于吸烟者
支付最多的顾客是吸烟者;而支付最少费用的顾客是非吸烟者。

在线运行本实验请登录ModelCube
http://modelcube.cn/experiment/experiment-detail/1002553

http://mp.weixin.qq.com/s?__biz=MzU2NTcxODIyMg==&mid=2247515403&idx=1&sn=c7c048bf554ce511da9d1e20bd3b5b1d

数据科学人工智能

聚焦数据科学，大数据，人工智能，区块链和云计算等话题。技术资料分享，院士名家观点分享，前沿资讯分享。

最新文章

ModelCube数据集 | NBA球员数据集（1950年至今）

ModelCube数据集 | 泰坦尼克号数据集

ModelCube数据集 | 英国二手车数据集

ModelCube数据集 | 语音性别识别数据集

ModelCube数据集 | 印度板球超级联赛数据集

ModelCube数据集 | 心脏病数据集

ModelCube数据集 | 手语数字数据集

ModelCube数据集 | 2020年世界卫生统计报告数据集|完整|地理分析

ModelCube数据集 | 印度创业基金数据集

ModelCube数据集 | 太阳能发电数据集

ModelCube数据集 | 拉面评分数据集

ModelCube数据集 | 《权力的游戏》数据集

ModelCube数据集 | PJM小时能耗数据集

ModelCube数据集 | 枪支暴力数据集

ModelCube数据集 | 糖尿病数据集

ModelCube数据集 | 用于讽刺检测的新闻标题数据集

ModelCube数据集 | 国际足联世界杯数据集

ModelCube数据集 | 零售数据分析数据集

ModelCube数据集 | 校园招聘数据集

ModelCube数据集 | Spotify2019年Top50歌曲数据集

ModelCube数据集 | 钻石数据集

ModelCube数据集 | 标准普尔500指数股票数据集

ModelCube数据集 | 医疗预约数据集

ModelCube数据集 | IMDB 50K电影评论数据集

ModelCube阅读列表 | 机器学习运维MLOps

ModelCube数据集 | 亚马逊Top50畅销书数据集（2009-2019年）

ModelCube数据集 | 视频游戏销售额与评级数据集

ModelCube阅读列表 | 对抗生成网络

ModelCube数据集 | 女性电子商务服装评论数据集

ModelCube阅读列表 | ImageNet架构和技巧

ModelCube数据集 | WHO预期寿命数据集

ModelCube数据集 | 加州房价数据集

ModelCube阅读列表 | 强化学习

ModelCube数据集 | 用于脑肿瘤检测的脑MRI图像

ModelCube数据集 | 全球大学排行数据集

ModelCube实验 | 基于Seaborn的保险费用数据散点图实践

ModelCube阅读列表 | 数据挖掘十大算法

ModelCube数据集 | 移动应用商店（7200个应用）数据集

ModelCube实验 | 基于出租车数据的城市交通流分析

ModelCube数据集 | Zomato Bangalore餐厅评论数据集

ModelCube数据集 | （MBTI）Myers-Briggs人格类型数据集

ModelCube实验 | 使用Pandas对美国橄榄球联盟 (NFL) 数据进行数据清洗

ModelCube阅读列表 | 主题模型

ModelCube数据集 | 巧克力棒评分数据集

ModelCube数据集 | 人力资源分析：数据科学家工作变动数据集

ModelCube实验 | 基于集成学习的肾结石预测

ModelCube阅读列表 | 神经网络优化

ModelCube数据集 | 国际象棋游戏数据集（Lichess）

ModelCube实验 | 在线送餐客户流失分析与预测

ModelCube数据集 | 水质数据集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

ModelCube实验 | 基于Seaborn的保险费用数据散点图实践

1. 加载并检查数据

2. 散点图

3. 颜色编码散点图

在线运行本实验请登录ModelCubehttp://modelcube.cn/experiment/experiment-detail/1002553

在线运行本实验请登录ModelCube
http://modelcube.cn/experiment/experiment-detail/1002553