线性回归模型简介

科技 2024-09-28 08:20 广东

今天是生信星球陪你的第995天

公众号里的文章大多数需要编程基础，如果因为代码看不懂，而跟不上正文的节奏，可以来找我学习，相当于给自己一个新手保护期。我的课程都是循环开课，点进去咨询微信↓
生信分析直播课程(9月30日下一期)
生信新手保护学习小组（10月初下一期）
单细胞陪伴学习小组（10月初下一期)

1.探索数据

import pandas as pd 
diabetes_df = pd.read_csv("diabetes_clean.csv") 
print(diabetes_df.head())

diabetes_df.describe()

除了第一列表示怀孕次数的可以是0，其他的指标不可能为0，所以其他列是0的行应该是缺失的，这样的行应当去掉。

后面只用到了glucose和bmi列，所以把这两列中的任意一列值为0的行去掉

cols_to_check = diabetes_df.iloc[:, [1,5]]
# 检查这些列中任意一列是否包含0
rows_to_drop = cols_to_check.eq(0).any(axis=1)

# 删除这些行
diabetes_df = diabetes_df[~rows_to_drop]
diabetes_df.shape
## (752, 9)

2.创建特征和目标数据

X = diabetes_df.drop("glucose", axis=1).values 
y = diabetes_df["glucose"].values  
print(type(X), type(y)) 
## <class 'numpy.ndarray'> <class 'numpy.ndarray'>

3.根据单一特征完成预测

X_bmi = X[:, 3] 
print(y.shape, X_bmi.shape) 
## (752,) (752,)
X_bmi = X_bmi.reshape(-1, 1) 
print(X_bmi.shape) 
## (752, 1) 
# 也可以写作
X_bmi = diabetes_df.iloc[:,5].values.reshape(-1,1)

y是一维的没有问题，但X通常是多个特征，所以函数不允许X是一维数组的格式。

我找kimi讲解了一下.reshape(-1, 1) 的作用：

reshape(-1, 1)是NumPy数组的一个方法，用于改变数组的形状。
reshape(-1, 1)中的-1表示自动计算这一维的大小，以确保总元素数量不变。这里，它会自动计算出需要多少行，以使得数组的总元素数量与原始数组相同。
1表示新的数组将只有一列。
这行代码的作用是将X_bmi数组从一维数组转换为二维数组，其中每个元素都在自己的行中，即变为一个列向量。

举个例子，假设X是这样的数组：

[[ 0.0,  1.0,  2.0,  3.0],
 [ 4.0,  5.0,  6.0,  7.0],
 [ 8.0,  9.0, 10.0, 11.0]]

执行X_bmi = X[:, 3]后，X_bmi将是：

[3. 7. 11.]

然后执行X_bmi = X_bmi.reshape(-1, 1)后，X_bmi将变为：

[[ 3.],
 [ 7.],
 [11.]]

这样，X_bmi就从一个一维数组变成了一个二维数组，每个元素都在自己的行中。这种转换在机器学习中很常见，因为许多机器学习算法需要输入数据为二维数组的形式（即特征矩阵）。

4.把特征和目标变量画在散点图里

import matplotlib.pyplot as plt 
plt.scatter(X_bmi, y) 
plt.ylabel("Blood Glucose (mg/dl)") 
plt.xlabel("Body Mass Index") 
plt.show()

5.拟合线性回归模型并可视化

from sklearn.linear_model import LinearRegression 
reg = LinearRegression() 
reg.fit(X_bmi, y) 
predictions = reg.predict(X_bmi) 
print(predictions[:5]) #查看前五个预测值
## [123.11892469 115.92280307 112.53034574 117.46482913 132.88508973]
plt.scatter(X_bmi, y) 
plt.plot(X_bmi, predictions) 
plt.ylabel("Blood Glucose (mg/dl)") 
plt.xlabel("Body Mass Index") 
plt.show()

http://mp.weixin.qq.com/s?__biz=MzU4NjU4ODQ2MQ==&mid=2247496075&idx=1&sn=be13f51a2e9b9281970c60621493e5b4

生信星球

一个零基础学生信的平台-- 原创结构化图文/教程，精选阶段性资料，带你少走弯路早入门，收获成就感，早成生信小能手~

最新文章

多样本数据的自动注释-harmony和celltypist

审美不够，配色来凑，数量不够，拿啥来凑?

从体育生到医学生，一路逆袭，一路自我救赎

单细胞陪伴学习小组召唤你

招聘|中山大学-广州医科大学联合招聘神经生物学与生物信息学方向博士后

漂亮的单细胞多组火山图

拟时序分析的State表达矩阵和差异基因

如果你的mac装包很困难，那就试试...

生信入门&数据挖掘线上直播课11月班

igraph更新，让monocle出bug啦

不看KM-plot，不做cox回归，怎么量化哪个组的预后好

近期的生信培训日程

数据存储格式小知识：tar、gz、tar.gz、mtx、tsv、csv大揭秘！

python字符串处理技巧

jupyter 的魔法函数

python单细胞数据的基因集打分

python单细胞自动注释工具celltypist(排版不抽风版)

python单细胞自动注释工具celltypist

富集的物种不是人咋整啊

你这KEGG富集到了吗？

python 单细胞scanpy流程

抓出电脑上的大文件

评估多个模型[系列完结]

建模数据的预处理

模型的超参数优化

分类模型的评测指标

正则化回归

理解什么叫交叉验证

半职妈妈的朝朝暮暮

线性回归的基础知识

线性回归模型简介

生信入门&数据挖掘线上直播课10月班

机器学习分类模型的性能衡量

机器学习分类模型的构建和预测

使用scikit-learn进行机器学习

多重假设检验P值的校正及Python实现

R用户要整点python[系列完结]

R用户要整点python--matplotlab画图

R用户要整点python--seaborn画图

R用户要整点python--pandas画图

R用户要整点python--pandas进阶

R用户要整点python--数据框里的数据类型

生信入门&数据挖掘线上直播课9月班

R用户要整点python--pandas数据框取子集

周末南京见

R用户要整点python--pandas数据框取子集

R用户要整点python--推导式

R用户要整点python--函数

R用户要整点python--条件和循环

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉