首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
刘博:在探索性统计分析当中,会用到哪些参数?
文摘
2024-11-16 08:01
广东
Hello,大家好,又到了周末统计课的时间了。
在上一篇文章当中,我和你谈到了探索性统计分析和确认性统计分析,不知道你是否有注意,我当时有提到,可以使用像均值、中位数、标准差这样的参数来描述数据分布的情况。
这就是我今天想和你探讨的问题,了解一下这些参数是什么,以及它们真正展示了哪些信息。
当你需要描述性的去呈现数据的时候,单一变量的分布可以包括以下参数:散点参数,像
均值
、
中位数
和
模式
;离散参数,像
极差
、
四分位数
、
方差
和
标准差
;如果为了定义分布的形状,你还可以定义
偏度
和
峰度
。
让我们一个个来了解下。
首先,是
散点参数
,它有时也被称为中心趋势参数,主要是用来描述数据集中的单个变量的典型值或集中趋势的统计量,像均值、中位数和模式就都属于散点参数。
均值
是一个必须计算的参数,它是指数据集中所有数值的总和除以数值的数量。做为数据集的平均值,均值对异常值敏感。
中位数
则是将将数据集从小到大排序后位于中间位置的数值。如果数据集有奇数个数值,中位数就是中间的那个数;如果有偶数个数值,中位数通常是中间两个数的平均值。中位数对异常值不敏感。
最后,是
模式
,就是数据集中出现次数最多的数值。一个数据集可以有一个模式(单峰),多个模式(多峰),或者没有模式(无峰)。
通过这三个参数,你对数据的平均情况有了比较清晰的印象,但还是不知道数据是如何分布的。
那么,为了更好的了解数据分布的情况,就需要
离散参数
出马了。
离散参数是统计学中用来描述数据分布的离散程度或分散程度的统计量。这些参数帮助我们了解数据点之间的差异有多大,以及数据是如何在某个范围内分布的。
在这里,时常用到的参数就有极差、四分位数、方差和标准差。
极差
,就是数据范围内最大值与最小值之间的差,如果用公式表示的话,就是:极差 = 最大值 - 最小值。
它是最简单直观的离散程度度量,但只考虑了数据的两个极端值,没有考虑中间的数据分布情况。
第二个,就是
四分位数
,它将数据集分为四等份的三个点,分别是第一四分位数(Q1,25%分位数)、第二四分位数(Q2,中位数,50%分位数)和第三四分位数(Q3,75%分位数)。
通过四分位数,你可以了解数据的分布情况,特别是数据的中间50%是如何分布的,特别注意一点,在目前的离群值排除算法当中,就是使用四分位数来计算的。
第三个,就是你非常熟悉的
方差
了,它是各数据与其均值差的平方的平均值。
方差衡量了数据点相对于均值的离散程度,方差越大,也就说明数据的分散程度越高。
最后一个,是
标准差
,也就是方差的平方根。
和方差一样,标准差也描述了数据点围绕均值的离散程度,但和方差不同的地方在于,标准差和你收集的临床数据具有相同的单位,这样就更容易解释和理解。
有了这些信息之后,你对数据的离散情况就有了一定程度的了解,但是,你依然不太清楚数据是怎么分布的,这个时候,就要通过查看
形状参数
来解决这个问题啦。
形状参数包含两类,偏度和峰度。
偏度
,就是指数据分布的不对称性,它描述了数据分布的尾部延伸方向,所以很多非正态分布的数型,都被成为偏态分布。
如果偏度为正值,就说明整个分布向左侧偏倚,分布曲线的右尾更长,所以它往往会被称为右偏或者右尾;那如果偏度为负值,那就是向右偏倚,分布曲线的左尾更长,所以也被成为左偏或者左尾。
有一点需要注意,如果整个数据分布是呈偏态分布的话,这个时候使用
中位数
来描述数据会比使用
平均值
更好。
最后一个参数,就是
峰度
,它描述了
数据集的分布状态与正态分布的相似程度
。
如果我们对一个样本测量很多次,就会发现,它们每次的测量结果都不一样,这也就是说,每次测量出现的结果,都是存在一个出现的概率,这一点可以用曲线来进行表示。
因此,如果峰度值为零,这也就是说,数据分布的形状等于正态分布,但如果峰度值小于零,则意味着分布显示的极端值比正常值少,曲线在极端值处似乎会显得更平缓。相反,如果峰度值大于零,则意味着曲线的尾部更明显,因此极端值也比正常分布多。
关注我,降低产品上市认知门槛。
*个人观点,仅供参考。
品牌推广
|
培训合作
|
商业咨询 | 资料商店
| 转载开白
请在公众号后台回复
合作
诊断科学
诊断科学,产品和合规咨询顾问,打造了《IVD上市课》等系列课程,曾为多家国内外诊断公司提供战略咨询服务,提倡“从概念到市场”的理念,为诊断厂家提供产品和合规规划的参考方向,一起更早看到未来。使命:降低产品上市认知门槛。
最新文章
幽门螺杆菌基因突变检测试剂盒审评报告发布!
基因检测和免疫检测临床性能相当,结直肠癌筛查面临‘消费降级’
临床设计与实施:鼻咽癌新血清学标志物
刘博:在设计样本入排标准的时候,需要考虑哪些统计问题?
【11月22日】HPV分型、生殖道多重、基因多态性、肿瘤标志物等38个IVD产品获批上市
【11月22日】一款新冠抗原检测试剂不予注册!
【11月22日】6款IVD产品终止注册,基因检测试剂占一半
“免临床试验”项目组合的联检试剂,能不能免临床试验?
【11月21日】一款IVD设备,进入“优先审批”!
2024年,也许是未来十年内最好的一年
2024年第三次医疗器械产品分类界定结果汇总
如何区分检测限和最低检出限?
医疗器械临床试验应该怎么做?要注意哪些要点?
IVD的临床意义到底是什么?对市场又有怎样的影响?
对于二代测序来说,建库试剂能不能单独申报?
刘博:在探索性统计分析当中,会用到哪些参数?
《免于临床试验目录》当中写“体液样本”的,是不是所有样本类型都可以免临床试验?
IVD运输稳定性的保存条件,到底该怎么设定?
【11月13日】广东润鹏注销去年获批实时荧光PCR仪注册证
7项IVD产品审评报告发布!
对于胶体金这样目视判读的试剂,临界值应该怎么确定?
两项IVD产品指导原则公开征求意见!
如何理解医疗器械同品种比对?它又该怎么做?
特朗普二进宫,会给全球医药行业带来怎么样的冲击?
刘博:临床试验要计算样本量,那每家机构的样本量又该怎么算呢?
对于IVD临床实验来说,临床机构可不可以在同一个市内?
试剂先注册还是设备先注册?这个问题也许和你想的不一样
医药代表的愤怒之火,正在烧向阿斯利康的高管们
关于公开征求对免于临床试验体外诊断试剂目录的通知
12项IVD指导原则征求意见!
什么时候可以不做临床实验,临床评价呢?
国家药监局综合司公开征求《关于进一步明确进口医疗器械产品在中国境内企业生产有关事项的公告(征求意见稿)》意见
科研试剂,要不要去拿个注册证?
AUC这个指标,对IVD产品来说有什么价值?
刘博:什么是定性变量?定量变量呢?它们之间能转化么?
2024年第二次医疗器械产品分类界定结果汇总
同源样本对比的临床试验,应该怎么做?
IVD产品成品检验,是否要包括技术要求中的所有项目?
免费观看丨11月诊断科学课程菜单
国家药监局关于江苏为真生物医药技术股份有限公司、新疆利康祥运生物科技有限公司飞行检查情况的通告
对于定量试剂而言,应该如何选择溯源?
【10月29日】肺癌、肝癌、膀胱癌…多款肿瘤检测产品获批上市!
图文详解!医疗器械临床评价要怎么做?
卷入肿瘤药物骗保旋涡,睿昂基因实控人被刑拘
实例解析,呼吸道多重试剂的临床试验应该怎么设计?
刘博:发生频率,描述性统计最重要的工具
【10月25日】呼吸道、登革热、EB病毒、基因检测等24款产品获批上市!
3个心法,帮你避开器械注册检验的那些坑
风险管理,到底在医疗器械企业中扮演了一个怎样的角色?
畅谈一下,未来需要什么样的阿尔兹海默血检产品?
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉