CICC科普栏目｜统计方法在论文中的正确打开方式

科技 2024-11-16 13:50 北京

导语：医学科技论文，特别是高质量的原始论著及根据高质量原始论著产生的系统评价己不断地改进和规范着临床医疗实践活动。因此，医学文献的质量高低与我们的临床医疗实践活动密切相关。然而，如果统计学方法应用不当，不仅不能准确地反映科研结果，而且还可能带来错误的结沦。

来源：梅斯医学

Rosenfeld 等比较了不同年代发表的文章，在20 世纪90年代以后有更多的文章使用了统计推断，而且比较复杂的统计分析方法如多因素分析等也更多的应用于临床研究中，但同时也存在使用统计方法欠妥或叙述不清的情况。国内耳鼻咽喉科医学科技论文情况近似，熊国强等分析了2000 年到2001 年“中国耳鼻咽喉颅底外科杂志”，在科研设计和统计分析方面的应用现状；胡良平等抽查了“中华耳鼻咽喉科杂志”1998 年到2000 年发表的部分文献，发现统计学误用比较常见。因此本文将对医学科技论文常见统计学方法的正确应用进行讨论，希望加强作者的统计思维，进而提高期刊论文的统计质量及学术水平。

统计方法的内容

统计软件包、统计分析方法及检验水准是统计学方法必须描述的3方面内容。SPSS (statistics package for social science) 和SAS(statistical analysis system ) 是全世界学术界公认且最常用的两大统计软件包。检验水准即A，表示组间实际无差别而统计结果判断为有差别，犯这类错误的概率。实际工作中常取 A=0.05，表示本次研究计算所得P 值必须小于0.05，才能认为组间差异有统计学意义。因而本刊对于检验水准的描述多简化为“P值< 0. 05 为有统计学意义”。统计分析方法的准确描述是科技论文科学性的关键所在。统计学方法一般包括统计描述和组间差异性检验(即：假设检验) 两部分内容。

统计描述

统计描述主要是根据资料类型及原始数据分布类型，选择正确的指标描述资料特征。资料类型分为定量资料和定性资料，前者是指对每个观察对象测得的某个指标能够用具体数据表示，如：年龄、身高、每张切片的阳性细胞百分率等; 后者指对每个观察对象测得的某个指标不能用具体数值表示，仅反映观察对象的某一特征，如: 阳性、阴性，ABO 血型，治愈、显效、好转、无效等。定量资料如果符合正态分布，统计描述指标可用均数及标准差，一般描述为“数据以均数±标准差表示”; 如果不符合正态分布，则统计描述指标选用中位数和级差(即: 最大值和最小值之差)。

区分资料是正态或偏态分布，可以通过SPSS、SAS 统计软件程序判断，也可以通过目测数据是否有"极端值"，即特别大或特别小的数据，进行判断。定性资料的统计描述包括率、构成比及相对比。率表示单位时间内某现象或事物发生的概率，如发病率、死亡率等；构成比指事物内部某一部分的个体数与该事物各部分个体数的总和之比，表示各构成部分在全体中所占的比重或分布，不能说明某现象发生的频率或强度，如性别构成、疾病构成、死亡构成等。二者的区别从以下公式则一目了然。然而，在实际应用中以构成比代替率很常见。

例如，某文分析240 例耳鼻咽喉科住院患者，鼻窦炎41 例，称发病率17. 08% ，文中“发病率”实际为鼻窦炎患者在该科所有患者中的构成比。此外，还有将病死率误用为死亡率、患病率误用为发病率等，这些都需引起作者的注意。某种疾病发病率= 某段时间内发生该疾病的人数/某段时间内可能发生该种疾病的总人数某种疾病构成比= 某段时间内发生该疾病的人数/某段时间内发生各种疾病的总人数。

假设检验

科技论文中最常用的是组间差异性检验。假设检验方法很多，不同的科研设计类型及资料类型适用的检验方法有所不同。定量资料与定性资料常用的统计分析方法介绍如下。

定量资料

定量资料的统计分析方法包括参数法和非参数法，前者如t检验、方差分析，后者如秩和检验。选择的关键在于资料分布类型，如果资料符合正态分布且组间方差齐(即各组标准差彼此接近) 则选用参数法，不符合则选用非参数法。但在许多医学论文中经常忽略这两个条件，不考虑资料的分布直接采用t 检验或方差分析，由此得出的分析结果是不可信的，见例1。

例1 ：

为研究TGF- β、CEA 肿瘤标志在喉癌患者手术前、后有无差异，分别检测了58 名患者前及术后TGF- β和CEA，经配对t 检验，TGF- β术前、后差异有统计学意义，结果见表1。

表1.肿瘤标记物术前术后的检测*
组别             TGF- β(μg/l)            CEA（μg/l）
术前               19.0±26.3                 34.0±79.0
术后                4.8±7.5*                  20.6±11.2
与术前比较p值﹤0.05

表中两指标标准差均相差达2 倍以上，提示方差不齐，故不宜采用t 检验，而适合采用秩和检验。t 检验用于两组均数间的比较，包括两独立样本t 检验、配对t 检验和样本均数与总体均数比较的t 检验；方差分析用于两组或两组以上均数的比较。然而,在许多医学论文中，对于3 组或3 组以上均数的两两比较，常重复使用独立样本t 检验作比较，如例2。这样会加大犯阳性错误的概率，即可能将无差别的两个总体均数判断为有差别。这点尤其需引起作者的注意，这也是医学科技论文中t 检验滥用的重要表现之一。

此类资料正确的分析方法应是先进行方差分析，以确定这几组均数总体差异有无统计学意义；如果有统计学意义，则进一步采用q 检验(任意组间两两比较) 或Dunnett t 检验(每个实验组与对照组比较) 以确定哪些组间差异有统计学意义。

例2 ：

为了解不同分化程度的下咽癌患者VEGFR- 3 表达阳性脉管的数目VEGFR- 3 表达阳性脉管差异，分别检测16 例高分化患者，1

5 例中分化者及13 例低分化者，作者采用独立样本t检验，结果见表2。

表2 下咽癌组织中VEGFR- 3 表达阳性脉管与病理分级的关系
组别             例数 VEGFR- 3 表达阳性脉管
高分化组   16 14.29±6.50
中分化组   15 15.65±5.84
低分化组   13 16.16±4.75
各组之间p 值﹥0.05

定性资料

定性资料整理与归纳后，主要分为3 种类型，即四格表资料(只有2 组，且结果变量为2 分类变量，总络子数为4 见表3)、行×列表资料(总格子数> 4，见表4) 和列联表资料(又称双向有序资料，见表5)。行×列表资料又包括单向有序资料(即等级资料，2 组或2 组以上，结果变量为有序多分类变量，见表6)。不同资料类型采用的统计分析方法有所不同。

表3 四格表资料格式
组别             阴性            阳性            合计
实验组     10 29 39
对照组     24              11 35
合计               34              40 74

表4 行×列表资料格式

组别                 阴性               阳性合计
实验1 组   10 29 39
实验2 组   15 19 34
对照组     24                11 35
合计                   49 59 108表5 列联表资料格式
                               N 分期
T 分期 N0         N1         N2         N3 合计
T1   15         9            4 3         31
T2     13 14          9 4 40
T3     9         14 6 5 34
T4   8          7 7 4        26
合计     45         44 26 16 131

表6 单向有序资料格式
组别         无效好转显效      治愈合计
实验组         3 9 11 19         42
对照组         9 5 7 9 30
合计          12 14 18 28         72

四格表资料χ2 检验医学论文中，四格表资料χ2 检验的应用很常见，但使用时应注意具体的应用条件。当总例数大于40，且每个格子的理论频数均不小于5 时，应用未校正的χ2 检验;如果总例数大于40,有一个格子的理论频数小于5 但大于1，采用校正的χ2 检验; 如果总例数小于40，或有一个格子的理论频数小于1，则采用Fisher 确切概率法。实际应用中，许多作者不考虑应用的前题条件，均使用未校正的χ2 检验，从而导致结果不可靠。行×列表资料χ2 检验行×列表资料χ2 检验主要用于多个率或构成比的比较。但此时要求所有格子中理论频数小于5 的格子数少于总格子数的1/5。如果大于1/5 ，则相邻格子应删除或合并后再计算。此时若需了解具体那些率之间差异有统计学意义，就需进行χ2 分割来确定。

单向有序资料此类资料如果是比较组间治疗效果差异有无统计学意义，则应采用秩和检验。如果采用χ2 检验，仅表明各组的疗效构成差异有无统计学意义，因为此时只利用了每组构成比提供的信息，损失了有序指标提供的“等级”信息。这也是许多作者误用统计学方法的资料类型之一，需尤其注意。列联表资料χ2 检验此类资料特征为对同一组观察对象，分别观察其两种有序分类变量的表现，归纳成双向交叉排列的统计表，分析两个分类变量是否有相关联系的假设检验，采用行×列表χ2 检验。

如果需了解两变量有无相关性，或相关程度有多大，此时需作相关分析。相关分析应报告相关系数及对该相关系数所作的假设检验P 值。相关系数种类很多，选择时应根据指标类型来确定。如果是计量指标,则应选择Pearson 相关系数; 如果是等级指标，则应选择Spearman 相关系数。

结论的表述

首先要明确“P 值< 0.05”，习惯上称“显著”(significant) ，仅说明两组差异有统计学意义，并不能说明两组该指标相差很大，或在专业上有显著的(重要的)价值; 反之，P 值>0.05，习惯上称“不显著”(non significant) ，不应误解为相差不大，或一定相等，仅说明从统计角度考虑这两组差异无统计学意义。为了不与一般意义上的“显著”、“不显著”相混淆，许多统计学家主张作结论时不用“是否显著”一词，而用“差异有无统计学意义”。

此外，根据统计结果得出专业结论不能太绝对化，因为统计结论均是概率性的，不是绝对的肯定或否定，本次研究统计结果是阴性，如果增加样本含量，组间差异可能就有统计学意义了。

综上所述，不同的统计分析方法均有其应用条件和适用范围，实际应用时，必须根据科研设计类型及变量类型选择恰当的统计分析方法，同时注意检查结果解释和专业结论是否同时满足专业和统计学要求。切忌将t 检验、χ2 检验视为分析资料的“万能工具”，盲目套用，导致文章的科学性降低。

编辑 /范瑞强

审核 / 范瑞强

复核 / 范瑞强

本文来源：数学中国

关注公众号了解更多

会员申请请在公众号内回复“个人会员”或“单位会员

欢迎关注中国指挥与控制学会媒体矩阵

CICC官方抖音

CICC头条号

CICC微博号

CICC官方网站

CICC官方微信公众号

《指挥与控制学报》官网

国际无人系统大会官网

中国指挥控制大会官网

全国兵棋推演大赛

全国空中智能博弈大赛

搜狐号

一点号

http://mp.weixin.qq.com/s?__biz=MzA4ODcwOTExMQ==&mid=2655793025&idx=6&sn=50312ec8503602e777d1d2950a20b2c4

中国指挥与控制学会

中国指挥与控制学会是中国科协、国家民政部批准成立的国家一级学会，是由我国从事指挥与控制科学技术领域的单位和科技工作者自愿结成的学术性、全国性社团组织。学会办事机构挂靠中国兵器工业集团公司。

面向机弹一体的未来空战火力运用思考

小型无人机蜂群和作战管理：不断发展的战争格局

现代作战加速向无人化转变

CICC党建栏目｜三块浮雕背后的革命故事

CICC科普栏目｜顶级俄国数学家是怎样炼成的？

喜报 | 中国指挥与控制学会官方微信视频号平台播放量超10万

中国指挥与控制学会认知与行为专业委员会协助举办院士大课堂系列活动

直播预告：《遥感共性产品技术交流与产品培训会》

美国低成本精确制导弹药发展情况

CICC党建栏目｜从“红旗勋章”到“五章一簿”，功勋奖章制度的形成与发展

CICC科普栏目｜漫谈数学与数学人

美国陆军持续转型

软件定义技术在电子战中的应用进展

AI的推理与人类的推理有着根本的区别

反无人机系统与现有部队的整合

CICC党建栏目｜一口水井下，藏着一个“隐形医院”......

CICC科普栏目｜人工智能与机器学习在网络安全应用中的区别

提升新兴领域国防动员能力

X-62A——人工智能赋能的未来杀器

人工智能综述：物理学与人工智能的跨界新范式

实现统一天空愿景：为未来航空运输整合ATM与AAM

李大钊每月收入足以过上富足生活，为何家中入不敷出？

CICC科普栏目｜统计方法在论文中的正确打开方式

2024第八届全国集群智能与协同控制大会最新议程

反无人机系统与现有部队的整合

军用机器人及其反制

海上无人威胁的新型防御系统

CICC科普栏目｜Python中进行特征重要性分析的9个常用方法

2024年IEEE第16届自抗扰控制研讨会于珠海成功举办

关于举办智能博弈技术与应用实战研修班的通知

自主武器系统：军事行动的未来

CICC党建栏目｜当心！这些做法会泄露组织秘密

CICC科普栏目｜图像特征提取与匹配技术

利用兵棋推演了解大规模战斗行动中的持续保障

浅析无人机蜂群的实战运用

谈谈军事需求提报和军地对接的重要意义

CICC党建栏目｜对违反廉洁纪律行为的处分

CICC科普栏目｜餐巾纸上画的一张图，让他获得诺奖并成为“大科学之父”

2024年第四届复杂系统可靠性科学与工程论坛成功举办

关于召开“2024第三届大数据科学与工程论坛”的通知

战斗管理辅助的系统性方法

CICC党建栏目｜公务接待正负面清单

CICC科普栏目｜Python可视化核心步骤

【CICC原创】基于迁移学习的雷达信号类型自动识别方法

浅析这款自动人道主义排雷系统

协同战斗飞行器的发展与运用

关于召开“中国指挥与控制学会无人系统专业委员会三届一次会议暨无人系统技术交流会”的通知

CICC党建栏目｜如何对发展对象进行政治审查？

CICC科普栏目｜高空中的气象“高速公路”：西风急流如何影响现代飞行？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

CICC科普栏目｜统计方法在论文中的正确打开方式

科技论文中最常用的是组间差异性检验。假设检验方法很多，不同的科研设计类型及资料类型适用的检验方法有所不同。定量资料与定性资料常用的统计分析方法介绍如下。

例1 ：

为研究TGF- β、CEA 肿瘤标志在喉癌患者手术前、后有无差异，分别检测了58 名患者前及术后TGF- β和CEA，经配对t 检验，TGF- β术前、后差异有统计学意义，结果见表1。

表1.肿瘤标记物术前术后的检测*组别 TGF- β(μg/l) CEA（μg/l）术前 19.0±26.3 34.0±79.0术后 4.8±7.5* 20.6±11.2与术前比较p值﹤0.05

例2 ：

为了解不同分化程度的下咽癌患者VEGFR- 3 表达阳性脉管的数目VEGFR- 3 表达阳性脉管差异，分别检测16 例高分化患者，1

5 例中分化者及13 例低分化者，作者采用独立样本t检验，结果见表2。

表2 下咽癌组织中VEGFR- 3 表达阳性脉管与病理分级的关系组别 例数 VEGFR- 3 表达阳性脉管高分化组 16 14.29±6.50中分化组 15 15.65±5.84低分化组 13 16.16±4.75各组之间p 值﹥0.05

表3 四格表资料格式组别 阴性 阳性 合计实验组 10 29 39对照组 24 11 35合计 34 40 74

表4 行×列表资料格式

此外，根据统计结果得出专业结论不能太绝对化，因为统计结论均是概率性的，不是绝对的肯定或否定，本次研究统计结果是阴性，如果增加样本含量，组间差异可能就有统计学意义了。

表1.肿瘤标记物术前术后的检测*
组别 TGF- β(μg/l) CEA（μg/l）
术前 19.0±26.3 34.0±79.0
术后 4.8±7.5* 20.6±11.2
与术前比较p值﹤0.05

表2 下咽癌组织中VEGFR- 3 表达阳性脉管与病理分级的关系
组别例数 VEGFR- 3 表达阳性脉管
高分化组 16 14.29±6.50
中分化组 15 15.65±5.84
低分化组 13 16.16±4.75
各组之间p 值﹥0.05

表3 四格表资料格式
组别阴性阳性合计
实验组 10 29 39
对照组 24 11 35
合计 34 40 74