风霜塞北丨信度与效度,谈建立科学的、标准化的考核测评体系

职场   2024-11-07 22:55   贵州  
(点击上方,关注复转人生,获取更多资讯)

2016年,军改前夕,当时笔者和大家一样,对军改充满了期望。

熬了几个通宵,把自己从军以来的一些不成熟思考和对军改的憧憬,形成了一篇文字,发在了当时的绿网论坛、强军论坛,大家回复很热烈,就是那篇《谈谈我们的政治工作》。

现在看,有些想法看法包括文字,还很粗糙。

当时有位战友的回复印象很深,他问“那么怎么实现对‘德’的量化评价?”。

这个问题,当时我也没有很好的答案,但它一直在我脑海里,是我一直在思考的问题之一。

战斗力标准一文中,我提到了360度考核,是解决这个问题的途径。

360度考核实现的基础,一是软硬件平台,二是科学的标准化的、可迭代的评价体系。

同时,在对强军网建设的建议中,我也又一次提到了利用网络平台进行科学的标准化测评。

今天的这篇文字,是对2016年那位战友回复的回答,不知他是否还能记得自己当时的问题,不知他还会不会看到这篇文字。

同时,这篇文字也是对为什么要建议建立全军大数据中心的一个重要立足点,是对上一篇文章建议中部分内容的展开。

 

信度与效度

信度与效度是统计学中的重要概念,也是人力资源管理调查与测评中的关键指标。

信度(Reliability)

信度是指测量结果的一致性、稳定性及可靠性,一般多以内部一致性来加以表示该测验信度的高低。

通俗来讲,信度可以理解为调查测评结果的真假,是否可信。比如,一项调查测评,如果参加调查测评人员都是基于自身真实看法观点对调查测评表如实进行了填写,那么我们就可以说这项调查测评信度高,结果是可信的。

影响信度的因素主要有:施测人员、参测人员、内容和环境等。

效度(Validity)

效度表示一项研究的真实性和准确性程度。又称真确性。它与研究的目标密切相关,一项研究所得结果必须符合其目标才是有效的,因而效度也就是达到目标的程度。效度是相对的,仅针对特定目标而言,因此只有程度上的差别。

通俗来讲,效度可以理解为调查测评的内容与结果是否与目标一致,或者说是有效性、精确度。

举例来讲,我们对高中生考试用小学试卷,结果效度必然是低的。同样,我们用网上标图成绩作为战术素养标准,也是很不准确的。

信度与效度的关系

信度是效度的必要条件,但不是充分条件。测量要有效度,必须有信度,没有信度就没有效度;但有了信度不一定有效度。

信度低,效度不可能高。因为如果测量的数据不准确,就不能有效地说明所测量的对象。信度高,效度未必高。

信度是效度的基础,效度不能脱离信度单独存在。效度是信度的前提,有效度必定有信度。效度高信度必定也高;效度低,信度也可能高。

例如:对学生进行一次测试,检查学生对所学知识的掌握程度。假如试卷本身设计的不合理,或者由于外界的条件较差,非常吵闹,气温很高,或者评卷人的主观评卷等,都会影响测试的信度,那么的测试结果就根本达不到检测学生的目的,因为评判的条件没有达到,此次测试就是无效的了,也无从判断试卷本身的效度(信度低,效度不会高)。只有我们确信测试是有效的之后对效度做出判断才是有意义的。

以上,用了很大篇幅介绍了信度与效度的概念,以及信度与效度的关系,这和本文所设想的考核测评标准化体系分不开,也是这个体系的核心指标。

 

从信度与效度角度看现行考核测评机制的缺陷

上面说了,影响信度的因素主要有施测人员、参测人员、内容和环境等。

现在,我们就以现行党委班子评测为例,看可信度怎么样。一个典型场景:

(周一,交班会。)2号:明天,xx首长带机关工作组来我们单位进行党委班子考核,政工科牵头做好准备。

(周二,大会议室,参加测评人员已经提前1个小时集合,2号走上台前。)2号:今天机关过来组织测评,希望全体同志要讲政治、顾大局,要以集体荣誉为重,……。

(上级机关人员到场,开始组织测评……),测评毕,结果皆大欢喜。

以上好像没啥问题,再举一个实例对比一下。

某一次,也是党委班子测评,这次上级机关创新了一下,会场上每人发了1个信封,要求测评人员解散,回各自办公室或者宿舍填好后放进信封密封后交回。

结果,这次很多单位的测评结果不是清一色的优秀了,上级首长看到测评结果后要求测评反映出问题的单位进行整改,并上报整改情况报告,机关负责督导并进行回头看。

这次也是唯一一次的创新,自此以后,又恢复了集体填写测评的传统。

大家看出问题了吧?

我们从影响信度的几个关键因素看:

1.组织者。机关愿意给自己找麻烦吗?非要测评出下级单位的问题吗?

2.参测者。集体测评时不填真实想法,只有在足够感到安全的环境下才可能如实填写。

3.测试环境。集体填写和信封收集结果的对比,说明现行集体填写的组织方式不利于参加测评人员如实填写。

仅从这3点看,目前广泛施行的测评方式实际上是失真的,信度极低。

 

我们再看测评问卷的缺陷。这是一张目前广泛使用的典型的测评表:

这份测评表看起来没有太大的问题,已经是比以前只有总体评价项有了进步,但仍然是一张偏“定性”的测评表,它很难反映出被测评人员的素质差距,同时,不同单位人员的测评结果没有横向对比的参考价值。具体如下:

1.最大的硬伤:“政治表现”项。由于公司是一个高度讲政治的组织,任何一个人、单位都当不起“不讲政治”这个评价,所以在政治表现这项上,基本不会给评“合格”“不合格”这两项,都是“优秀”。这就造成了“政治表现”这本来是最重要的一项指标,失去了意义。同时,对各个被测评对象来说,其政治表现在现实中是存在不小差距的。

2.评测项缺乏具体可把握的评测标准。比如精神状态,什么样的精神状态是优秀?什么样的是合格?大多数参加测评人员所参考的仅仅是本单位被测评对象之间的状态对比。

3.不同单位所属人员的测评结果无法进行横向对比。比如一个后进单位的总评“优秀”,是不是能和先进单位的“优秀”相当?肯定不能吧?那么跨单位用人是不是就有机制上的缺陷了?

要想解决这一问题,必须由定性走向定量,建立一个可测量、可比对的标准化体系。

 

建立一个科学的、标准化的测评量表体系

以政治表现为例,下面笔者以个人对政治表现这一项的理解设计一个量表。

在上面这个量表中,把政治表现分解为学习态度、理论水平、带头作用、道德水平、担当表现、团结信任、对组织态度7个方面,并明确了判断标准,还引入了负面问题。总计分为100分,可以很好地把被测评者的政治表现区分开来。不同单位之间的测评也具有标准的统一性,其结果可以适用于不同单位之间横向比较。

大家可以花几分钟试着对单位某个同事或者某个领导用这个测评表测评一下,看看是不是政治表现都能像以前那样总评“优秀”?是不是每个人的打分不会相同了?

同样,我们可以对能力素质、精神状态、工作实绩、廉洁自律设计出标准化量表。 

 

硬件环境需求

1.匿名网络测评环境利于测评人员填写真实数据,匿名网络环境的实现离不开网络平台的集中统一建设,读取实名信息权限集中于最高机构。

2.对信度、效度的分析计算必然需要计算机环境。

3.对测评数据的收集、分析需要建立全J的大数据中心。

基于以上,再次建议郑重向JW办公厅提出建议:可否将强军网收归办公厅管理,独立运行,并建立全军大数据中心。

 

当然,建立一个科学的、标准化的考核测评体系不是一蹴而就的,需要坐下来研究、调研、试验、调整迭代,努力提高这个体系的信度与效度。

但我们不去做,问题就会一直在那里。

 

统帅早在2014年10月召开的全军政治工作会议上讲话中就强调指出:“完善干部考核评价体系”,特别是要“把对干部德的考核具体化”。 

从全军政治工作会议召开,已经过去7年了。

                           

                              风霜塞北

于2021年7月4日,凌晨

复转人生
分享故事,服务战友。
 最新文章