01
—
02
—
对测量的痴迷将严重受害
在这里,我们要讲另一个迷思,这个迷思多年来一直在破坏人类活动,而且不仅仅是在医疗领域。。引用《纽约时报》的一篇题为《测量是如何辜负医生和教师的》(Wachter,2016)的文章:“我们正在击中目标,却没有抓住要点。”近年来,同样的“测量疲劳”已经对许多美国企业造成了不良的影响,甚至也损害了美国传奇的企业精神(详见www.mintzberg.org/enterprise)。谁曾成功地衡量过文化、领导力,甚至是一个全新产品的市场潜力?这些都不能被管理吗?卡普兰和波特是否测量过他们自己建议的有效性?事实上,对于测量来说,除了他们自己认为它是极好的,又有谁试着去测量过测量本身的效果呢?还有测量管理的效果呢?(千万不要告诉我股价上涨就是对CEO管理效果的测量。)
因此,我想,测量和管理都是无法被管理的。在组织中(以及在生活中)许多最重要的事情是无法测量的。然而,无论从个人角度还是组织角度出发,它们都必须被管理。
当然,我们不得不测量我们能测量的,我们只是不能让自己被测量所迷惑——我们经常是这样的。在我看来,被数字迷惑已经成为一个比操纵数字更大的问题。正如一位医生最近所写的:“我正在与那些忽视或无视任何无法测量之物的人做斗争。”为什么会这样?一个大型卫生部门的高级官员勉强给出了一个解释:“当我们不明白发生了什么事时,我们还能做些什么呢?”要不离开你的办公室去看看发生了什么事?这没那么难。戴
医学专业也很难幸免于此。如今,临床医生的流行语是“循证医学”(evidence-based medicine)。他们认为好的医生应该依靠经由适当的研究得出的数据来证明他们的干预是正确的——比起依靠他们自己的判断或经验,更应该依靠正确的证据。然而,当我们让参与国际医疗健康领导力硕士课程的学生们(其中大多数是医生)判断,他们在过往的实践中更多根据证据还是经验时,他们给出了各种答案——大多数人的答案是位于二者之间,但是会向经验倾斜。有人说:“对我来说,证据是经验的一部分。”另一个人则提到“证据的专制”,最好的评论是,应该称之为“证据指导的医学”(evidence-guided medicine)。标签不是随便贴的。事实上,根据葛文德(2004)的观点,在囊性纤维化病治疗领域非常成功的沃里克医生,“对已被广泛认可的发现持近乎轻蔑的态度”,他认为那些发现“只是对过去的记录,鲜有更多的价值”。葛文德补充说:“我们习惯于认为医生的能力主要取决于科学和技能。这里的教训是,这些可能是医疗领域里最容易的部分了……模糊的因素,如进取、连贯和创新,可以对结果产生很重大的作用。”如今,每个人都在被打分,包括“消防员、CEO和销售人员”。但是,这些分数“似乎从来没有测量正确的事项”。
波特和泰斯伯格曾写道,“我们需要的是针对治疗结果的竞争,而不仅仅是循证医学”(2006:7)。这样用户就可以有选择医院和医生的依据,而“供应者则会向特定症状的患者收取相同的费用”(p29)。但是,在类别之上、之间和之下的病症,有什么因素是特定的呢?为了方便计算,一定要将每一种病症都放在分类架上的一个位置上,并希望它吻合吗?从治疗结果考虑,患者们当然都会选择沃里克医生,但是他的治疗方案不是一成不变的,案例中的那个年轻女患者也不是不变的——他是把她作为一个人来为她量身定制治疗方案。
可以测量和定价的最简单的东西,就是他和患者在一起的时间——但这也正是问题所在。医院管理人员或政府官员可能会说:“为什么他花了这么多时间在一个患者身上?也许在受到这般关注和照顾后,这个患者的生命会延续得更久一些,但这个结果我们只能在多年后才会知道,而现在我们面临着预算约束的问题。”
医院、保险公司和卫生部门经常地惩罚像沃里克医生这样的人,就因为他们把患者当作人来对待,肯把大量的时间花在患者身上。因为经济学在医学结束前就介入了,医疗领域的专家统治论者往往会打败专业人士。
“应该对费时的、更难预测的流程进行时长的计算,尤其是那些涉及多个医生与护士操作的复杂医疗活动,比如大手术或对有复杂病情的患者进行检查。”(Kaplan,Porter,2011:9)这让人联想到南非报纸的一条评论,“出发前应该看看多日天气预报,因为天气极难预料”(《纳塔尔日报》,1982年6月16日)。
那么,如果不仅仅依靠测量,一位尽责的管理者可以做什么呢?很简单,学会去做判断——不要只用判断,而要适当判断。
你还记得判断吗?毕竟,这个词还继续在字典里存在。当然,我指的是智者的明智判断。但是,还有其他的形式值得拥有这个标签吗?
通过观察和体验,智者也会意识到自己的局限性,所以会尽可能地扩展自己的知识——包括从可靠的证据和成功的经验中汲取指导。
他们判断人、情况、建议和数字,就像他们用数字来检验自身的判断一样。证据必须放在合适的位置上,也就是可以让它帮助判断,而不是取代判断。有时,证据非常薄弱,专业人士不得不依靠经验来判断,但证据从未强大到能阻止判断。我们的世界是怎样的,取决于那些身居高位之人的判断力。
数字出官,官出数字,我们过去的经验一直如此,也造就了我们每一个人对数字的追求和比拼,于是每一家医院都在数字上投入了过多的精力,却忽视了数据填报之前的信息,丧失了洞察本质的机会。
03
—
数字是精确的,所以人们认为它们是可靠的。但这种想法可能是危险的。
我们下面谈论“硬数据”(即使是在“软件拷贝”中的数据)。岩石是硬的,但数据不是,大多数数据都有明显的软肋,所以要小心,原因如下(Mintzberg,1975,2013:124-126)。
第一,硬数据的范围是有限的。它们可能为描述提供基础,但不能为解释提供基础。比如,62%的病人好转了。这是为什么?其余的人呢?(后面你将读到医学史上的一个伟大发现,即霍乱是通过水而不是空气传播的。这个发现主要是研究人员注意到在一个原本紧密的样本中有两个异常值。)理解需要越过数字,关注特定的情况(就像沃里克医生一样)。相反,在金赛对男性性行为的著名研究中,有一位参加者因为感觉他的男性自尊受到了侮辱而产生强烈的抱怨:“不管我告诉他什么,他只是盯着我的眼睛,问‘多少次’。”(Kaplan,1964:171)
第二,硬数据往往太关注总和。事件产生事实,事实被合并然后简化成数字,例如那种典型的损益表底线(净利润),想想在这个过程中丢失了多少信息。
医疗健康服务在本质上就是关于一个人的生活的:它不应该让任何人在一个平均深度约为15厘米的湖里淹死。换个比方,从树木的视角来看森林是可以的——除非你在木材行业工作。太多的管理就像从直升机上向下看一样,那些树木看起来就像一块绿色的地毯。正如Neustadt在他对美国总统的研究中所评论的,他们需要的“不是那些平淡无奇的混合物,而是那些可见的细节,他们在头脑中将这些细节拼接在一起,洞察问题的本质”(1960:153,154)。同样,正如下面的阅读材料所讲述的,医院不能像麦当劳计算汉堡数量那样计算肝脏的数量。
计算肝脏数量
(基于肖洛姆讲述的故事)
在伦敦,一名肝脏移植外科医生为10位病人做了手术,8人术后存活。这其中,一位病人因先前的癌症复发,基本上没有生存的希望;另一例移植失败了,需要进行第二次移植。在剩下的6人中,有3位病得很重,失去工作能力。
外科医生被问及他的成功率时,回答说,10个人中有8个存活,在第二次手术后,11个人中可能有9个存活(他数的是肝脏,而不是人)。
一位免疫学家说,10个人中应该只有7个人存活,因为他认为外科医生不应该对患癌症的那位女性进行手术。
医院的管理者说,10位病人中有6人存活。
而最了解病人情况的护士说,10位病人中有3人存活。
所以正确的答案是……对于那些必须决定是否继续这个流程的人来说,锦囊在哪里?
第三,硬数据可能来得太迟。即使是好的信息也需要时间来“硬化”,不要被那些在互联网上高速的信息传递所愚弄。事件和结果首先必须被记录为“事实”,然后汇总成报告,而这些报告可能需要经过一些预定流程。
第四,数量惊人的硬数据完全不可靠。掀起硬数据上的岩石,看看你在下面发现了什么:公共机构非常热衷于收集统计数据——收集这些数据,添加它们,将它们提升到n次方,取立方根,并准备好炫目的图表。但你绝不能忘记的是,这些数字中的每一个都是从村庄看守员那里得到的,他只是记下了那些他乐意放入的内容。(Sir Josiah Stamp,1928;Maltz,1997。)谁会再去了解一下看守员记录的情况,例如去那些护士和医生不断被行政管理工程打断的医院?此外,可靠的一手事实记录也可能会在量化中丢失一些东西——数字会被四舍五入,细微的差别会消失,错误也会产生。
任何曾经做过定量测量的人都知道结果可能会多么失真,无论是有意的还是无意的。
此外,产出与结果不同:成功取决于测量什么以及如何测量。还记得Vioxx以及其他许多刚开始用时效果较好的药物吗?你是否需要一个非常优秀的外科医生来做一台艰难的手术?我建议你去问那些正在医治死亡率较高的疾病的医生,因为他们可能正在处理最棘手的案子。
1950年,Ely Devons发表了一项关于第二次世界大战期间英国空军使用硬数据的重要研究。他的发现并不令人鼓舞:这类数据的收集极其困难和微妙,要求有“很高的技能”,但是“被认为是……次要的、低下的且常规的工作,让那些效率最低下的文员来做就够了”(p134)。
错误以各种各样的方式展现在数据上,比如,尽管有的月份包括了某个假期,但依然被当作正常的月份来处理。“数字往往只是总结判断和猜测的有用方法。”有时这些数字是“通过‘统计谈判’得到的。但是,一旦提出了一个数字……没有人能够通过理性论证来证明这是错误的”。当这些数字被称为“统计数据”时,它们获得了极高的权威和神圣性(p155)。
欢迎大家持续关注我们,感谢您的一路相伴!