数智工作坊第20期
Evaluatology: 评价科学与工程理论
11月15日下午,由中国人民大学国家治理大数据和人工智能创新平台(简称“创新平台”)与交叉科学研究院主办的第20期数智工作坊成功举办。本期工作坊主题为“Evaluatology: 评价科学与工程理论”,特别邀请了中国科学院大学岗位教授詹剑锋担任主讲嘉宾,为参会者深入讲解评价科学与工程理论的核心内容与实践应用。活动由创新平台执行主任陈跃国教授主持。报告结束后,与会师生就相关议题展开了深入交流与研讨。
主讲人简介
詹剑锋
中国科学院大学岗位教授
中国科学院大学岗位教授,中科院计算所分布式系统研究中心主任。他初步建立了统一的评价科学与工程理论,是国际测试委员会(International Open Benchmark Council)创始主席,TBench创始主编。和女儿合著出版有诗集《在旷野同行》。他在高性能计算和系统软件取得了一些成果,向领先的两个龙头企业转移专利三十五项。他先后获得中国科学院杰出成就奖和国家科技进步二等奖。
报告主要内容
Evaluatology研究动机
评价贯穿于人生的各个阶段,从个人成长、教育选择到职业评定,同时广泛存在于计算机、医学、心理学和金融等多个领域。然而,目前评价作为一门学科在概念、术语和方法上尚未形成统一规范,许多评价定义无法揭示其本质。例如,项目成果的测量多为经验性描述,缺乏科学性支撑。在 SPEC CPU 2017 工业标准中,同一处理器在不同配置下的性能评价结果可能相差高达 74.49 倍,而若不限制配置空间,差异甚至可能扩大至 200 倍。这表明现有评价体系存在严重的可变性和不稳定性。
Evaluatology 不同于传统的“评价学”概念,更注重评价的科学性和工程化,致力于避免将评价简单归为主观判断或软科学。评价并非仅仅是经验性或主观的判断,而是一个可以通过科学方法进行验证的严谨过程。
Evaluatology 的核心问题主要有五个方面:1、评价结果是否具有真值:评价的目标在于寻求真实性,若真值不存在,评价将失去意义。2、差异的可溯源性:当同一对象的评价结果差异巨大时,必须明确差异的来源并进行溯源分析。3、不同对象间的可比性:比较是评价的核心,如果缺乏可比性,则无法实现有效评估。4、评价结果的一致性:不同方法和评估者是否能得出一致或趋同的结果,这直接影响评价的可信度。5、成本效益与可控偏差:评价不仅需要准确性,还需兼顾成本效益和偏差控制,特别是在工程领域。
评价 vs. 计量和测试
计量学的核心在于对量的定义和测量。首先,需要确定量的标准和单位,将抽象的定义通过物理方法实践,进而形成标准和测量工具,用以实现与测量对象的比较。例如,为测量长度,需要定义长度单位,制作标准化尺子,并通过尺子与对象的长度进行比对。
简化的计量概念框架包括:对象、属性、量化、量的单位、测量的标准及其实现,最终通过测量过程和统计分析,尽可能准确地获取真实值。
测试(Test)与计量不同,其目标在于验证个体或系统是否符合特定的预期行为,通常依赖于“测试预言机”(Test Oracle)。Test Oracle定义了系统在特定条件下的正确行为,例如验证程序计算5+5的结果为10,或模拟锤子砸杯子的破坏性实验。测试科学的关键在于如何以最低成本构建和验证Test Oracle,并据此开发高效的测试工具。
测试的核心框架包括:验证系统是否符合Test Oracle指定的行为,以及确保系统在特定环境下运行时符合预期。高成本和高复杂度是测试工程的主要特点,尤其在软件开发与芯片设计中,测试通常占据70%以上的成本。测试的本质是一种工程手段,用于评估系统性能,但由于缺乏统一的科学方法,其应用仍面临诸多挑战。
评价(Evaluation)是一种间接推测的过程,其核心是基于利益相关者的需求,在良好定义的评价系统中推断评价对象的价值。与测量的关键区别在于:测量直接获取量化数据,而评价通过上下文条件和对复杂系统的推测性分析得出结论。评价面临的主要挑战还包括配置空间的爆炸性增长、等价条件难以保证、关键因素难以定义等问题。
一个完整的评价系统需要满足以下三个属性:1、捕捉关键影响因素:例如在社会科学中,通过因果推理等方法识别关键因素,但这些因素往往难以确定。2、独立运作:评价系统应确保独立性,例如药物测试需要对照组和实验组分别评估。3、表达利益相关者的关切:评价应综合考虑不同利益相关者的需求,例如自动驾驶评价中需兼顾行人和管理者的利益。
技术评价的本质是间接推断,以测量和测试为基础,但并不等同于这两者。一个有效的评价过程需要在明确上下文的最小评价系统中,捕捉关键影响因素,并推断评价对象的价值。这种间接性决定了评价不仅涉及科学与工程,还依赖于对系统复杂性的深刻理解与合理假设。
Evaluatology基本理论
Evaluatology的理论构建以第一性原理为基础,其核心在于明确评价的本质——间接推断的过程。在此基础上,需要提出评价的公理,即评价过程的最小假设,这些公理虽无法被证明,却为评价理论提供了必要的理论基础。
评价的关键之一在于评价指标的属性。评价指标要么具有物理意义,要么由价值函数(Value Function)定义。价值函数用于反映不同人群的价值观差异,是整合多维度评价标准的工具。例如,在复杂决策的评价中,价值函数可以将多种属性统一为可比较的结果,尽管它可能缺乏物理意义,但能够有效表达主观偏好。
另一个核心概念是真值(True Value)。真值是明确定义评价系统后推导出的理想值,其存在性是评价过程的前提。无论是基于物理意义的量化指标,还是基于价值函数的主观评价,只要定义清晰,真值都可以被推导并作为评价的目标值。
评价结果的差异通常源于评价条件(Evaluation Conditions, EC)的不同。EC是评价系统的重要组成部分,其一致性和等价性直接影响评价结果的可靠性和可比较性。如果同一对象在不同EC下的评价结果出现偏差,就必须追溯到EC的定义和应用。评价的可比较性要求不同对象在等价EC下进行评价,若EC不等价,则无法判断差异来源于评价对象本身还是评价条件,从而影响评价结果的准确性和意义。
评价方法需要适应复杂系统的特点,通常通过参考评价系统来消除干扰因素,确保评价条件的标准化与一致性。例如,仿真系统可以通过控制变量的方法研究独立因素的影响,而Benchmark则通过简化和采样的方式实现对复杂系统的评价。Benchmark本质上是评价条件的具体化与抽象化的结合,能够在不同复杂度层次上提供具有可比较性的评价环境。它通过定义不同级别的等价性,为科学评价提供了可靠的工具。
Evaluatology的研究中还面临四个核心问题。首先是如何为同一评价对象构建真实且一致的评价条件,从而确保结果的可靠性。其次是在复杂场景下如何保证评价条件的传递性,以避免结果失真。此外,不同评价对象的结果可比较性如何实现,以及如何平衡评价结果的差异与成本效益,也是Evaluatology的重要研究方向。最后,评价的可追溯性在保障评价体系的透明性和科学性方面起到至关重要的作用。
Benchmark作为评价体系的重要组成部分,定义了等价性与简化采样之间的关系,在多领域评价中扮演着关键角色。例如药物实验中,人类和动物模型都可被视为Benchmark,通过建立可比性来进行间接评价。在人工智能和机器人等高精度应用场景中,Benchmark的设计需要确保评价的准确性与安全性。
技术三大定律(技术价值的评价)
詹老师提出的技术兴衰三大定律及其推论,本质上是评价技术价值的理论框架,以下为三大定律的具体内容及相关探讨。
技术惯性法则指出,在没有外力作用的情况下,技术的用户规模将保持相对稳定,这源于消费者和行业用户的行为惯性。现实中,技术改变力是推动用户从惯性中脱离的关键。例如,在餐饮行业,如果餐厅在技术上缺乏差异化,仅依赖消费者的随机选择,很难形成长期的吸引力。
技术变革力法则表明,用户规模与技术的变革力成正比。技术变革力主要通过三个方面体现:改变用户体验、降低成本、或提高效率。以芯片技术为例,开源的 RISC-V 指令集因降低授权成本、简化生态兼容而展现出强大的技术变革力。相比之下,单纯模仿现有技术的尝试则难以竞争,因为它们缺乏生态支持,变革力微弱。技术的成功关键在于对现有体系的突破性改善,而非简单重复。
技术作用与反作用法则指出,在新兴技术和传统技术之间的核心竞争,取决于是否能在用户体验或其他关键指标上实现显著提升。如果一项技术的改进仅局限于某个单一维度(如10%或20%的提升),其实际意义往往较为有限,难以带来足够的市场吸引力或用户迁移意愿。
技术变革力的测量是一项复杂任务,因为它通常缺乏明确的物理维度。所谓的价值函数(Value Function)主要依赖于经验积累,并根据特定领域的实际需求进行动态调整。在评估技术变革力时,通常从降低成本、提高效率或增强用户体验等主要方向入手。
技术突破需要在一个较小的目标用户群中快速验证其变革力。这种过程与物理学中的压力公式相似:技术变革力的效应由目标用户规模和变革的强度共同决定。在早期阶段,技术的应用范围通常有限,但其变革力较强,通过初期实验人群的验证,可以快速扩大应用范围。
技术的自然发展通常伴随着一定程度的垄断趋势,新技术因其强大的变革力而吸引大量用户,推动用户规模快速增长。这种增长会持续到技术的变革力逐渐减弱甚至转为负值,用户规模才会趋于稳定或下降。
开放的生态能够降低研发成本,促进合作并提升效率。典型案例如开源社区,通过技术共享和成本分担,实现了技术的快速迭代与普及。
商业机会也体现在新技术的创造上:通过在成本、效率或用户体验方面实现显著优势;在生态建设中占据有利位置;以及在供应链脱钩或出口管控的背景下,及时捕捉新兴市场需求。
科技Evaluatology
当前,科技领域的评价方法主要依赖于文献计量学,其核心是通过统计和测量发表的文献数量、引用次数等指标,对科研成果进行量化评价。这种方法具有一定的局限性,为此,我们提出了科技Evaluatology,其核心是以关键成果评价为中心,通过引入评价条件,明确成果间的关系,并借助剪枝法,从繁杂的科研成果中提炼核心贡献,从而构建一个更加清晰的评价体系。
在评价体系中,不同的科研成果可分为以下四类:1、开创性成果,奠定研究方向的基础;2、渐进性成果,在已有基础上进行改进和优化;3、平行性成果,在相近时间内独立完成的相似研究;4、关联性成果,早期被忽视的工作因新环境或技术而获得关注。
总结
报告的主要内容包括以下几点:第一,基于评价的本质构建了 Evaluatology 理论,其核心是以最小上下文为基础,在明确的评价系统中,通过间接推断来评价对象的影响。这一过程依赖于客观的测量方法,并通过最小化上下文范围有效规避复杂因素的干扰。第二, Benchmark 本质上是评价条件(EC)的具体化体现。第三, Benchmark被作为普适方法广泛应用于评价工程中。第四,阐述了Evaluatology 在不同领域中的应用,包括技术价值和科研成果评价等多个方面。
工作坊简介
数智工作坊是一档基于数据科学和人工智能技术、面向人文社会科学的工作坊沙龙,工作坊采用多种形式推动人文社会科学的数智化转型,包括交叉研讨、编程实战等,并提供数据、算力和编程环境。
主办单位
国家治理大数据和人工智能创新平台
新时代智慧治理学科交叉中心
交叉科学研究院
大型科学仪器共享平台
科学研究处
发展规划处
学科规划与建设办公室
国家治理大数据和人工智能创新平台
公邮|brain@ruc.edu.cn
官网|https://brain.ruc.edu.cn
地址|中国人民大学公共教学一楼三层1301
编辑|吴亚聪
审核|陈跃国
校对|何思南