Tong test:AGI测试评级的标准与平台

科技   2024-11-16 19:05   上海  

论文:https://www.sciencedirect.com/science/article/pii/S209580992300293X
作者:彭玉佳、韩佳衡、张振亮、范丽凤、刘腾宇、綦思源、封雪、马煜曦、王亦洲、朱松纯
北京通用人工智能研究院和北京大学
摘要

生成式预训练Transformer(GPT)系列的发布再次将人工通用智能(AGI)推到了人工智能(AI)领域的前沿。然而,如何定义和评估AGI的问题仍然不明确。这篇论文提出,对AGI的评估应基于动态具身化的物理和社会交互(dynamic embodied physical and social interactions ,DEPSI)。更具体地说,本文提出了五个关键特征作为AGI的基准,并建议将“通智测试”(Tong test)作为一种AGI评估体系。“通智测试”描述了一个以价值和能力为导向的测试系统,该系统通过一个具备DEPSI的虚拟环境描绘出AGI的五个层次的里程碑,从而能够生成无限的任务。本文从多个方面将“通智测试”与传统的AI测试系统进行了对比,并提出了一个系统的评估体系,以推动AGI的标准化、定量化和客观化的基准及评估。


一、AGI的3个基本特征


近期的基础模型显示出在特定领域内的泛化能力,如自然语言处理(NLP)领域的GPT-4、图像分割领域的“分割一切”模型(SAM),以及自然语言处理和机器人领域的PaLM-E等。但是,对于基础模型中是否出现了类似人类的特征,如心智理论(ToM)或认知能力,还存在争议。研究团队提出,AGI应具备3个基本特征:实现无限任务、自主生成任务、价值驱动且能实现价值对齐


实现无限任务

泛化能力是评价模型优劣的最关键指标之一。传统的专用AI的通用性主要体现在数据泛化,即希望模型经过训练后应用于测试集或新数据集时依然能够表现良好;而AGI的“通用”强调的则是任务泛化。


自主生成任务

人们憧憬着有朝一日智能体能够很好地融入人类日常生活,这就需要智能体可以根据外部环境事件和自我内在状态的变化,随时随地自动产生各种各样的任务——这是一个具有很强灵活性与随机性的要求。如果智能体的运行完全依赖人类预设的任务目标,即便拥有海量训练数据和全面规则,仍然无法很好地应对难以预料的特殊情况,尤其是意外事件(即算法未接触过的事件)和小概率事件。因此,为了适应DEPSI环境中任务的无法预知性,智能体需要具备自主定义任务的能力。当智能体处于开放环境时,它需要依据自身价值判断并自主设定任务。对于能够自主生成任务的智能体,其还可以进一步通过实际观察和体验来学习、逐步累积经验并塑造认知。

图 | 人在虚拟环境中演示真实世界中的三仙归洞魔术


价值驱动和对齐

为了让智能体能够自主生成并完成符合人类需求的任务,一套合适的价值系统至关重要。这一系统必须融入人类的基本价值观,使智能体有能力学习和理解人类的价值偏好,并最终实现与人类价值的对齐。综合经典的价值理论和智能体与人类价值的一致性要求,智能体的价值系统理应涵盖从基础的生存需求到中层的情感和社会价值,乃至更高层次的集体价值。价值不仅应是驱动AGI自主任务生成的根本内驱力,也是保障AGI对人类社会安全的关键体系。AI可以通过与人类价值的对来获得人类的信任。这种信任一方面来自对AI能力的信任,相信AI可以正确执行任务并实现任务泛化,另一方面来自对AI安全价值观的信任,相信AI的行为符合人类社会的规则和道德。

总之,为了适应人类的生活环境,AGI需要在复杂环境中学习和执行任务,而这一切应该是由价值驱动并基于因果理解的。这也是本文提出通智测试的原因,作为一种新的AGI测试方向,它更注重AGI的实际能力和价值。这种测试将指导AGI更好地学习和提高能力,更安全、更有效地服务于人类社会。


图 | 通用智能体可以基于价值进行自我纠正、主动学习和无限任务生成,通过人类的反馈和交互学习还可以与人类的价值观保持一致。



二、现有AI测试方法的局限性


图 | 已有的测试类型


现有的AI测试多集中在人类鉴别、任务导向和虚拟环境测试这三大方向,但其各自所呈现出的局限性已然无法满足通用人工智能的研究诉求。

  1. 图灵测试是人类鉴别测试中的代表性方法,图灵测试只能告诉我们这个AI是否达到了人类的交流水平,并不能测量它的智能程度有多高。而且,图灵测试依赖于测试人员的判断,所以它也受到了人的知识和理解能力的限制。

  2. 任务导向基准测试方法通过让AI执行特定的任务,并根据任务的完成情况来评价AI的性能。比如,AI要在某个数据集上执行任务,我们以它在这个数据集上的表现来做出评价。这种方法的问题在于,AI可能会过于有针对性地学习并完成这些任务,而导致在其他数据上表现不佳,即泛化能力下降。这样的AI很可能只在某项任务上表现不错,但却无法在现实世界的复杂场景中很好地运作。

  3. 虚拟环境测试是在模拟的环境中进行的,例如VRGym(2019年)、OpenAI Gym(2016年)、DeepMind Lab(2016年)。虚拟环境能够提供多样化的场景和互动,帮助AI学习。但这些测试环境通常更关注物理环境的模拟,任务设计较为简单和有限。因此,有必要基于虚拟环境测试来设计更科学、更系统的测试平台和流程,以支持无限任务测试。

图 | VRGym虚拟测试环境,获得2019年ACM图灵大会最佳论文奖[4]




三、基于能力与价值的AGI测试评级理论



在搭建新的AGI测试标准时,研究团队采取了一种全新的策略。依据发展心理学和智力理论,参考人类的发展阶段,研究总结并归纳了在特定发展阶段应达到的智能水平。研究者构建了一个以视觉、语言、认知、运动和学习等5个主要能力为维度的评估框架,每个维度又设计有5个不同的能力层级,并在各层级中详细定义了每个维度的任务,如下图所示

图 | 通智测试的在UV两个系统融合的5个等级



四、通智测试平台的架构


当下热门的GPT大模型常常出现“脑雾”与“认知眩晕”现象, 在实际的产业落地中出现问题,归根结底,是因为这种基于数据驱动的大模型仍然缺“心”, 缺乏明确的认知架构和价值体系,只能按照人类设定的程序机械地对问题进行反馈, 求解“填空题”。通智测试要求AGI有“心”且具备两个结构:

  • 价值体系,具备符合人类价值观的通用智能体才能被人类所广泛接纳

  • 认知架构,这是通用智能体与人交流、合作的基础

值体系、认知架构不仅应是驱动AGI自主任务生成的根本内驱力,也是保障AGI对人类社会安全的关键


针对以上标准,通智测试从智能体探索和认知世界规律的各自感知、认知、运动、交互、社会、学习等能力,以及对自我、他人和群体的价值理解学习这两个角度入手,搭建了具体可行的测试平台架构。该平台通过模拟复杂的物理与社会场景,基于交互场景进行无限任务的采样设计,运用科学合理的评级体系和统一规范的测试方法,支持从通用智能体的4个基本特征来测试当下各种人工智能算法。


通智测试平台满足了以下3个条件:多样化仿真交互场景、基于交互场景的无限任务采样设计、科学合理的评级体系和统一规范的测试方法。


图 | 虚拟现实训练平台:环境展示

图 | 虚拟现实训练平台:物理仿真展示

图 | 通智测试平台中的各类原子任务

图 | 通智测试平台中的复杂任务——鲜榨果汁


在工程实践方面,通智测试平台主要由3个部分组成:DEPSI环境及测试接口、任务生成系统和评级测试系统。

  1. 需要把智能体放在一个DEPSI环境中,这样可以测试它参与真实世界人类社会活动的能力。

  2. 需要开发任务生成系统。这个系统由基础库和功能组件组成。任务生成器会创建对基础库的资源请求,场景管理器会接收资产和算法模型,为任务建立各种环境。

  3. 需要以价值和能力为导向的评级测试系统,包括任务分解和性能评估两个模块。


图 | 通智测试平台示意图


五、支持的实验


为了验证Tong测试平台的有效性,论文设计并执行了以下实验:

  1. 任务生成与执行
  • 利用Tong测试平台生成了一系列基于DEPSI环境的虚拟任务,这些任务涵盖了从简单的物体操作到复杂的社会互动。
  • AGI模型在这些任务中进行自驱动的任务生成与执行,评估其在不同任务环境中的适应能力和解决问题的效率。
  • 价值对齐与因果理解评估
    • 通过设计具备因果关系和价值判断的任务,测试AGI模型在执行任务时是否能够理解并遵循人类设定的价值观。
    • 例如,设计一个任务让AGI在虚拟家庭环境中管理资源(如食物和水),观察其是否能够在资源有限的情况下做出符合人类价值观的分配决策。
  • 具身互动测试
    • 将AGI模型置于VR环境中,与人类用户进行互动,评估其具身智能和人机协作能力。
    • 例如,设计一个虚拟厨房任务,让AGI与人类共同完成烹饪,通过互动过程评估其对人类动作的理解和协作能力。
    实验结果表明,通智测试平台能够有效生成多样化且具有挑战性的任务,全面评估AGI模型在不同维度的能力表现。具体成果包括:
    • 任务完成率提升:AGI模型在经过通智测试平台的训练后,其在复杂任务中的完成率显著提升,尤其是在需要因果推理和价值判断的任务中表现优异。
    • 价值对齐表现:实验中的AGI模型展示了较高的价值对齐能力,能够在资源管理等任务中做出符合人类期望的决策。
    • 具身交互能力:在VR环境中的具身互动测试中,AGI模型表现出良好的人机协作能力,能够理解并配合人类用户的动作,提高了任务的完成效率和用户满意度。



    六、总结与展望


    通智测试(TongTest)的设计全面考虑了AGI的关键特征,填补了AGI评测的空白,突破了传统测试的方法局限,在人工智能领域具有重要的创新价值。通智测试的提出,不但有助于指导研究者为通用人工智能构建综合的设计架构与完善的评估体系,而且能够为人工智能的安全治理问题提供积极的解决方案, 通智测试是明确构建了显式的价值体系和测试方法。在通智测试标准化、定量化和客观化的评估体系下,政府可针对不同水平的智能体制定不同的监管准入机制,对于规范化通用人工智能的发展具有重要参考意义。另外,通智测试的评级机制还可以为通用人工智能的科研路径提供明晰可靠的路线图,协助相关领域的研究者找准科研道路上的前进方向。

    软件工程3.0时代
    由于大模型(LLM)正在改变着千行百业,软件工程(SE)更是首当其冲,迎来软件工程3.0新时代:模型驱动研发、模型驱动运维。本公众号将致力于研究SE3.0时代的软件研发新范式、理论与方法,介绍SE3.0时代的工具与实践。
     最新文章