首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

首个像人类一样思考的网络！Nature子刊：AI模拟人类感知决策

教育 2024-08-15 09:00 浙江

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

点击进入→ FightingCV交流群

从能力上来讲，当前AI的专业性已经在多方面超越人类。

不过咱们也依然保有一些「神圣」的特性。

比如人脑的效率很高，一碗米饭就能提供半天的算力，一个鸡腿就能输出好多好多token。

比如我们的灵魂与情感，在理性认知的同时也会产生超越常理的行为。

至于最终的超级智能到底需不需要学习人类的这些神秘特性，也许试过才知道。

——小AI你想进步吗？先来模仿我吧。

近日，来自佐治亚理工学院的研究人员，开发了首个与人类思考方式相近的神经网络——RTNet。

论文地址：https://www.nature.com/articles/s41562-024-01914-8

传统神经网络的决策行为与人类有着显著不同。

以图像分类的CNN为例，不管输入图像看上去是简单还是复杂，网络的计算量都是固定的，且相同的输入必然得到相同的输出。

人类则一般倾向于简单题做得快，但偶尔也会粗心大意犯点低级错误。

全新的RTNet能够模拟人类的感知行为，可以生成随机决策和类似人类的响应时间（RT）分布。

RTNet的内部机制更接近人类产生RT的真实机制，其核心假设为：RT是由顺序采样和结果积累的过程生成的。

下图是RTNet的网络结构，分为两阶段：

一阶段采用Alexnet架构，但权重参数为BNN的形式，与一般神经网络权重为确定值不同，BNN在训练时学习的是分布。

BNN在每次推理时，从学到的分布中随机采样出本次使用的权重，从而引入了随机性。

二阶段是一个累加的过程，以分类任务为例，事先设置一个阈值，每次推理的结果累加到各自的分类上，直到某一类到达了阈值，则推理停止。

由此可知，RTNet在原理上至少模拟了人类决策的两种特性：首先是BNN引入的随机性，其次是对于不同难度任务有不同的完成时间（RT），因为更简单的图像可以用更少的推理次数累积到阈值。

作者还通过全面的测试，表明RTNet复刻了人类准确度、RT和置信度的所有基本特征，并且比所有当前替代方案都做得更好。

模仿人类感知决策

人类感知决策有六个基本特征：

1）人类的决策是随机的，这意味着相同的刺激可以在不同的试验中引发不同的反应
2）增加速度压力会缩短RT但降低准确性（SAT）
3）更困难的决策会导致准确性降低和RT延长
4）RT分布右偏，并且这种偏斜会随着任务难度的增加而增加
5）正确试验的RT低于错误试验
6）正确试验的信心高于错误试验

目前，对于现有的图像可计算模型，能够在多大程度上再现人类的全部行为特征，我们所做的工作还相对较少。

本文中，作者选择了在这方面表现最先进的几个神经网络：CNet、BLNet和MSDNet，作为RTNet的对比对象。

实验设计

人类对照组

选取60名参与者执行数字辨别任务，分别报告感知到的数字，以及评估自己的决策信心。

每次试验开始时，参与者注视一个小的白色十字架500-1,000毫秒，随后展示需要辨别的图像300毫秒。

数字图像来源于MNIST数据集，使用1到8之间的数字，并叠加不同程度的噪声。

参与者使用计算机键盘报告感知到的数字，将左手的四个手指放在数字1-4上，右手的四个手指放在5-8上。这样参与者可以在不看键盘的情况下做出反应，从而减少额外的干扰。

实验包括对SAT和不同任务难度的测试。

SAT测试要求参与者注重其反应速度或准确性，并在实验中交替进行速度和准确性的测试。

通过向图像中添加不同程度的均匀噪声来改变任务难度。简单任务包含0.25的平均均匀噪声（范围为0-0.5），而困难任务包含0.4的均匀噪声（范围为0-0.8）。（ps：相对的图像像素值为0到1之间）

另外，为了适应测试，人类组也参与了训练阶段，分为无噪声、关注准确性和关注速度三部分，每个部分进行50次训练。

测试阶段由960次实验组成，分为四轮，整合了SAT条件以及不同的难度等级。

RTNet

RTNet采用Alexnet架构有两个原因：一是为了匹配实验中的其他网络，太小了吃亏。

另一方面RTNet的BNN很难训练，又限制了模型不能太大。综合考虑就Alexnet比较合适。

在BNN中，权重被建模为概率分布，而不是点估计。按照贝叶斯推理规则，可以使用以下公式推断权重w的后验分布：

但是，对于大型网络来说，这种计算是难以完成的，因此，计算这个后验分布通常使用变分推断来近似。

指定一个替代分布q (w) 来近似后验，并调整其参数以最大化两个分布之间的相似性，分布之间的相似性通过KL散度来量化：

但由于p (x) 难以计算，这时可以通过定义一个证据下限 (ELBO) 函数代理目标函数来绕过此计算：

研究人员对RTNet的BNN模块进行了总共15个epoch的训练，批次大小为500，在MNIST测试集上实现了高于97%的分类准确率。

作者使用60种均值方差的组合作为初始化，训练了60个RTNet实例，来对标60个人类受试者，同样，下面介绍的其他网络也用类似的方法（随机种子）分别生成60个实例。

CNet

CNet 建立在残差网络 (ResNet) 的架构之上，利用跳过连接在输入处理期间引入传播延迟。

在每个处理步骤中，所有层中的所有单元都会并行更新。但是，由于每个残差块引入的传播延迟，更简单的感知特征会在块之间更快地传输。

通常，残差块t需要t−1个时间步才能接收完整且稳定的输入。在处理过程中的任何时间点，网络都可以生成预测。

但是，如果时间步长t小于残差块的数量，则响应将基于较高块中的不稳定表示。

BLNet

BLNet是一个RCNN，由标准前馈CNN和循环连接组成，这些循环连接将每一层都连接到自身，最后的读出层通过softmax函数计算每个时间步的网络输出。

在每个时间步长，给定层从两个来源接收输入：来自前一个卷积层的前馈输入和来自自身的循环输入。

如果当前的计算结果超过预定义的阈值，网络就会生成响应。

MSDNet

MSDNet 的架构类似于标准前馈神经网络，但其每一层后都有提前退出分类器。

在每个输出层，使用softmax函数计算每个选择的结果，如果任何一个方案的结果超过预定义值，网络将停止处理并立即产生响应。

实验结果

下图a – e ，分别表示人类、RTNet、CNet、BLNet和MSDNet所做决策的随机性。暖色表示两次呈现图像时给出的反应相同，而冷色表示两次呈现图像时给出的反应不同。

人类和RTNet表现出随机决策，随机性随着任务难度和速度压力的增加而增加。但是，CNet、BLNet和MSDNet的决策是完全确定性的。

下图展现了人类参与者和模型表现出的行为效果：

其中，人类的RT以秒为单位，神经网络的RT以所消耗的推理次数（RTNet）、传播步骤数（CNet）、前馈扫描数（BLNet）和层数（MSDNet）来衡量。

所有模型均能够复制在人类身上观察到的SAT。但SAT对人类、RTNet和BLNet的影响比其他模型要强得多，且各个RT分布显示出，速度和准确度焦点条件之间存在明显分离。

总体而言，RTNet产生的RT分布比所有其他网络都更好地反映了人类数据中观察到的模式。

需要注意的是，CNet、BLNet和MSDNet只能产生小于或等于其层数或残差块的不同 RT，相比之下，RTNet可以处理任意数量的样本，而不管其架构中的层数是多少。

上图展示了在所有实验条件下，针对各个参与者的人体数据和每个模型之间的逐图相关性，在所有条件下分别计算准确度、RT和置信度的相关性。

对于每个测量，RTNet 的相关性都比CNet、BLNet或MSDNet更强。而在所有情况下，RTNet的预测都相当接近噪声上限。

讨论

与认知模型的关系

传统的决策认知模型通常被称为顺序抽样模型。

RTNet在概念上更类似于顺序抽样模型的一个子组，称为种族模型：每个选择都有自己的积累系统，并且每个选择的证据都是并行积累的。

RTNet与传统认知模型相比具有两个重要优势。首先，RTNet是图像可计算的，可以应用于实际图像，而传统模型则不能。

其次，传统认知模型无法自然地捕捉不同选择之间的关系，而RTNet在训练其核心的BNN期间学习了选择之间的所有关系。

生物学可行性

生理记录揭示了人类视觉系统处理的几个特点：

首先，从视觉皮层的一个区域到另一个区域的传导大约需要10毫秒，来自光感受器的信号在70-100毫秒内到达颞下皮层的视觉层次顶端。因此，纯前馈网络中从输入到输出的一次扫描应该在几百毫秒以内。

其次，视觉皮层每一层的神经元在刺激开始后的几百毫秒内继续激发动作电位，并从后面的处理层接收强烈的循环输入。

最后，神经元处理是有噪声的，即相同的图像输入会在不同的试验中产生非常不同的神经元激活。

由上面的介绍可知，RTNet基本符合了人类视觉的生物学特性。

参考资料：

https://www.nature.com/articles/s41562-024-01914-8

往期回顾

基础知识

【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇

【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇（超多图警告）

【CV知识点汇总与解析】| 技术发展篇 (超详细！！！)

最新论文解析

NeurIPS2022 Spotlight | TANGO：一种基于光照分解实现逼真稳健的文本驱动3D风格化

ECCV2022 Oral | 微软提出UNICORN，统一文本生成与边框预测任务

NeurIPS 2022 | VideoMAE：南大&腾讯联合提出第一个视频版MAE框架，遮盖率达到90%

NeurIPS 2022 | 清华大学提出OrdinalCLIP，基于序数提示学习的语言引导有序回归

SlowFast Network：用于计算机视觉视频理解的双模CNN

WACV2022 | 一张图片只值五句话吗？UAB提出图像-文本匹配语义的新视角！

CVPR2022 | Attention机制是为了找最相关的item？中科大团队反其道而行之！

ECCV2022 Oral | SeqTR：一个简单而通用的 Visual Grounding网络

如何训练用于图像检索的Vision Transformer？Facebook研究员解决了这个问题！

ICLR22 Workshop | 用两个模型解决一个任务，意大利学者提出维基百科上的高效检索模型

See Finer, See More！腾讯&上交提出IVT，越看越精细，进行精细全面的跨模态对比！

MM2022｜兼具低级和高级表征，百度提出利用显式高级语义增强视频文本检索

MM2022 | 用StyleGAN进行数据增强，真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍！人大提出交互协同的双流视觉语言预训练模型COTS，又快又好！

CVPR2022 Oral｜通过多尺度token聚合分流自注意力，代码已开源

CVPR Oral | 谷歌&斯坦福（李飞飞组）提出TIRG，用组合的文本和图像来进行图像检索

http://mp.weixin.qq.com/s?__biz=MzIzNzU4OTAxMQ==&mid=2247530831&idx=1&sn=f15bf23e39705316d81e3d081fc4bfed

一个专注于解析计算机视觉、多模态方向前沿论文，解答科研问题，分享科研时事的公众号！

最新文章

211本二战字节视觉算法岗，拿下70k offer!!!

字节Chunyuan Li团队提出LLaVA-Critic:学习评估多模态模型

Video-ChatGPT：通过大型视觉语言模型实现详细的视频理解

多注意力深度伪造检测

Infinity-MM：利用大规模高质量指令数据扩展多模态性能

跨模态3D目标检测SOTA！易复现！

Apple提出《对比局部化语言-图像预训练》

TaskCLIP：扩展大型视觉-语言模型以用于面向任务的目标检测

Janus: 解耦视觉编码以实现统一的多模态理解与生成

开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品

ECCV24 ｜ ControlNet+⁣+: 通过高效一致性反馈改进条件控制

YOLO核心架构的演变路线

BLIP：用于统一视觉语言理解和生成的引导语言图像预训练

MMIU: 用于评估大型视觉语言模型的多模态多图像理解

Arena Learning : 通过模拟聊天机器人竞技场为 LLM 后训练构建数据飞轮

MMEvol：赋能多模态大型语言模型的 Evol-Instruct

NTU提出Text4Seg: 重塑图像分割为文本生成

BLIP-2作者新作Aria : 一个开放的多模态原生专家混合模型

华为天才少年面试大厂被怼：怎么连Attention都不会？

Mistral发布了其首款多模态模型Pixtral 12B

EMNLP 2024 | 阿里通义实验室提出MLLM多图能力评估基准MIBench

堪比理科博士生的最强AI大模型：GPT-o1技术解析

Google Deepmind提出SigLIP，用于语言图像预训练的 Sigmoid 损失

Apple提出MM1.5：多模态大型语言模型微调的方法、分析和见解

最优大语言模型模型架构深度解析

NeurIPS2024即插即用模块论文合集！

Qwen2-VL：增强视觉语言模型在任何分辨率下的世界感知能力

Kaiming He团队提出通过异构预训练Transformer 大规模扩展本体感知-视觉学习

LLaVA-OneVision｜更加高级的LLaVA，轻松的视觉任务转移

对齐器: 通过学习校正实现高效对齐

Emo-DPO：通过直接偏好优化实现可控的情绪语音合成

Jiaya Jia团队提出LLaMA-VID ：一张图片在大型语言模型中值两个token

mamba和Tranformer融合：通过混合架构高效扩展多模态大语言模型到 1000 张图像

小米提出MobileVLM：一种用于增强UI内部和跨UI理解的视觉语言模型

T2I-CompBench：一个用于开放式世界组合式文本到图像生成的综合基准

Molmo 和 PixMo: 开放权重和开放数据的最先进的多模态大模型

MG-LMM ｜指令引导的多粒度分割和字幕与大型多模态模型

Llama 3.2全文翻译：通过开放、可定制的模型彻底改变边缘 AI 和视觉

如何提升多模态大模型视觉推理能力？浙大杰青团队的新型自指导方案给出答案

THU鲁继文&NTU刘子纬团队联手发布 Oryx MLLM：实时应对任意分辨率的时空理解

SlowFast-LLaVA ｜ Apple团队提出视频大语言模型的强大免训练基线

AAA24 ｜震撼发布！95.3% 像素级 AUC：最强异常检测模型 SOTA 现已开源！

Google推出MaskGIT：革新图像生成的掩码式Transformer

英伟达发布NVLM：超越GPT4o，开源先锋塑造多模态AI新时代

TG-LLaVA｜沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

SAM4MLLM | 增强多模态大型语言模型用于指称表达式分割

CVPR2025投稿规定再次更新

ECCV2024 ｜一张图实现街道级定位，端到端图像地理定位大模型AddressCLIP

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

SpaceX再创历史，人类首次商业太空行走成就达成！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉