追问weekly | 过去一周,AI领域有哪些新突破?

学术   2024-10-28 18:35   上海  

█ 政策法规与新闻

加州叫停AI安全法案:创新与监管的博弈战

谷歌高层大洗牌:搜索广告掌门人换帅

AI搜索新秀Perplexity融资翻番,估值或突破80亿美元

AI进军情感市场,"情绪即服务"时代来临

AI健身教练来袭!Healthify融资4500万美元

█  大模型与基础建设

新型专利分析模型PaECTER:专利审查和创新研究的新利器

微软"差分Transformer"降噪除尘,大语言模型更聚焦

拆解大模型的"减肥秘诀":跨层参数共享如何让AI更轻盈

大语言模型提示压缩技术大盘点:高效对话新时代

OpenAI全新AI模型Orion即将问世

█ 技术与研发

稳定哈达玛记忆:为强化学习智能体注入“超级大脑”

联邦学习遇上贝叶斯:让AI更懂“自知之明”

让图神经网络搭乘Transformer的时光机

记忆压缩的艺术:选择性状态空间模型如何让AI更聪明

SynapticRAG:模仿人脑记忆机制,让对话AI更"聪明"

SKIntern:让小模型也能高效推理的"实习生"训练法

MemTree:让AI拥有人类般的记忆力

█ 应用与实践

流程智能:AI投资回报的关键钥匙

2024年AI发展现状:生成式AI增长17%,数据质量挑战增多

"死亡科技"遇上老牌殡葬:Farewill以1680万美元被Dignity收购

Gusto CTO:AI革命的真正驱动力是普通员工

PlayVS牵手Omnic.AI:AI教练助力电竞新秀腾飞

Pika 1.5再次升级:新增Pikaffects特效

Runway推出AI表情捕捉功能“Act One”

Anthropic发布Claude 3.5 Sonnet,AI像人一样用电脑

金融新闻的"蝴蝶效应": FININ模型洞察市场涟漪

机器人与AI联手,科学实验室迎来“自动化革命”

深度学习遇上新闻分类:AI如何成为信息时代的“智慧筛子”

Dotmatics发布Geneious Luma,AI赋能抗体药物研发新纪元

CrewAI发布多智能体构建器,加速迈向智能体AI时代

Asana发布AI Studio,引入智能工作流,让AI成为团队一员

AI能否治愈孤独?Manifest的"数字良药"实验

好莱坞版LinkedIn?Shobizzy为影视行业打造专属社交平台

Azar:重塑随机视频聊天,能否成为下一个Chatroulette?

█ 交叉与创新

施密特的量子AI创企SandboxAQ再融资,估值望达50亿美元

人工智能遇上"和声斗篷":音乐创作者的新保护伞

人工智能的元认知能力:ChatGPT能否预测人类记忆?

从观察者到智能体:物理学与智能科学的奇妙融合

从约束优化视角解读自然智能的进化之路

DeepMind推出“谈话者-推理者”框架

让AI像蜘蛛一样编织记忆之网 - HG2P智能体的启示

解密“张量大脑”:从感知到符号的认知革命

系统0思维:人工智能如何重塑我们的认知世界


*如需定位对应内容,请使用微信的检索功能

(点击右上方三点,找到查找页面内容按钮)


政策法规与新闻


加州叫停AI安全法案:创新与监管的博弈战


近日,加州州长纽森(Gavin Newsom)否决了备受瞩目的《安全和可靠的前沿人工智能模型创新法案》(SB 1047),这一决定在全球范围内引发了关于AI监管方向的激烈讨论。该法案原本意在为预算超过1亿美元的AI项目设置更严格的安全标准,包括要求制定详细的安全计划、安装紧急制动开关以防止系统失控,以及对生成式AI采取特殊监管措施。


纽森否决该法案的理由是“不能为了公共利益而限制推动进步的创新”,这一决策背后涉及多重考量。首先,加州作为全球科技中心,聚集了全球50强AI企业中的32家,科技产业在当地经济和就业方面贡献巨大。其次,法案对所有AI项目施加的限制可能过于宽泛,尤其是对于低风险项目来说,可能会遏制技术创新的活力。此外,当前AI系统的快速演化,使得传统的监管模式难以跟上技术发展的步伐。


尽管如此,AI潜在风险依然令人担忧。深度伪造技术可能破坏社会信任,AI生成的虚假信息可能影响金融市场,而复杂AI系统的不可预测性更是加剧了社会对安全问题的关注。加州在全球科技监管中的态度具有示范效应,可能促使其他地区采取类似立场,甚至填补监管真空。


面对这一局势,业内人士如特斯拉CEO马斯克也表达了对AI监管的支持,表明科技界内部对规范AI发展的必要性达成了共识。未来,理想的监管框架应在保护公众安全和维持技术创新之间找到平衡,确保AI技术的可持续发展并构建公众信任。

相关阅读:

https://techxplore.com/news/2024-10-california-governor-blocked-landmark-ai.html


谷歌高层大洗牌:搜索广告掌门人换帅,AI布局再提速


在人工智能迅猛发展的背景下,谷歌宣布了一系列高层人事调整,以进一步优化其AI战略布局。周四,谷歌CEO桑达尔·皮查伊(Sundar Pichai)宣布,负责搜索引擎与广告业务的高管普拉巴卡尔·拉格哈万(Prabhakar Raghavan)将转任首席技术官,由谷歌资深元老尼克·福克斯(Nick Fox)接任。拉格哈万在职期间推出了Gmail的Smart Reply、Smart Compose等AI创新,推动了AI应用的前沿探索。福克斯的上任,被期待为谷歌的AI产品路线图注入新的动力。


这次调整不仅涉及核心业务部门,还包括了AI研发的重大战略布局。Gemini应用团队将由Sissie Hsiao领导,合并至Google DeepMind,并由Demis Hassabis直接管理,以此提升模型部署与反馈效率。此外,Google Assistant团队也将并入平台和设备团队,以促进与硬件开发的深度融合。


谷歌的高层洗牌意在应对来自OpenAI、微软等企业的激烈竞争,加速AI创新,以巩固其在AI领域的优势。然而,这一战略调整也面临来自外部反垄断调查的挑战。未来,谷歌能否通过新的人事布局赢得AI市场的主动权,将是行业关注的焦点。

相关阅读:

https://techcrunch.com/2024/10/17/google-replaces-executive-in-charge-of-search-and-advertising/


AI搜索新秀Perplexity融资翻番,估值或突破80亿美元


人工智能搜索引擎初创公司Perplexity AI正准备进行新一轮融资,预计估值将突破80亿美元,较年初的30亿美元翻了超过一倍。据知情人士透露,Perplexity计划筹集约5亿美元资金,尽管具体融资金额尚未敲定,但该轮融资无疑将大幅提升其市场估值。


Perplexity AI在商业模式上逐渐成熟,已推出月费20美元的订阅服务Perplexity Pro,还为企业提供企业版搜索工具,满足内部文档检索需求。同时,Perplexity计划在年底前上线广告服务,为其增添新的收入来源,但广告可能影响用户体验和搜索结果的中立性,这也将是其未来发展的关键考量。


然而,Perplexity的快速发展伴随着版权争议。部分出版商指控该公司在未经许可的情况下抓取内容用于生成搜索结果,甚至包括《纽约时报》在内的媒体向其发出律师函,要求停止这一行为。这一争议凸显了AI企业在利用网络内容训练模型时所面临的版权难题。


在竞争方面,Perplexity面对OpenAI、微软和谷歌等巨头的挑战。这些公司在AI搜索和自然语言处理领域占据优势,纷纷投入重金拓展市场。作为一家成立仅两年的初创企业,Perplexity能否在巨头林立的赛道上突围仍需时间验证。但其迅速上涨的估值和技术创新路径,表明其在AI搜索领域潜力巨大,备受资本关注。随着AI技术的快速进步,传统搜索引擎的市场格局正面临一场变革。

相关阅读:

https://www.wsj.com/tech/ai/ai-startup-perplexity-in-funding-talks-to-more-than-double-valuation-to-8-billion-54d36787


AI进军情感市场,"情绪即服务"时代来临


在人工智能迅速发展的今天,"情绪即服务"(Emotion as a Service,EaaS)正成为新兴的蓝海市场,借助情感计算技术,AI逐渐迈入人类情绪世界。EaaS不仅能识别和分析情绪,还能模拟、影响甚至调控情感体验,为各种应用带来新的可能。


EaaS的核心在于多模态情感识别、情感知识图谱和深度学习模型的结合。AI通过面部表情、语音语调和肢体动作等信号,识别并判断人的情绪状态,并通过情感知识图谱和循环神经网络(RNN)、长短时记忆网络(LSTM)等深度学习模型,进行精确的情绪解读。此外,EaaS还具备情感生成功能,通过自然语言生成和语音合成,提供适当的情感反馈。这些技术不仅提升了AI的情商,还为个性化服务推荐提供了可能。


EaaS的应用前景广阔,特别是在客户服务、教育、娱乐和医疗健康领域。例如,情感智能的客服机器人可以识别用户情绪,提供更贴心的服务;在教育中,AI可根据学生的情绪调整教学策略;在娱乐领域,游戏和影视作品能够根据观众的情绪状态调整内容,带来更沉浸的体验;在心理健康领域,EaaS则可通过情绪分析协助心理疾病诊断和治疗。


然而,EaaS的发展也面临隐私、伦理和技术等多重挑战。情绪数据的采集和监控可能引发隐私问题,情感操控带来的伦理争议也不可忽视,而当前AI技术尚不足以完全理解人类的复杂情感。尽管如此,EaaS市场前景依然乐观。Gartner预测,到2025年,全球10%的个人设备将具备情感识别能力;情感AI市场规模预计将从2021年的191亿美元增长至2026年的371亿美元,年复合增长率达14.1%。

相关阅读:

https://hackernoon.com/emotion-as-a-service-ais-next-market-is-your-heart


AI健身教练来袭!Healthify融资4500万美元,瞄准美国市场


印度健康科技公司Healthify近期完成4500万美元融资,计划将业务拓展至美国市场。本轮融资由LeapFrog Investments领投,HealthQuad、Khosla Ventures和Unilever Ventures也参与其中。Healthify创立于2012年,通过结合人工智能和人类专业知识,为用户提供个性化的饮食、运动和健康管理服务,宛如一位随叫随到的AI健身教练。目前,Healthify在印度、东南亚和中东地区拥有3000万用户,并与200多家企业客户建立了合作关系。


Healthify的AI健康管理方案依托多项技术。首先,通过智能手机和可穿戴设备采集用户的活动、饮食和生理数据,利用AI算法实时分析,绘制健康画像;其次,采用深度学习模型(如RNN和LSTM)预测用户健康趋势。自然语言处理(NLP)技术让AI助手理解用户的日常查询,如饮食建议和缓解疲劳的建议。此外,计算机视觉功能让用户通过拍摄食物照片获取卡路里估算,强化学习则帮助系统根据用户反馈优化个性化推荐。


Healthify的联合创始人兼CEO Tushar Vashisht表示,Healthify的目标是让所有人都能获得个性化健康指导,将顶级专家的知识通过AI技术大规模复制,为用户提供优质的健康服务。新一轮融资完成后,公司计划在未来18个月内将美国用户规模扩展至100万,并继续加码技术创新,特别是生成式AI和大语言模型领域。未来的AI健身教练将能够理解用户的情绪变化,提供全方位的健康建议。


AI技术正在重塑健康科技领域,从个人健康管理到远程医疗,智能化和人性化的健康助手正逐渐成为现实。然而,伴随便利而来的数据隐私和算法偏见等问题也引发关注,如何平衡创新与监管将成为行业关键课题。Healthify的融资成功标志着AI健康管理的广阔前景,未来,随时随地的AI健身教练可能就在用户的掌心中,为每个人的健康保驾护航。

相关阅读:

https://www.business-standard.com/companies/news/ai-powered-fitness-app-healthify-secures-45-mn-to-drive-us-expansion-124102500232_1.html


大模型与基础建设


新型专利分析模型PaECTER:效能大幅提升,专利审查和创新研究的新利器


美国国家经济研究局(NBER)近期发表的一项研究证实了PaECTER(Patent-level Representation Learning using Citation-informed Transformers)模型在专利分析领域的卓越表现。该模型由马克斯·普朗克创新与竞争研究所的研究团队开发,利用变换器架构和专利引文数据优化,显著提升了专利审查与创新研究的效率。


PaECTER由Mainak Ghosh、Sebastian Erhardt、Michael E. Rose、Erik Buunk和Dietmar Harhoff等人设计,其与传统自然语言处理(NLP)模型相比表现出色。NBER在《专利文本和长期创新动态:模型选择的关键作用》中详细对比了PaECTER与TF-IDF、GTE和S-BERT等模型在专利干扰任务中的表现,结果显示PaECTER在降低假阳性和提升处理效率方面具备明显优势。


PaECTER不仅在干扰识别等专家任务中表现突出,在更广泛的专利分类任务中也表现良好,展现了其多功能性。开发者Mainak Ghosh表示,PaECTER的成功验证了其在专利相似性分析和创新研究中的价值,使其成为知识产权管理的重要工具。目前,该模型已上线Hugging Face平台,广泛服务于全球的研究人员、政策制定者和专利专业人士,迄今已下载超过140万次。

相关阅读:

https://arxiv.org/abs/2402.19411


微软"差分Transformer"降噪除尘,大语言模型更聚焦


大语言模型(LLM)在处理海量信息时,常因无关细节而分散注意力,导致其在问答、摘要等任务中的表现受限。为解决这一问题,微软研究院与清华大学的研究团队提出了一种新型架构"差分Transformer"(Differential Transformer,Diff Transformer)。通过引入"差分注意力"机制,这一模型能够更好地聚焦关键内容,自动过滤无关的“注意力噪音”。


Diff Transformer的核心创新在于其独特的注意力计算方式。与传统Transformer模型直接计算query和key向量的内积不同,Diff Transformer将这两个向量分为两部分,分别生成两个注意力图,再将其相减,得到最终的注意力分数,类似于降噪耳机通过消除背景噪音聚焦清晰信号的原理。这一设计使模型在处理信息时有效地过滤掉共性噪音,使最相关的内容得以突出。


实验结果显示,Diff Transformer不仅在性能上超越了传统Transformer,还在参数量和训练数据需求上实现了显著优化。例如,在30亿参数的规模下,Diff Transformer在多个基准测试中的表现优于传统Transformer,且通常仅需65%的参数量或训练数据。尤其在处理长达64,000个token的上下文时,Diff Transformer能够准确提取关键内容,大幅降低幻觉的发生频率,这对于问答和摘要任务尤为重要。


未来,研究团队计划将Diff Transformer应用于更大规模的模型和跨模态数据(如图像、音频、视频等),以进一步验证其潜力。他们已发布了相关代码,希望推动更多LLM应用性能的提升。

相关阅读:

https://arxiv.org/abs/2410.05258


拆解大模型的"减肥秘诀":跨层参数共享如何让AI更轻盈


大语言模型(LLM)已大幅提升人机交互体验,但其庞大的参数量却增加了部署难度。近日,德国达姆施塔特工业大学的研究团队提出了一种名为“Basis Sharing”的新方法,通过跨层参数共享来实现模型的高效压缩。这种方法在不显著影响性能的前提下,大幅减小了LLM的体积。


Basis Sharing的核心是跨层共享“基向量”,即将不同层的权重矩阵分解成一组共享的基向量和每层独特的系数。这类似于企业部门共享基础设施,从而减少资源浪费。在应用上,研究人员首先将多层的权重矩阵拼接并进行奇异值分解(SVD),保留最重要的基向量来实现参数共享。这种技术尤其适合如WK、WQ等矩阵,而对WDown矩阵则效果较差,因为它涉及高维数据投影,压缩会导致较大误差。


实验证明,Basis Sharing在性能上超越了传统压缩方法。在WikiText-2数据集上,使用Basis Sharing的LLaMA-7B模型在50%压缩率下的困惑度优于SVD方法,同时在推理吞吐量上提升了1.57倍。此外,在OPT-6.7B、LLaMA 2-7B等多种LLM上,Basis Sharing的表现均优于现有的压缩基线方法,甚至在压缩后依然保持较高的准确性。


研究还将Basis Sharing与LoRA(Low-Rank Adaptation)等微调方法结合,进一步提升了模型在高压缩比下的性能。该方法适用于现有预训练模型,节省了重新训练的成本。随着未来优化的深入,Basis Sharing有望为资源受限设备上的AI模型部署提供全新可能。

相关阅读:

https://arxiv.org/abs/2410.03765


大语言模型提示压缩技术大盘点:高效对话新时代


大语言模型(LLM)推动了自然语言处理的进步,但由于需要输入冗长提示来完成复杂任务,其推理速度和内存占用也随之增加。为解决这一问题,prompt compression(提示压缩)技术应运而生,旨在“瘦身”大模型,从而提高运行效率。最新发表在arXiv上的综述论文《Prompt Compression for Large Language Models: A Survey》对现有提示压缩技术进行了全面梳理,揭示了其分类、应用和潜在发展方向。


提示压缩分为硬提示(hard prompt)和软提示(soft prompt)两大类。硬提示直接删除冗余token,以保留简洁的自然语言形式,适用于只接受文本输入的LLM,代表方法包括SelectiveContext、LLMLingua和Nano-Capsulator。软提示则通过连续向量形式的特殊token来压缩提示,更适合利用LLM的语义理解力,方法如CC、GIST、AutoCompressor、ICAE和500xCompressor等。


实验显示,Prompt Compression技术可大幅提升LLM推理效率。例如,硬提示的压缩比达20倍,并且可以跨模型通用,而软提示方法的压缩率更高,GIST实现了26倍压缩,500xCompressor甚至在480倍压缩下仍保留72.89%的性能。在问答和摘要任务中,ICAE将推理时间从1.28秒降至0.20秒,速度提升达6.4倍。此外,Prompt Compression有效减少了内存占用,有助于LLM在移动设备等资源受限场景下的应用。


尽管Prompt Compression技术前景可观,但也存在挑战,如过拟合、通用性欠缺、训练成本较高等问题。未来,轻量化压缩编码器、结合硬软提示的混合方法、以及将文本压缩视为多模态处理的新方法等,或许能推动这一技术的进一步发展。Prompt Compression作为大语言模型的前沿优化手段,有望在高效、轻量、通用的对话模型上带来更多突破。

相关阅读:

https://arxiv.org/pdf/2410.12388


OpenAI全新AI模型Orion即将问世,AGI时代呼之欲出


人工智能公司OpenAI即将于12月推出下一代AI模型Orion,引发业界对人工通用智能(AGI)时代的强烈期待。据报道,Orion将采取渐进式发布策略,首先由其企业客户进行内部测试,以帮助这些企业开发定制化产品和功能。微软作为OpenAI的密切合作伙伴,将比其他公司更早获得该模型,预计在11月便可通过其Azure云平台率先体验Orion的强大功能。


目前尚不清楚Orion是否为GPT-4的直接继任者,还是另辟蹊径的全新AI模型。但据OpenAI内部人员透露,Orion的性能预计将超越GPT-4近百倍,表明其在语言理解、知识表达和逻辑推理方面或将迎来质的突破,从而实现更智能、更高效的人机交互。


OpenAI的长期愿景是将其大型语言模型整合为一个具备超越人类智能的AGI系统。10月,该公司完成了高达66亿美元的新一轮融资,为这一雄心注入了强劲的资金支持。与此同时,竞争对手Anthropic AI也在快速推进,其最新发布的AI代理能够自主完成多项任务,显示出激烈的行业竞争。


在技术层面,Orion预计将集成自监督学习、对比学习和Transformer等前沿算法。自监督学习能使模型从无标注数据中自主提取语义信息,对比学习提高了特征表示的鲁棒性,Transformer则增强了并行计算和长程依赖的捕捉能力。除此之外,Orion或将引入外部知识库、强化学习以及人类反馈指令学习,以增强模型的记忆和理解能力,使其更好地应对复杂任务。


Orion的成功离不开OpenAI强大的基础设施支持,该公司在数据合成和数据压缩等方面不断创新,以优化模型训练效率并降低成本。Orion的问世无疑将为AI行业掀起新一轮变革,象征着AGI时代的开端。未来,Orion有望在各个领域中发挥更广泛的应用潜力,推动生产力的进一步提升。

相关阅读:

https://www.thehindu.com/sci-tech/technology/openai-to-release-new-ai-model-orion-by-december-report/article68794910.ece


技术与研发


稳定哈达玛记忆:为强化学习智能体注入“超级大脑”


澳大利亚迪肯大学的研究团队近期提出了一种新型记忆模型——稳定哈达玛记忆(Stable Hadamard Memory, SHM),这一模型被称为强化学习智能体的“超级大脑”,显著提升了智能体在部分可观察环境中的表现。SHM采用了一种叫做哈达玛积的数学操作,这是一种通过矩阵对应元素相乘实现高效记忆更新的方法,能够避免不同记忆单元的内容混淆。此外,SHM还引入了“校准矩阵”概念,用于动态调整记忆的强度,使智能体能够优先记住重要信息,并淡化不再需要的信息,从而更加灵活地应对环境变化。


SHM在设计中还有效解决了梯度消失或爆炸问题,这通过一种数学策略使得训练过程中的“力度”保持在合适范围,从而保持稳定。该模型在元强化学习、长期信用分配和POPGym基准测试等任务中表现优异。在元强化学习任务中,SHM智能体的适应速度明显领先其他方法,成功率提高了20-50%。在Visual Match的长期信用分配任务中,SHM是唯一能完美解决250步和500步挑战的模型,而排名第二的方法在500步中仅有25%的成功率。此外,在POPGym基准测试的记忆密集型任务上,SHM平均性能较其他方法提高了10-12%。


SHM的出现为强化学习领域提供了应对部分可观察环境中记忆问题的新思路,特别是在需要长期记忆的复杂任务中。该模型的动态记忆管理机制还可能启发脑科学研究,对理解人类大脑如何管理记忆具有参考价值。未来,SHM在自动驾驶、机器人控制和游戏AI等场景中有望发挥作用,为强化学习在更多复杂环境中的应用提供支持。研究团队表示,未来的方向包括进一步提高SHM的计算效率,并探索与其他AI技术的结合可能性。


相关阅读:

https://arxiv.org/pdf/2410.10132


联邦学习遇上贝叶斯:让AI更懂“自知之明”


在人工智能应用中,让AI既能准确预测,又能识别自身不确定性是关键,特别是在医疗诊断等高风险领域。为了解决这一问题,格拉斯哥大学等机构的研究团队提出了LR-BPFL(低秩贝叶斯个性化联邦学习)方案,为AI增添“自知之明”的能力。


联邦学习允许在不共享数据的情况下,多客户端协作训练模型。然而,由于各客户端数据分布差异大、数据量不足,模型往往过度自信,难以正确评估预测不确定性。LR-BPFL通过结合全局确定性模型和个性化低秩贝叶斯修正,巧妙地解决了这些问题。具体而言,LR-BPFL在全局范围内训练一个通用的确定性模型,同时为每个客户端引入低秩贝叶斯修正,动态调整修正的复杂度,以适应不同客户端的不确定性需求。高不确定性客户端将采用更高秩,从而实现更精确的校准。


在CIFAR-10和CIFAR-100数据集上的实验表明,LR-BPFL显著提升了校准性能,平均期望校准误差(ECE)降至0.030,显著优于现有方法。此外,该模型在CIFAR-10和CIFAR-100上分别达到了84.67%和66.12%的预测准确率,且训练时间比传统方法快30%以上,内存开销仅增加4%。


LR-BPFL的应用潜力广泛,尤其适用于需要准确不确定性评估的场景,如医疗诊断、金融风险控制和自动驾驶。该技术通过权重矩阵的分解,巧妙地将通用模型与个性化修正相结合,为AI系统提供了可靠的自我校准能力。

相关阅读:

https://arxiv.org/abs/2410.14390


时间旅行者的智慧:让图神经网络搭乘Transformer的时光机


在信息爆炸的时代,捕捉动态变化并挖掘有价值的洞察成为人工智能的关键挑战。为解决这一难题,时序图神经网络(TGNNs)应运而生,通过融入时间信息有效建模动态图的演变。然而,传统TGNN模型常需特殊架构,应用受限。针对这一痛点,武汉大学等机构的研究团队提出了一个新方案——TF-TGN,将TGNN与Transformer解码器结合,提升模型建模能力与训练效率。


TF-TGN的创新主要体现在三方面:一是后缀填充技术,将节点及其时序邻居组织成时间序列,使当前节点始终处于最后;二是带自环的时序图注意力,帮助模型在关注邻居信息时保留自我信息;三是因果掩码自注意力,借鉴Transformer的机制,增强模型对时间依赖关系的捕捉能力。这些设计在9个真实数据集上的实验中取得显著成效,TF-TGN在处理大规模动态图时表现优异,在动态链接预测任务中精度超越了现有模型。同时,TF-TGN在训练速度上平均提升2.20倍,最高达10.31倍。


研究团队在工程实现上也进行了创新,提出并行采样策略,加速了图的CSR格式转换和采样,将MAG数据集的CSR转换时间从10小时缩短至27秒。然而,TF-TGN在超大规模动态图中的表现仍有优化空间,未来还需进一步提升内存使用效率与计算能力。

相关阅读:

https://arxiv.org/abs/2409.05477


记忆压缩的艺术:选择性状态空间模型如何让AI更聪明


在AI领域,如何让模型在处理长序列数据时既高效又准确一直是个难题。选择性状态空间模型(Selective State Space Models,SSMs)则提供了类似人类选择性记忆的解决方案。传统循环神经网络(RNN)在面对长序列时试图记住每一个细节,往往会导致“记忆过载”,而SSMs则像一个聪明的读书人,只保留关键信息,忽略无关细节。


SSMs的核心在于“选择性门控机制”,通过一个智能过滤器动态决定哪些信息需要保留。该机制可用函数G(xt)表示,G(xt)根据输入的重要性决定是否更新隐藏状态。若G(xt)接近1,表示信息重要,需完全更新;若接近0,则可忽略。这种选择性更新显著提升了模型的计算效率。相比传统RNN需更新整个隐藏状态,SSMs仅更新部分状态,降低了复杂度,大大节省了计算资源。


在实验中,SSMs在时间序列预测任务中的准确率达92.1%,仅用250MB内存;而LSTM的准确率为90.3%,需用400MB内存。在自然语言处理任务中,SSMs的准确率达85.6%,仅需210MB内存,显著高效于LSTM。这种高效的内存使用使得SSMs在处理超长序列或资源受限场景时尤为适合。此外,SSMs通过其结构化的更新机制更好地捕捉了长期依赖,克服了传统RNN在长序列处理中的梯度消失问题。


有趣的是,SSMs的选择性记忆机制在某种程度上模仿了人类大脑的工作方式,能够选择性地存储和更新信息。研究人员还利用信息论分析了SSMs的内存压缩能力,证明其在内存使用与信息保留之间取得了平衡。未来,SSMs有望继续发展,如扩展至非线性模型或与其他架构结合,为AI应用带来更多智能化创新。

相关阅读:

https://arxiv.org/abs/2410.03158


SynapticRAG:模仿人脑记忆机制,让对话AI更"聪明"


日本明治大学和京都大学的研究团队近期推出了SynapticRAG模型,旨在让AI的记忆机制更贴近人类大脑的工作方式,从而提升其对话和记忆能力。SynapticRAG的核心在于模拟人类大脑突触的动态特性,通过整合时间和语义信息,使记忆更自然流畅。


SynapticRAG的工作原理主要包括两部分。首先是时间维度整合,不仅考虑信息的语义相似性,还将时间因素纳入记忆管理,利用动态时间规整(DTW)计算事件发生的累积时间距离矩阵,通过指数衰减函数模拟记忆随时间的自然衰退过程。其次,通过突触式传播控制机制,设置相似度阈值筛选相关记忆,并采用漏积分发放(LIF)模型控制节点激活,避免刺激过度扩散,以确保高效的记忆召回。


SynapticRAG的创新之处在于生物启发设计,借鉴了突触可塑性原理,实现更自然的记忆形成和检索。此外,通过时间相似度与语义相似度的综合评分机制,该模型可以更精准地评估记忆关联强度。其动态阈值调节功能还能自动调整激活阈值,避免检索过度或遗漏重要信息。


研究表明,将时间和空间向量结合,已成为推进AI长期记忆与智能推理能力的一种有效方法。SynapticRAG的成功表明,未来AI系统在对话和长期记忆管理上的潜力将进一步被挖掘。

相关阅读:

https://arxiv.org/abs/2410.13553


SKIntern:让小模型也能高效推理的"实习生"训练法


近年来,参数量较小的语言模型(SLM)因其轻便实用受到广泛关注,但推理能力较弱。中科院自动化所的研究人员提出了一种名为SKIntern的创新方法,旨在提升小模型的推理能力。该方法的灵感来自实习生的学习过程——从详细指导到逐步独立,逐步内化知识,最终实现高效推理。


SKIntern的核心在于“渐进式知识内化”和“高效推理设计”。研究团队首先让大模型生成推理过程和辅助知识,随后根据预设的线性衰减计划逐步压缩知识内容,将符号知识和示例数量逐步减少。最终,小模型能够仅依赖内化参数进行推理,而无需再调用外部知识或进行多阶段生成。


在实验中,SKIntern使LLaMA2-7B和TinyLLaMA-1.1B的平均性能分别提升了8.4%和5.9%,计算量减少2-4倍,表现优于现有CoT蒸馏方法。在数据有限的情况下,SKIntern仍成功将大模型的推理能力融入小模型中,且随训练数据增加,改进幅度也有所提升。尤其值得注意的是,SKIntern让Qwen2-7B的性能超越了教师模型GPT-3.5 Turbo,即便其参数量较少。


SKIntern的创新不仅在于内化知识以减少运行时开销,还在于显著降低计算资源需求,使其适用于资源受限、需快速响应、注重隐私保护的场景。这一方法的实现有望为小模型在推理能力上的提升带来更大突破。


相关阅读:

https://doi.org/10.48550/arXiv.2409.13183


MemTree:让AI拥有人类般的记忆力


Accenture人工智能中心的研究团队提出了一种创新的记忆结构MemTree,通过树状结构模仿人类大脑的图式(schema),实现了更高效的信息整合与记忆功能。MemTree动态地将新信息组织进树状结构,每个节点包含文本内容、语义向量、父子节点信息等。在新信息到来时,MemTree会从根节点遍历,计算语义相似度,决定是否继续向下遍历或创建新节点,并实时更新路径上各父节点的内容摘要。


MemTree的核心在于自适应相似度阈值和内容聚合机制。随着节点深度增加,树的深层节点要求更高的相似度,从而维持了结构层次的合理性。同时,父节点会动态整合子节点信息,随着子节点数量增加而逐步抽象,确保了层次化的知识表示和高效的记忆更新。这一设计与在线层次聚类算法OTD密切相关,具备理论上的最优性能保证。


实验表明,MemTree在多轮对话理解、单文档与多文档问答任务上表现优异,例如在长对话的准确率达82.5%,在多文档推理类问题的准确率达到96.0%,整体准确率达到80.5%。这一系统为AI提供了人类般的记忆力和知识组织能力,为多轮交互、信息检索等应用带来了显著进步。

相关阅读:

https://arxiv.org/abs/2410.14052



应用与实践


流程智能:AI投资回报的关键钥匙


随着AI技术的迅猛发展,越来越多的企业投入巨资进行AI项目,但如何衡量其带来的实际回报成为了企业高管关心的核心问题。AI投资回报率(ROAI)正在成为评估AI项目成败的关键指标,而流程智能(Process Intelligence)被视为解开这一难题的“金钥匙”。


传统的AI项目往往缺乏与企业业务流程的深度结合,导致AI系统难以发挥其应有的效益。流程智能的引入改变了这一局面,它通过数据挖掘和机器学习技术,帮助企业对业务流程进行全面剖析,准确定位低效和容易出错的环节,进而实现精准的流程优化。其核心技术包括流程发现算法、时序模式挖掘、社交网络分析以及预测性分析,这些技术的组合让流程智能成为了支持企业决策的有力工具。


一些成功案例生动展示了流程智能的实际效果。例如,俄克拉荷马州政府利用流程智能识别出25%的预算管理漏洞,改进措施后提高了效率并节省了1140万美元。而英国国民医疗服务体系(NHS)通过流程智能优化预约提醒,每年减少了1800次预约取消,节省成本280万英镑。这些案例展示了流程智能如何帮助组织识别隐藏的机会与问题,实现效率提升。


展望未来,流程智能将是“智能体AI”(Agentic AI)的重要基石。未来的AI不仅是工具,更是能够自主执行任务的“数字员工”,流程智能为其提供必需的业务背景和决策监控能力,确保智能体AI行为与组织目标相一致,从而为企业带来更高的投资回报。

相关阅读:

https://venturebeat.com/ai/why-roai-return-on-ai-depends-on-the-power-of-process-intelligence/


Appen报告揭示2024年AI发展现状:生成式AI增长17%,但数据质量挑战增多


10月22日,Appen发布的《2024年AI发展状况报告》调查了500家企业的IT决策者,揭示了生成式AI的增长与数据质量挑战并存的趋势。报告指出,生成式AI的采用率增长了17%,但整体AI项目的部署率却下降到47.4%,投资回报率也从56.7%跌至47.3%。主要原因在于高质量训练数据的缺乏,导致企业的AI系统表现不如预期。


数据质量问题成为AI项目的主要障碍。报告显示,数据准确性下降了9%,且与数据采集、清洗、标注等环节相关的瓶颈增加了10个百分点。为应对这一危机,企业普遍依赖外部数据供应商来进行数据标注,近90%的企业选择外部支持。同时,80%的受访者强调了人工参与机器学习(Human-in-the-Loop, HITL)的重要性,通过人类反馈改进模型的准确性和适应性。


Appen的首席战略官Si Chen指出,随着AI用例复杂化,企业对一致且准确的标注需求日益增加。与此同时,检索增强生成(Retrieval-Augmented Generation, RAG)和HITL成为提升AI数据质量的重要手段。RAG可以让AI在生成信息时进行外部信息检索,而HITL则通过人类反馈形成闭环优化机制,提高数据质量,补充算法的盲区。


未来,AI技术将朝“轻量化”方向发展,通过模型压缩等技术实现边缘设备部署,同时企业将更加关注AI的“产业化”发展,从数据治理、人才培养等方面推动AI落地,为业务创造更大价值。

相关阅读:

https://venturebeat.com/ai/generative-ai-grows-17-in-2024-but-data-quality-plummets-key-findings-from-appens-state-of-ai-report/


"死亡科技"遇上老牌殡葬:Farewill以1680万美元被Dignity收购


在数字化浪潮中,殡葬行业也逐步迈向现代化。英国数字殡葬服务初创公司Farewill近日被传统殡葬巨头Dignity以1290万英镑(约1680万美元)全股票交易方式收购,成为老牌公司通过收购年轻数字化企业来实现业务增长的又一案例。Farewill自2015年成立以来,专注于“死亡科技”(Death Tech)领域,提供线上遗嘱撰写、遗产管理及火化安排等服务,逐渐在这一新兴市场中崭露头角。


Farewill在资本市场也有所斩获,累计筹集3900万美元,吸引了Augmentum Fintech、Highland Europe等知名投资者。然而,此次1680万美元的收购价格低于公司先前的融资总额,堪称“折价”出售。尽管如此,公司2023财年实现了31.4%的总销售增长和36%的收入增长,毛利润上涨88.9%,显示出良好的市场潜力。不过,Farewill尚未实现盈利,EBITDA亏损420万英镑,但相较于上一年已有显著改善。


作为拥有200多年历史的老牌殡葬公司,Dignity的收购意在利用Farewill的数字化优势加速自身转型。Dignity的线下资源丰富,在英国拥有40多个火葬场,而Farewill的线上服务恰好补充了其传统业务。收购完成后,Farewill将保留独立品牌运营,CEO Dan Garrett表示,希望在Dignity的支持下拓展服务能力,继续实现公司使命。


Farewill的技术应用可能包括区块链(保证遗嘱安全和不可篡改)、自然语言处理(辅助撰写和合规性检查)、云计算(提供在线服务)、数据加密(保护隐私),以及人工智能(提供个性化建议)。这场“死亡科技”与传统殡葬的融合不仅为Dignity注入了数字化活力,也为Farewill带来了更广阔的发展空间。

相关阅读:

https://techcrunch.com/2024/10/17/uk-digital-end-of-life-services-startup-farewill-acquired-for-16-8m/


Gusto CTO:AI革命的真正驱动力是普通员工


在AI席卷而来的浪潮中,众多公司竞相招聘AI专家以争取技术优势。然而,薪资管理初创公司Gusto的联合创始人兼技术负责人Edward Kim指出,大规模裁员后转而招募AI专家团队的做法并不明智。他强调,非技术团队成员往往比工程师更了解客户需求,更适合引导AI工具的功能开发,这一观点颠覆了传统的"技术至上"观念。


Gusto的新AI助手Gus就是这种思维的实践结果。该公司将非技术人员编写的“配方”用于指导Gus与客户的互动,充分发挥了员工的领域专业知识,提升了AI工具的实用性。Kim分享了一个案例:员工Eric Rodriguez从客服团队起步,凭借对AI的兴趣,开发了客服工具CoPilot,每日处理2000-3000次交互,极大提高了工作效率,证明非编程背景的员工也可开发出强大AI应用。


Kim认为,AI技术变革的关键在于接口更加易用。过去开发AI应用需要专业技能,而如今计算机逐渐理解人类,使软件开发更为便捷。Gusto还开发了一个工具,使非技术人员通过自然语言为Gus编写指令,利用“配方”无代码方式教导AI处理特定任务,这极大降低了AI应用的技术门槛。


Kim预计,随着AI的普及,公司架构将发生变化,客户体验团队的角色将从直接服务转向提示设计和配方编写,进一步提高公司效率。这种“AI民主化”方法展示了AI应用的另一种可能性——通过挖掘现有员工潜力推动企业AI转型。

相关阅读:

https://techcrunch.com/2024/10/20/gustos-head-of-technology-says-hiring-an-army-of-specialists-is-the-wrong-approach-to-ai/


PlayVS牵手Omnic.AI:AI教练助力电竞新秀腾飞


北美领先的电竞平台PlayVS与AI驱动的游戏分析平台Omnic.AI达成战略合作,力图通过AI技术革新电竞教育生态,助力年轻玩家在电竞赛场上大展身手。Omnic.AI的旗舰产品Omnic Forge被称为“AI教练”,能够分析玩家的游戏视频,提供专业反馈和详细统计,帮助玩家在《Valorant》《堡垒之夜》《火箭联盟》等热门游戏中提升表现,未来还将支持《Madden》。


Omnic Forge的AI教练提供两大类型的洞察:一是为团队沟通、个人表现和比赛策略提供建议,二是高级分析,包括瞄准准确度、比赛回顾及玩家对比。此外,Omnic.AI还具备个性化AI聊天机器人功能,能够基于最近的比赛数据,提供实时教练建议和游戏技巧。


Omnic.AI的核心技术依托于计算机视觉和深度学习,可以高效分析海量游戏视频,从中提取关键性能指标和战术模式,使玩家像职业选手一样,以科学方式提升技能。更特别的是,该系统还支持玩家的游戏风格与职业选手匹配,为玩家定制专属的职业教练体验。


PlayVS的使命不仅在于提供技能提升的工具,更在于培养学生的综合能力,如批判性思维、适应能力和沟通能力。正如PlayVS CEO Jon Chapman所言,这次合作不仅希望培养优秀的玩家,更旨在塑造具备21世纪核心素养的未来领袖。


为支持教育普及,PlayVS将向其广大的高中生玩家社区免费开放Omnic Forge的基础功能,允许玩家上传五场比赛并获得基本洞察。此外,用户可通过Forge Plus账户享受更深入的分析。PlayVS还将协助训练Omnic Forge的AI,确保其洞察符合学生电竞的特质。这一合作模式加速了AI在电竞教育领域的应用与创新,带来了AI驱动的电竞新时代。

相关阅读:

https://omnic.ai/


Pika 1.5再次升级:新增Pikaffects特效,让视频创作更出"奇"


AI视频创作平台Pika近期发布了Pika 1.5的最新升级版本,为用户带来了名为"Pikaffects"的一系列特效功能,助力视频创作实现更多创新。此次更新新增了四种独特的视觉效果:粉碎(crumble)、溶解(dissolve)、瘪掉(deflate)和魔术般的变换(ta-da)。这些新特效进一步丰富了Pika 1.5的创作手段,让用户能够以简单操作实现引人注目的视频效果。


Pikaffects的功能可谓是Pika 1.5的一大亮点,打破物理限制,为视频中的物体赋予“魔法”。除新增的特效外,Pika 1.5此前已有的六种经典特效同样广受好评,包括:爆炸(explode)、压扁(squish)、融化(melt)、碾碎(crush)、膨胀(inflate)以及将物体蛋糕化的“cake-ify”。这些创意特效由Pika的先进AI算法驱动,通过识别用户上传的图像,自动生成所选特效的视频效果,用户无需具备视频编辑技能即可实现专业级的创作效果。


Pika联合创始人Demi Guo表示,公司目标是让每个人都能轻松创作令人惊艳的视频内容,Pikaffects的发布正是朝这一目标迈出的重要一步。她还透露,未来将进一步强化Pika的AI能力,为用户带来更多新奇体验和创作自由。

相关阅读:

https://venturebeat.com/ai/pika-1-5-updates-again-to-add-even-more-ai-video-pikaffects-crumble-dissolve-deflate-ta-da/


Runway推出AI表情捕捉功能“Act One”,开启虚拟角色新纪元


6月20日,创意工具开发商Runway发布了革命性的AI表情和动作捕捉功能“Act One”,旨在彻底改变虚拟角色的创作方式。这一功能集成在Runway的视频生成平台中,允许用户通过简单的文本输入实时控制AI生成的角色表情和动作,为虚拟影视、游戏开发等领域提供了新的创作可能性。


传统的动作捕捉流程依赖专业演员、昂贵设备和繁重的后期制作,而“Act One”通过Runway的自研AI模型显著简化了这一流程。用户只需上传视频素材并输入指令,如“微笑”或“皱眉”,模型即可识别并生成符合指令的表情和动作。用户还可以进一步调整效果,整个过程无需专业设备或复杂的后期制作,大幅降低了创作成本和门槛。


“Act One”背后的AI模型经过大量表情数据训练,能够生成细腻、逼真的表情。Runway联合创始人Cristóbal Valenzuela指出,该模型不仅可以捕捉面部微小肌肉变化,还能够理解情绪,从而让AI生成的表情自然生动,富有感染力。该功能支持多种情绪和表情生成,包括微笑、皱眉、惊讶和悲伤,用户还可以调节表情强度和持续时间。同时,系统会根据人脸角度和光照自动调整表情,确保在各种场景下的表现一致。


除了表情,Act One还能生成连贯的肢体动作。用户可以输入一系列动作指令,如“走向门口,打开门,回头微笑后离开”,系统将自动生成平滑自然的动作序列,并根据角色身材比例进行自适应调整。这种灵活多变的特性不仅提高了创作效率,还让角色动作更具真实感。


Act One支持与主流3D建模和动画软件无缝集成,如Maya、Blender和Unity等,用户可以将生成的数据导出至其他软件进行进一步编辑。这一开放式设计适用于电影特效、游戏开发、虚拟主播等多种应用场景,让虚拟角色更具情感与灵魂感。Runway的CEO Alexey Morozov表示,Act One大大降低了技术门槛,为虚拟角色创作带来了新的想象空间,或将推动虚拟角色在影视、游戏和虚拟偶像领域中的普及与发展。

相关阅读:

https://venturebeat.com/ai/this-is-a-game-changer-runway-releases-new-ai-facial-expression-motion-capture-feature-act-one/


Anthropic发布Claude 3.5 Sonnet,AI像人一样用电脑,企业自动化迎来新纪元


10月22日,Anthropic公司发布了新一代AI模型Claude 3.5 Sonnet,该模型可以像人类一样直接操作电脑,通过模拟鼠标点击、键盘输入等交互方式,与桌面应用无缝对接。这一突破性升级让AI能够自主完成复杂任务,为企业自动化带来巨大变革。Claude 3.5 Sonnet能够“看”到屏幕,分析界面并执行相应操作。开发者仅需给出指令,如“用电脑和网上数据填写表格”,AI便能通过截图分析、定位操作区域,并模拟人类操作完成任务。


此外,Claude 3.5 Sonnet展现了灵活应变的能力。当遇到障碍时,它能自主尝试多种解决方案,直至成功。这一能力源自Anthropic在少量示例(Few-Shot Prompting)方面的创新,使AI能够将抽象任务拆解为具体步骤,无需人工干预。多模态理解也是该模型的重要功能,Claude 3.5 Sonnet能够“理解”图片内容,并基于图像和相关知识回答问题,这在产品设计、医疗影像分析等领域展现出广泛应用潜力。


技术上,Claude 3.5 Sonnet基于大语言模型(LLM),并结合检索增强生成(RAG)技术,使其具备生成准确、实时信息的能力。RAG技术帮助AI在生成答案前从外部知识库中检索相关信息,确保内容的可靠性和实时性。为支持企业应用,Claude 3.5 Sonnet优化了RAG的检索效率,使其能快速接入并高效利用企业知识库,即使面对亿级规模的数据库也能实时响应。


Anthropic CEO Dario Amodei指出,Claude 3.5 Sonnet的愿景是用AI重塑知识工作,让AI助手成为企业日常的“数字员工”。目前,Claude 3.5 Sonnet已被广泛应用于数据分析、客户服务等领域,未来将在更多高技术场景中推动生产力提升。Anthropic预测,到2025年,将有超半数的财富500强企业采用类似的AI解决方案。

相关阅读:

https://venturebeat.com/ai/anthropic-new-ai-can-use-computers-like-a-human-redefining-automation-for-enterprises/


金融新闻的"蝴蝶效应": FININ模型洞察市场涟漪


在金融市场这一复杂的系统中,一则看似普通的公司公告,可能会引发连锁反应,带来深远影响。为了解读新闻对市场的潜在冲击,爱丁堡大学研究团队提出了FININ(Financial Interconnected News Influence Network)模型。该模型通过双重注意力机制,不仅分析新闻本身,还深入挖掘新闻之间的关系,以更全面地揭示新闻与市场的互动。


FININ模型的双重注意力机制仿佛一位精明的分析师。第一层让每条新闻感知当天其他新闻的内容;第二层则让市场信息“评估”新闻的影响力。在实验中,研究团队选取了S&P 500和纳斯达克100市场15年期间的270万条新闻数据,发现FININ模型显著提高了预测性能,使日夏普比率分别提升了0.429和0.341。


研究团队的分析还带来了三点有趣发现:一是市场对新闻反应存在延迟,为敏锐投资者提供套利空间;二是新闻影响具有长记忆效应,新闻信息并非即时消散,而是持续影响市场;三是仅依赖情感分析可能无法全面理解新闻的市场影响力,FININ通过整合新闻文本和情感得分,更好地捕捉市场对新闻的复杂反应。


FININ模型不仅展现了卓越的预测能力,也揭示了理解和利用金融新闻的更佳方式。研究团队指出,金融分析需从系统性角度出发,观察新闻与市场的关联性。此外,新闻的长期影响同样重要,特别是突发事件在特殊经济背景下的多重效应。例如,2008年金融危机期间,通用汽车推迟新车型发布的消息,在市场上掀起了巨大波澜。


尽管FININ模型尚未能全面覆盖新闻之间的长期互动,未来结合社交媒体数据等多维信息将有望进一步增强其预测效果。FININ的成功提醒我们,在信息爆炸的时代,不仅要关注新闻本身,更要关注信息之间的复杂关联。

相关阅读:

https://arxiv.org/abs/2410.10614


机器人与AI联手,科学实验室迎来“自动化革命”


科学实验室正在经历一场“自动化革命”,机器人自动化和人工智能(AI)在多个学科中加速实验进程,提高结果精确度,并推动医疗、能源和电子等领域的重大突破。北卡罗来纳大学教堂山分校的研究人员在《科学机器人》发表的论文中指出,这些技术有望将实验室转变为自动化的科学发现工厂。


传统的科学实验依赖人工反复试错,不仅耗时费力,还延缓了科学进展。而通过自动化,机器人系统可以不间断地执行实验,更加精准一致,并降低处理危险物质的安全风险。研究人员定义了实验室自动化的五个层次:从辅助自动化(A1)到完全自动化(A5),展示了从单任务自动化到AI完全自主实验的演变路径。


AI在实验自动化中扮演着关键角色。它不仅能够分析实验数据、识别模式,还能提出新的化合物或研究方向。通过将AI集成到实验流程,实验室可实现“设计-制造-测试-分析”(DMTA)循环的全自动化,从实验设计到数据分析再到优化研究过程,所有步骤均由AI实时调整。尽管AI在化学反应预测和合成优化上已有成效,研究人员提醒,需对AI系统进行严密监控,以避免意外产生危险材料等风险。


尽管自动化实验室的前景诱人,但仍面临重大技术和操作挑战。实验室环境差异巨大,需要具备跨环境适应能力的移动机器人。同时,科学家需掌握机器人和AI技术,跨领域合作来推动自动化实验室的实现。未来,科学家将与AI和机器人无缝协作,专注于更高层次的科学问题。自动化实验室将为科学发现赋予前所未有的效率和精确度,掀起实验室研究的全新篇章。

相关阅读:

https://www.science.org/doi/10.1126/scirobotics.adm6991


深度学习遇上新闻分类:AI如何成为信息时代的“智慧筛子”


来自纽约大学、西南交通大学、卡内基梅隆大学和圣路易斯华盛顿大学的研究团队近日提出了一种基于深度学习的新闻文本自动分类方案,打造了一个高效准确的“智能筛子”,让计算机能够自动识别新闻类别,大大提高了分类效率与准确性。


研究团队采用了“双向长短期记忆网络”(Bi-LSTM)模型,这种网络具备超强的记忆力,能够从两个方向读取文本,结合长期和短期信息,模仿人类的阅读方式,不仅关注当前句子,还能关联前后文理解整个新闻内容。此外,他们还引入了“注意力机制”,该机制就像一副“智能眼镜”,能将模型的注意力聚焦在新闻中的关键部分。这种聚焦机制帮助模型更有效地抓住新闻的要点,提升分类准确性。


结合Bi-LSTM和注意力机制,研究团队开发出“BI-LSTM-Attention”模型,并进行了多种分类算法的对比实验,包括传统循环神经网络(RNN)、卷积神经网络(CNN)、长短期记忆网络(LSTM)等。实验结果显示,BI-LSTM-Attention模型在精确度(0.923)、召回率(0.991)和F1值(0.939)方面表现出色,显著优于RNN、CNN和LSTM等其他模型。


为了进一步优化模型性能,研究团队还采用了dropout策略和L2正则化技术。前者增加了模型的灵活性,后者则有效防止了过拟合。这些方法让模型在面对不同新闻内容时表现得更加稳健。该研究不仅在技术上取得了进展,也为新闻行业带来了实际的应用价值。对于新闻编辑、政策制定者以及广告商等角色来说,能够迅速且准确地分类新闻,有助于提升信息处理的效率和准确性。

相关阅读:

https://arxiv.org/abs/2409.15576


Dotmatics发布Geneious Luma,AI赋能抗体药物研发新纪元


10月22日,Dotmatics推出了Geneious Luma,一款多模态研发解决方案,旨在加速抗体和蛋白质工程领域的药物发现。作为Dotmatics旗下的最新产品,Geneious Luma结合了Geneious Prime和Geneious Biologics的优势,为研究人员提供了从序列分析到抗体优化的全流程工作平台。其开箱即用的设计,减少了编程和集成的繁琐,使科学家们能够专注于核心研究。


Geneious Luma的多模态注册功能通过基于本体链接的模型,精准捕捉实验和产品数据,提升了数据的准确性和一致性,同时确保了数据的可追溯性。通过自动化数据录入和版本化存储,Geneious Luma不仅减少了人工输入的错误风险,还允许对测试结果进行实时追踪和调整。这种智能化的数据管理方式显著提高了工作效率,便于研究人员快速掌握数据趋势,助力更快的决策制定。


此外,Geneious Luma的统一结果功能通过一个定制化仪表盘,将分子、测定数据等信息一体化呈现,使研究人员能够一键获取深度洞察。这种“所见即所得”的方式优化了数据分析流程,大大提高了新药筛选和分子优化的效率。


在抗体和蛋白质工程方面,Geneious Luma凭借强大的生物信息学算法和机器学习模型,实现了从抗体筛选、序列分析到多特异性抗体优化的全面支持。Dotmatics的首席科学官Bryn Roberts表示,Geneious Luma将AI原生平台与各种工具无缝集成,为抗体药物研发提供了一种高效的解决方案。

相关阅读:

https://venturebeat.com/ai/dotmatics-aims-to-speed-drug-development-break-data-silos-with-geneious-luma/


CrewAI发布多智能体构建器,加速迈向智能体AI时代


多智能体平台CrewAI推出了首个多智能体构建器(Multi-Agent Builder),为开发者提供了一个高效、直观的工具,助力多智能体系统的构建、部署和管理,开启了企业迈向智能体AI的新时代。该构建器简化了复杂任务的管理流程,使企业能够借助AI优化业务流程和决策方式。


多智能体系统采用了一种创新的范式,通过将复杂任务分解为多个子任务,分配给专门的智能体处理,每个智能体都具备特定的角色、目标和技能。相比传统依赖单一大型语言模型(LLM)的系统,这种方法具有多重优势:专业智能体提升效率、智能体间协作增强系统鲁棒性、灵活的任务增删机制应对业务变化,以及跨设备的资源优化。总之,多智能体系统在执行效率和灵活性上展现了卓越的优势。


CrewAI构建器通过一个可视化界面,使智能体的角色定义、交互流程设计、工具集成和运行监控等环节均无需编写代码,降低了多智能体系统的开发门槛。CrewAI首席科学家Tom Simonite表示,该构建器的目标是让每个人都能构建多智能体系统,将智能体开发变得如同“乐高积木”般简单。


技术上,CrewAI构建器提供了灵活的协同模板、多层次记忆机制以及丰富的工具集成。开发者可以通过可视化设计智能体间的串行、并行和层次化协作流程,并为智能体配置短期、长期和情景记忆,使其行为更智能化。同时,该构建器支持智能体通过API集成外部工具,并提供实时监控功能,让开发者清晰了解智能体的状态和资源消耗情况。


这一构建器为企业在智能客服、智能营销、智能研发等多个应用场景提供了新的可能。CrewAI联合创始人兼CEO Aron Szabo强调,智能体AI将助力企业在金融、制造、医疗等领域实现业务流程的“智能体化”,推动“智能体经济”的崛起。未来,CrewAI计划与学术界、产业界及政策制定者合作,解决多智能体技术在安全、伦理和可解释性方面的挑战,以促进智能体经济的健康发展。

相关阅读:

https://venturebeat.com/ai/crewai-launches-its-first-multi-agent-builder-speeding-the-way-to-agentic-ai/


Asana发布AI Studio,引入智能工作流,让AI成为团队一员


企业协作软件开发商Asana宣布推出AI Studio,这款无代码工具能够将AI助手无缝集成到工作流程中,为团队带来智能化的协作方式。与传统工具中独立的AI应用不同,AI Studio通过“AI原生”设计将AI深度融入到任务、项目和目标等工作单元,使用户无需切换界面即可与AI协同工作。


AI Studio的核心在于Asana自研的大语言模型(LLM)和检索增强生成(RAG)技术。与GPT-3等纯生成模型不同,AI Studio在生成内容时会从企业知识库中检索相关信息,使得AI的回答更加精准可靠。例如,当用户分配任务或提出问题时,AI Studio首先检索知识库中的相关信息,然后结合用户需求生成定制化的响应。这种“查询-检索-生成”流程大大提升了AI的事实准确性和实时性,特别适合企业应用场景。RAG技术优化使得AI Studio在面对亿级知识库时仍能实时响应,并支持100多种语言,灵活的云端与私有部署选项也满足了企业的安全需求。


AI Studio的应用范围广泛,涵盖营销、运营、IT等多个领域。例如,AI可以帮助营销团队自动生成创意文案、优化预算分配,而在运营和IT领域则能智能分配资源、预测项目成本、监控进度风险等,显著提升团队的工作效率。


Asana联合创始人兼CEO Dustin Moskovitz表示,AI Studio的目标是实现“AI原生办公”,让AI真正成为团队成员,与人类并肩作战、激发创造力。随着AI Studio的推出,AI在工作管理软件中的角色不再局限于工具,而将成为协作中的重要一环,推动办公方式的全面升级。

相关阅读:

https://asana.com/product/ai


AI能否治愈孤独?Manifest的"数字良药"实验


在现代社会中,孤独感愈加蔓延,尤其在Z世代中表现尤为明显。Manifest的创始人Amy Wu正致力于用人工智能来缓解这一问题,推出了一款面向年轻人的AI心理健康应用。根据Cigna的一项调查,约60%的成年人和73%的18-22岁年轻人表示有时或经常感到孤独。Wu表示,教育体系未能为学生提供必要的情感支持工具,使许多人在迈入职场后感到无所适从,这也成为她开发Manifest的动机。


Manifest的核心功能是一个AI助手,用户可以通过语音或文字与其互动。该AI根据用户情绪提供个性化的支持内容,如正向肯定语和冥想音频。当用户因失意而沮丧时,AI会回应鼓励性的语句,帮助用户重建自信。这一功能旨在使Manifest成为用户日常生活中的“口袋AI心理咨询师”。


作为消费级心理健康产品,Manifest也面临着伦理挑战。团队为AI设置了安全机制,以防止极端情况下用户受到伤害,例如在检测到自残倾向时会引导用户联系自杀热线。然而,这一做法也引发了外界的讨论,Nomi AI的创始人Alex Cardinell认为直接中断对话可能让需要情感支持的用户感到被疏远。


Manifest已获得包括a16z Speedrun在内的340万美元种子轮融资,并自上线以来已生成1870万条“宣言”。Wu相信,在专注于解决孤独问题的AI初创公司中,Manifest有潜力成长为独角兽。

相关阅读:

https://www.manifestapp.xyz/


好莱坞版LinkedIn?Shobizzy为影视行业自由职业者打造专属社交平台


在好莱坞,找工作往往依赖人脉,而不是技能。新应用Shobizzy试图改变这种局面,为影视行业自由职业者们提供更公平、高效的求职平台。作为一款专为电影和电视行业的自由职业者设计的社交网络应用,Shobizzy被称为“影视行业的LinkedIn”。该平台帮助摄影师、化妆师等各类专业人士轻松找到工作机会。


Shobizzy由前电影制片人Joachim "JC" Havard创立,深知行业人脉的重要性。他表示:“在影视行业,工作机会往往依赖于‘你认识谁’。我们希望通过Shobizzy改变这种状况。”Shobizzy的主要功能包括:用户可以展示个人简历、作品集和推荐信,制作公司也可发布职位空缺。平台会智能匹配用户的技能和经验,推荐合适的工作机会,同时还提供实时聊天功能,方便用户直接联系雇主或同行。此外,Shobizzy还向用户提供最新的影视行业资讯。


自2024年1月推出以来,Shobizzy已吸引超过10,000名用户,包括来自Netflix、Disney和Warner Bros.等知名公司的制作人。用户反馈积极,很多人通过Shobizzy找到了新的工作机会。未来,Shobizzy计划推出付费订阅服务,为高级用户提供优先推荐和高级数据分析等功能,并计划拓展至音乐、广告等创意行业。


Shobizzy的出现可能对影视行业人才市场产生深远影响:它能降低新人入行门槛、提高招聘效率、打破传统“熟人推荐”模式,推动行业多样性发展。同时,平台数据分析将帮助行业更好地理解人才供需趋势。

相关阅读:

https://techcrunch.com/2024/10/21/shobizzy-networking-app-for-freelancers-in-tv-film-industry/


Azar:重塑随机视频聊天,能否成为下一个Chatroulette?


总部位于首尔的随机视频聊天应用Azar,自推出以来已在全球促成了逾1000亿次视频聊天。Azar由约会巨头Match(旗下拥有Tinder、Hinge和OkCupid)推出,最近登陆美国市场,但它能否在这片市场摆脱前辈Chatroulette和Omegle留下的恶名,开创新的时代呢?


对于千禧一代而言,Chatroulette和Omegle曾代表着好奇与恐惧的结合,但也因频繁出现不雅内容而饱受诟病。去年,Omegle因涉及一起性贩运诉讼而关闭,而Chatroulette虽仍在运营,却已因负面形象深陷争议。然而,Azar的主要用户群是Z世代,他们对这些历史并无记忆。为营造安全的聊天环境,Azar结合AI审核和人工审核,以实时监控不雅内容。Azar首席执行官Linda Kim解释称,系统在检测到不当图像、音频或文本时,会立即触发人工审核员介入,确保用户体验的安全性。


尽管Azar隶属于Match集团,但它并非传统的约会应用。Azar主打实时、随意的聊天,满足Z世代用户对自发社交的需求。Azar支持网页和移动端使用,基本功能免费,用户可通过内购进一步筛选聊天对象。其文本聊天功能还具备自动翻译,便于语言不通的用户交流。


Kim也亲身参与其中,体验Azar的年轻用户群体互动。她在平台上偶尔以普通用户身份征询建议,以了解用户体验。尽管曾管理App Store的社交和游戏应用类别,并在Zynga等知名企业积累经验,Kim现今的目标是解决Z世代用户的孤独问题,这也是Azar吸引年轻用户的主要原因。

相关阅读:

https://techcrunch.com/2024/10/19/matchs-random-video-chat-app-azar-could-be-the-next-chatroulette-for-better-or-for-worse/



交叉与创新


施密特的量子AI创企SandboxAQ再融资,估值望达50亿美元


量子AI初创企业SandboxAQ正在寻求新一轮融资,估值或将突破50亿美元。该公司由谷歌母公司Alphabet的量子AI部门独立出来,由前谷歌CEO埃里克·施密特担任董事长,X Prize董事会成员Jack Hidary出任CEO。自2022年3月独立以来,SandboxAQ在2023年2月获得了5亿美元融资,吸引了诸如Breyer Capital和T. Rowe Price等知名投资机构的支持。


SandboxAQ专注于量子计算和人工智能的交叉应用,尽管不直接制造量子计算机,但其开发的软件可以模拟分子行为,支持量子计算设备的兼容。CEO Hidary指出,公司正转向大型定量模型(LQM)领域,通过基于方程生成数据的方式提高数据生成的效率和准确性。这一定位使SandboxAQ的产品在生命科学、材料科学、导航、加密和网络安全等领域找到广泛应用。


目前,SandboxAQ已建立了一系列重要合作,包括与Novonix公司研究电池寿命、为美国空军开发不依赖GPS的磁导航系统、以及与多家医院合作开发用于心脏病成像的“磁心电图系统”。在技术实现方面,SandboxAQ可能应用了量子机器学习、量子优化、量子模拟等技术,通过量子计算加速算法优化,推动新型量子AI应用的发展。


SandboxAQ的高估值和广泛应用吸引了众多投资者的关注,多个专用投资工具(SPV)已为其股票而设立。凭借量子AI的独特技术路线和广泛的市场需求,SandboxAQ有望在AI领域再创辉煌,成为下一个独角兽企业。

相关阅读:

https://techcrunch.com/2024/10/18/eric-schmidts-sandboxaq-aims-for-5b-valuation-for-its-ai-quantum-google-moonshot/


人工智能遇上"和声斗篷":音乐创作者的新保护伞


随着人工智能在音乐创作领域的飞速发展,一项名为"HarmonyCloak"(和声斗篷)的新技术为音乐创作者带来了版权保护的新方案。这项由田纳西大学和理海大学的研究人员开发的技术,能够使音乐作品对生成式AI模型“不可学习”,但不影响人类听众的体验。近年来,AI音乐生成技术取得了长足进展,甚至成功完成了贝多芬的第十交响曲,然而,这种进步也带来了版权方面的挑战。AI公司在训练模型时常常忽略版权限制,未经授权使用音乐作品,侵犯了音乐创作者的权益。


HarmonyCloak的核心原理是利用生成式AI模型的学习机制,通过在音乐中加入微小扰动(perturbations),使AI误以为该音乐已学习过,从而阻止模型从中学习。这些扰动基于人类听觉的特点设计,不影响人类对音乐的正常欣赏,但能够显著干扰AI的学习过程。研究团队在实验中发现,HarmonyCloak处理后的音乐不仅被31名志愿者认为与原始音乐同样悦耳,还有效降低了AI生成的音乐质量。


从技术角度来看,HarmonyCloak在不同声道和频率上巧妙加入扰动,构成一种特殊的“水印”,干扰AI模型的卷积和循环神经网络,但对人类听觉系统影响甚微。未来,这项技术在版权保护、AI伦理和AI对抗性设计等领域具有广泛的应用前景。HarmonyCloak不仅有望推动音乐版权保护的发展,还可能促使AI技术在数据使用方面更注重伦理规范。尽管面临着未来AI技术可能突破此保护机制的挑战,HarmonyCloak依然为音乐创作者提供了强有力的保护手段,也为AI与艺术的和谐共存提供了新的探索路径。

相关阅读:

https://techxplore.com/news/2024-10-tool-songs-unlearnable-generative-ai.html


人工智能的元认知能力:ChatGPT能否预测人类记忆?


人工智能技术的迅猛发展,尤其是大型语言模型(LLMs)的出现,让我们对机器智能的认知能力有了全新视角。然而,这些模型是否具备类人的思维?能否像人类一样对自身认知过程进行监控和调节?德国图宾根知识媒体研究所的Markus Huff和Elanur Ulakçı的最新研究,试图揭示ChatGPT在预测人类记忆方面的元认知能力。


研究设计了一种跨智能体预测模型,比较人类与ChatGPT在语言记忆任务中的表现。人类被试需要评估某些带有歧义的garden-path句子的语境相关性,并预测自己对这些句子的记忆情况,随后接受意外的识别记忆测试。而ChatGPT则以类似方式对相同句子进行相关性和可记忆性评估。


研究结果显示,人类被试的可记忆性评分与其实际记忆表现呈显著正相关,说明人类可以可靠地预测自己的记忆情况。而ChatGPT的预测评分与人类的实际记忆表现没有显著关联。进一步分析表明,GPT-3.5、GPT-4和GPT-4o均无法在单个项目层面准确预测人类的记忆表现。


这项研究表明,尽管LLMs在语言处理方面展现出类似人类的能力,但在元认知层面,即认知过程监控方面,仍存在显著差异。人类能够依据信息的内在特性预测未来的记忆表现,而LLMs缺乏这一元认知机制。研究者指出,弥补AI在自我监控能力上的不足对于提升人机交互质量具有重要意义。


整体来看,这项研究揭示了现有人工智能在元认知能力上的局限,为未来研究提供了重要方向。随着认知科学与人工智能的不断融合,拥有自我意识和内省能力的AI系统或许会在未来成为现实,助力人类探索自身的认知奥秘。

相关阅读:

https://arxiv.org/pdf/2410.13392


从观察者到智能体:物理学与智能科学的奇妙融合


近期一项研究提出了“Ω\OmegaΩ理论”,尝试将物理学和智能科学融合在一个全新框架中,为理解宇宙和智能的演化提供了新的视角。该理论基于一个统一的智能体模型,将智能体定义为具备信息输入、输出、存储、创造和控制能力的系统,形成智能信息处理的闭环。任何系统在此框架下都可以被视为一个智能体,并根据其信息处理能力进行动态演化。


研究提出了智能体的两种极端状态:绝对零智能体(α\alphaα点)和全知全能智能体(Ω\OmegaΩ点)。在这两个极端状态之间,智能体在α\alphaα引力和Ω\OmegaΩ引力的共同作用下动态演化,形成智能体演化的一般模型。而在宇宙层面,宇宙也被视为一个智能体,在α\alphaα场和Ω\OmegaΩ场的影响下不断演化,利用全球势差这一工具探索不同状态演化的方向。


该理论的另一个亮点在于观察者和智能体的统一性。物理学中的观察者,从经典力学的旁观者到量子力学中的关键角色,逐步演变为特殊的智能体,体现出在不同物理理论中的一致性。此外,四大基本力在α\alphaα和Ω\OmegaΩ引力下被重新定义为智力量的表现形式,这一统一视角进一步拉近了力学与智能演化的联系。

相关阅读:

https://www.preprints.org/manuscript/202410.0479/v1


从约束优化视角解读自然智能的进化之路


大自然作为“设计师”,在亿万年进化中,通过资源约束不断优化生物智能系统,使其能在复杂环境中生存。乌克兰国立航空大学的Serge Dolgikh教授在最新研究中提出了一个基于约束优化的理论框架,认为自然智能的进化本质上是一个受资源约束的优化过程。生物智能系统必须在记忆、计算、能量等有限资源的约束下,最大化其内部状态与外部环境的互信息,以增强环境适应性。


研究指出,生物智能面临三大基本资源限制:记忆资源限制要求系统对感知数据进行压缩存储;计算能力限制则需将输入分类以提高处理效率;而能量和物质限制则约束系统的运行,确保其符合物理条件。借助“信息适应度”这一衡量标准,论文展示了不同适应度水平下智能系统的生存优势,并通过“高效复杂性”原则,解释了神经网络结构为何在自然界中普遍存在。结构变异与能量成本的平衡使得系统在适应环境变化的同时保持灵活性,进一步推动了生物神经网络的演化。


此外,研究还分析了集体智能的倍增效应:通过信息传递,群体智能能够显著增强,这解释了为何许多物种选择群居,以共享经验并提升整体适应力。该研究为人工智能提供了新启示——约束不仅是限制,更是推动创新的动力。在构建更高效的AI时,可能应优先考虑如何在资源约束下实现最佳解,而不仅仅依赖于提升计算能力。

相关阅读:

https://arxiv.org/abs/2410.13881


DeepMind推出“谈话者-推理者”框架,AI代理迎来“快慢思维”时代


Google DeepMind近日发布了一项突破性研究,将诺贝尔经济学奖得主丹尼尔·卡尼曼的“快慢思维”理论引入AI代理,推出了名为“谈话者-推理者”(Talker-Reasoner)的双系统框架。这一系统旨在赋予AI代理兼具快速反应和深度推理的能力,以应对复杂任务。


在该框架中,“谈话者”代表系统1,负责快速的直觉反应,确保对话的流畅性和连贯性;而“推理者”则担任系统2的角色,在后台进行深度分析和多步推理,从而为复杂问题提供更全面的解决方案。整个工作流程包括以下几个步骤:首先,当用户提出查询或指令时,“谈话者”会快速处理输入,提供即时反馈,保持对话顺畅;随后,“推理者”在后台对输入进行深入分析,包括调用外部工具、检索信息和进行多步推理等,将分析结果存储在共享的记忆池中,供“谈话者”随时参考,以便在后续对话中补充或修正回答。此外,系统还具备动态交互和协调功能,“推理者”可以在必要时中断“谈话者”对话,提供更准确的回应。


这一双系统架构显著提升了AI代理的反应速度和对话流畅度,使其能够在快速响应的同时进行复杂推理。在测试中,研究团队应用这一框架于睡眠辅导AI助手,结果显示该系统不仅能够提供自然流畅的对话体验,还能生成个性化的睡眠建议。


尽管如此,研究人员也面临一些挑战,如如何在“谈话者”和“推理者”之间实现平衡,确保两者之间的高效信息传递。未来,这种模仿人类认知过程的AI架构或将带来革命性变革,广泛应用于客户服务、教育辅导、医疗诊断等多个领域,为人类提供更智能的支持和服务。

相关阅读:

https://venturebeat.com/ai/deepminds-talker-reasoner-framework-brings-system-2-thinking-to-ai-agents/


让AI像蜘蛛一样编织记忆之网 - HG2P智能体的启示


受粘菌高效路径选择能力的启发,研究人员开发了HG2P(Hippocampus-inspired High-reward Graph and Model-free Q-Gradient Penalty)算法,使AI智能体也能够像蜘蛛一样“编织”出记忆网络。HG2P借鉴了生物大脑中的导航系统,尤其是海马体的结构,通过记录高回报的路径信息来提高任务效率。


该算法的两大创新在于高回报采样策略和无模型Q梯度惩罚。前者通过优先保存高回报轨迹,帮助AI更快找到最佳路径;后者则通过Q梯度惩罚,限制智能体的激进行为,使探索过程更加稳定。在实验中,HG2P通过对关键路标点的选择和连接,构建出类似蜘蛛网的记忆地图,令智能体在迷宫和复杂任务中的成功率提高了20%,学习效率提升了约30%。


HG2P还引入了温度参数α来调节记忆精度。当α较小时,AI更关注成功经验;当α较大时,记忆会更具包容性,保留多种经验。实验表明,在α=0.1时,HG2P能在效率与稳健性之间取得理想平衡。


不过,HG2P的计算成本较高,训练时间比传统算法长约50%,并主要适用于导航任务,对完全随机环境的泛化能力仍有待提升。该研究表明,以生物学机制为基础的分层记忆系统为AI带来了新的方向,有望在未来提高AI系统的记忆组织与利用效率。

相关阅读:

https://arxiv.org/abs/2410.09505


解密“张量大脑”:从感知到符号的认知革命


在人工智能与认知科学的交叉领域,张量大脑模型(Tensor Brain, TB)为理解人类大脑如何感知、记忆和推理提供了一种新的统一计算框架。TB模型的双层结构包括“表示层”(Representation Layer)和“索引层”(Index Layer),模拟了信息交流和符号存储。表示层是认知内容传播的中心,被称为“认知大脑状态”(CBS),而索引层则存储符号信息,如概念和时间实例,支持语义记忆。


每个概念通过嵌入向量连接索引层与表示层,类似概念的“DNA”。该模型通过符号生成和内在语言进行自然语言处理,并支持多模态信息处理,不同感官输入在表示层中占据不同维度,从而实现跨模态推理。


张量大脑利用自监督学习优化嵌入向量,通过感知生成标签进行训练,记忆系统则分为情景记忆和语义记忆。情景记忆存储过去事件,语义记忆则存储事实知识,两者共享架构,并通过索引检索。


TB模型还具备嵌入推理和符号推理的能力,可以在概念间建立联系,实现复杂的信息处理。这种能力使其不仅能理解当前输入,还能预测未来情景。例如,TB模型认为工作记忆的容量与CBS数量有关,而创造性思维则源于不同概念嵌入向量之间的新关联。

相关阅读:

https://doi.org/10.48550/arXiv.2409.12846


系统0思维:人工智能如何重塑我们的认知世界


在人工智能日益深入生活的背景下,人类的思维模式正在发生深刻变化。最近发表在《自然·人类行为》的一篇通讯文章提出了“系统0”思维的概念,指出人机交互正催生出一种全新的认知系统。传统心理学上,人类思维分为系统1(直觉思维)和系统2(分析思维),而系统0则是借助人工智能处理复杂计算任务的思维方式,它以人类与AI互动为基础,是一种动态且个性化的认知接口。


系统0的特征在于,它不仅作为信息的预处理器和增强器,还能主动调整输入,超越了单纯的认知扩展。学者们将系统0视为人类心智的延伸,这一观点基于“扩展心智”假说,认为系统0在信息流、可靠性、持久性和个性化等方面表现出色。例如,它能通过双向的信息流确保高效交流,提供的输出通常精准而可靠,逐渐成为人类决策过程的重要工具。


然而,系统0也有显著的局限性。它缺乏内在的意义创造能力,对数据的理解完全依赖人类的解释。同时,系统0的崛起也带来一些挑战,包括认知独立性、批判性思维和数据质量等问题。人们担心过度依赖AI可能会削弱独立判断能力,尤其是在自我反省等传统属于人类独立性的领域,AI输出的洞见是否会影响我们对自身的认知。未来,如何平衡系统0的应用与人类独立思维的保持,将是一个重要的研究方向。

相关阅读:

https://doi.org/10.1038/s41562-024-01995-5




关于追问nextquestion

天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。如果您有进一步想要讨论的内容,欢迎评论区留言,或添加小助手微信questionlab,加入社群与我们互动。

关于天桥脑科学研究院

天桥脑科学研究院(Tianqiao and  Chrissy Chen Institute, TCCl)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。

TCCI与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了TCCI加州理工神经科学研究院。

TCCI建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括学术会议和交流夏校培训AI驱动科学大奖、科研型临床医生奖励计划、特殊病例社区、中文媒体追问等。

追问nextquestion
科研就是不断探索问题的边界
 最新文章