首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
Gemini的数据分析能力不像谷歌所宣称的那么好
财富
2024-07-02 16:01
北京
//
Gemini 1.5 Pro和1.5 Flash在基于文档的测试中的正确率只有40%-50%,有时甚至不如随机猜测。
谷歌旗舰生成式AI模型Gemini 1.5 Pro和1.5 Flash的一个卖点是它们据称能够处理和分析大量数据。
在新闻发布会和演示中,谷歌一再声称这些模型能够完成以前无法实现的任务,凭借其“长上下文”,可以总
结数
百页的文档或在电影片段中搜索场景。
但新的研究表明,这些模型实际上并不擅长这些任务。
两项独立研究调查了谷歌的Gemini模型以及其他模型在理解大量数据方面的表现,想象一下《战争与和平》长度的作品。研究发现,Gemini 1.5 Pro和1.5 Flash在回答关于大型数据集的问题时表现不佳;
在一系列基于文档的测试中,这些模型只有40%-50%的时间能给出正确答案。
“尽管像Gemini 1.5 Pro这样的模型从技术上可以处理长上下文,但我们看到许多案例表明,这些模型实际上并没有‘理解’内容,”马萨诸塞大学阿默斯特分校的博士后研究员、其中一项研究的共同作者玛尔泽娜·卡尔平斯卡在接受采访时表示。
1
Gemini的上下文窗口不足
一个模型的上下文或上下文窗口,指的是模型在生成输出(例如附加文本)之前考虑的输入数据(例如文本)。一个简单的问题——“谁赢得了2020年美国总统选举?”可以作为上下文,同样的,一个电影剧本、节目或音频片段也可以作为上下文。随着上下文窗口的增长,适应其中的文档大小也会随之增加。
最新版本的Gemini可以接受超过200万个token作为上下文。(“token”是原始数据的细分部分,例如单词“fantastic”中的音节“fan”、“tas”和“tic”。)这相当于大约140万个单词、两小时的视频或22小时的音频——是任何商业可用模型中最大的上下文。
在今年早些时候的一次简报中,谷歌展示了几段预录的演示,以说明Gemini长上下文功能的潜力。其中一个演示中,Gemini 1.5 Pro搜索了阿波罗11号登月广播的文字记录——大约402页——寻找包含笑话的引用,然后在广播中找到一个看起来像铅笔素描的场景。
谷歌DeepMind研究副总裁奥里奥尔·维尼亚尔斯在简报中描述该模型为“神奇”。
“[1.5 Pro]在每一页、每一个字上执行这种推理任务,”他说。
这可能是夸大其词。
在前述研究之一中,卡尔平斯卡与来自艾伦人工智能研究所和普林斯顿大学的研究人员一起,要求模型评估关于英文小说的真假陈述。研究人员选择了最近的作品,以防止模型通过预先知识“作弊”,并在陈述中加入了具体细节和情节点的引用,这些细节只有通读全书才能理解。
给出类似于“通过使用她作为药剂师的技能,努西斯能够逆向工程由罗娜的木箱中发现的试剂钥匙打开的传送门类型”这样的陈述后,Gemini 1.5 Pro和1.5 Flas
h,在阅读了相关书籍后,必须判断陈述是真还是假,并解释其推理过程。
在测试一本大约26万字(约520页)的书籍时,研究人员发现Gemini 1.5 Pro正确回答真假陈述的比例为46.7%,而Flash仅为20%。这意味着,用硬币抛掷来回答关于这本书的问题,其准确性都比谷歌最新的机器学习模型要高。综合所有基准测试结果,两种模型在回答问题的准确性上均未能高于随机猜测的水平。
“我们注意到,与可以通过检索句子级别证据来解决
的陈述相比,模型在验证需要考虑书中较大部分内容甚至整本书的陈述时更加困难,”卡尔平斯卡说。“从质上看,我们还观察到,模型在验证关于人类读者可以明确理解但未在文本中明确说明的隐含信息的陈述时,表现得尤为吃力。”
第二项研究由加州大学圣巴巴拉分校的研究人员共同撰写,测试了Gemini 1.5 Flash(但未测试1.5 Pro)对视频内容的“推理”能力,即搜索并回答有关视频内容的问题。
共同作者创建了一个图像数据集(例如,生日蛋糕的照片),并附上了关于图像中对象的问题(例如,“这个蛋糕上是哪部动画片的角色?”)。为了评估模型,他们随机挑选一张图片,并在其前后插入“干扰”图片,创建类似幻灯片的片段。
Flash的表现并不理想。在一次测试中,模型需要从包含25张图片的“幻灯片”中抄写六个手写数字,Flash正确率约为50%。当需要抄写八个数字时,准确率下降到约30%。
“在真实的图像问答任务中,我们测试的所有模型都特别困难,”加州大学圣巴巴拉分校的博士生、该研究的共同作者迈克尔·萨克森告诉笔者。“那一点点的推理,识别出数字在一个框架中并读取它可能是让模型崩溃的原因。”
2
谷歌在Gemini上的承诺过高
尽管这两项研究尚未经过同行评审,也没有针对Gemini 1.5 Pro和1.5 Flash的200万token上下文版本进行深入探讨(两者测试的是100万token上下文版本)。而且,Flash在性能方面并不如Pro强大,谷歌将其宣传为一种低成本替代品。
尽管如此,这两项研究还是为谷歌从一开始就对Gemini进行过度承诺而未能兑现的说法增添了证据。研究人员测试的所有模型,包括OpenAI的GPT-4和Anthropic的Claude 3.5 Sonnet,表现都不佳。但谷歌是唯一一个在广告中强调上下文窗口大小的模型提供商。
总的来看,尽管谷歌在宣传Gemini时大力强调其上下文处理能力,但实际表现并未达到预期,用户在选择和使用这些工具时应保持谨慎。
“基于客观技术细节,声称‘我们的模型可以处理X数量的tokens’并没有错,”迈克尔·萨克森说。“但问题是,你能用它做什么有用的事情?”
总体来说,生成式AI正面临越来越多的审视,因为企业和投资者对这项技术的局限性感到沮丧。
在波士顿咨询公司最近的两项调查中,大约一半的受访者都是公司高管表示,他们不认为生成式AI会带来实质性的生产力提升,并且担心生成式AI工具可能带来的错误和数据泄露风险。PitchBook最近报告称,连续两个季度,生成式AI在最早阶段的交易活动下降了76%,从2023年第三季度的峰值骤降。
面对能够总结会议但会凭空捏造人物细节的聊天机器人和基本上等同于抄袭生成器的AI搜索平台,客户正在寻找有前途的差异化工具。谷歌有时笨拙地努力追赶其生成式AI竞争对手,迫切希望将Gemini的上下文处理能力作为其中一个差异化点。
然而,从现有研究和用户反馈来看,谷歌的Gemini在实际应用中并未达到预期效果。虽然其上下文窗口在技术上确实可以处理大量tokens,但在实际任务中的表现却未能令人满意。这种落差使得客户和投资者对生成式AI的信心有所动摇,企业在选择这些工具时也变得更加谨慎。生成式AI的发展仍需克服许多挑战,才能真正实现其潜力。
但这种押注似乎为时过早。
“我们尚未找到真正展示‘推理’或‘理解’长文档的方法,基本上每个发布这些模型的团队都在拼凑他们自己的临时评估来支持这些说法,”卡尔平斯卡说。“在不知道长上下文处理如何实现的情况下,而公司并不会分享这些细节,很难说这些说法有
多现实。”
谷歌对此未予置评。
萨克森和卡尔平斯卡都认为,解决生成式AI夸大其词问题的解药是更好的基准测试,以及对第三方批评的更大重视。萨克森指出,谷歌在其营销材料中大量引用的“干草堆中的针”测试,仅测量模型从数据集中检索特定信息(如名字和数字)的能力,而不是回答关于这些信息的复杂问题。
“所有使用这些模型的科学家和大多数工程师基本
上都同意我们现有的基准文化是有问题的,”萨克森说,“因此,重要的是公众要理解这些包含‘跨基准的一般智能’等数字的巨型报告应该被大打折扣地看待。”
总的来说,尽管生成式AI技术有着巨大的潜力,但现有的评估方法和实际表现之间存在很大差距。这意味着企业和公众在面对这些技术的宣传时需要更加谨慎,并依赖独立的第三方评估来获得更真实的性能表现。谷歌在Gemini模型上的承诺虽然引人注目,但仍需更多的验证和改进。
AI新智能
一个致力于探索人工智能对商业世界和社会影响的平台。
最新文章
OpenAI正式推出Sora Turbo
OpenAI推出全新O1模型,支持图片上传与分析,同时发布ChatGPT专业版
AWS将多代理编排功能引入Bedrock
人工智能代理入门(下):自主性、保障措施和陷阱
人工智能代理入门(上):捕获流程、角色和连接
马斯克与OpenAI分手的复杂内幕
人工智能开启Web4.0时代:互联网将具备自主预测、计划和行动能力
AI如何重塑我们的思维方式?
多智能体将缩短大型语言模型与通用人工智能之间的差距
谷歌将推出接管电脑的人工智能技术
这家公司洞悉了AI商业化的秘密,CEO揭示其秘诀
被马斯克开除的前Twitter CEO,官宣了自己的人工智能创业项目
《纽约时报》的律师们在一个秘密房间里检查OpenAI的源代码
首个被人工智能重塑的城市
被撕裂的OpenAI
雷朋AI眼镜是目前已知的最佳人工智能硬件
为何开发者们纷纷弃用谷歌Gemini
GPT5暂时没戏了
苹果的AI手机没有任何亮点,难怪巴菲特提前把股票卖了
硅谷风投推荐的2024人工智能创业公司(内含商业模式)
一家AI诊所在伦敦开业了
代币价格大崩溃,人工智能将出现巨大赢家和输家
世界呼叫中心之都陷入AI狂热与恐惧之中
文远知行在最后关头推迟美股IPO
美国无人出租车现在每周提供10万次服务
GPU经济学:如何在“不破产”的情况下训练AI模型
苹果计划推出AI桌面机器人
人工智能的训练数据正在枯竭,合成数据引发巨大争议
马斯克曾考虑收购Character.AI
黑芝麻科技IPO首日暴跌35%
星野海外版—Talkie火爆美国,年轻人可以与川普、马斯克聊天
OpenAI 需马上融资,今年预计巨亏50亿美元
2024年吸引到顶级风投的28家人工智能公司名单
苹果公司将以观察员身份加入OpenAI董事会
Gemini的数据分析能力不像谷歌所宣称的那么好
AI“搬砖王”的崛起
大模型集体“用户焦虑”,豆包能否不靠字节赢一次?
这家眼镜公司成了AI巨头追捧的对象
Anthropic 的 Claude 3.5 表明:大模型还有提升空间
DeepMind推出新型AI,为视频生成音轨和对话
人工智能的负效应:没有大语言模型的语种未来会消亡
MiniMax在海外的AI陪聊产品,爆了!
30万个AI助理,正排队等待召唤
奥特曼围绕OpenAI打造出一个致富帝国
投资人依然愿意为AI搜索引擎付费
当ChatGPT的广东话“讲唔正”:AI 年代,低资源语言是否注定被边缘化?
来看看微软是如何将Windows打造成AI操作系统的
大模型“价格战”开打,给刚入商业化“佳境”的智谱AI提出了新挑战
奥特曼刚对首席科学家伊利亚的离职表示感谢,马上又有一位OpenAI高管辞职了
谷歌I/O 2024刚刚宣布的所有产品
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉