Gemini 2.0是头猛兽,冲AI代理来的
这真不是我说的,是看到X上一个老哥说的。这里说的monster,不是和O1相比谁做数学奥赛题厉害,而是在AI代理的商业赛道上PK谁是“天选之子”。
确实看过介绍,到谷歌的AI Studio里去玩了一下,也是这个感觉。
这在以前好像是个无解的问题。因为AI代理要用大模型做大脑,处理麻烦一点的任务就要分步骤、要推理,“大脑”智商不够就会卡壳,智商高了步骤多了,再来个多模态,token价格就会贵,响应也会慢。总之不好平衡。
Gemini 2.0这次推的是Flash,而且不像OpenAI推了个圣诞全家桶,推且只推Flash,可能只有Flash才能在这三项测试中得高分。
先谈价格,这里说的是模型API价格,才有可比性。
端出Flash就是告诉大家敞开了随便用,贵不了,Flash在Gemini系列中算是中档(我谷歌云上看到的价格是0.3美元/百万token),1.5Flash是我的主力模型,我天天开足马力翻译英文资料一个月也才用3美元左右,比gpt-4o-mini稍微贵点(0.15刀/百万token),但是相比Claude的Sonnet(3.75刀/百万token)感觉就像不要钱。 跑自主AI代理、还有多模态的代理,还是挺费钱的,记得去年在langchain上用gpt-3.5-turbo跑代理看着哗哗滚屏费了好多美刀跑出一个狗屁不通的答案,或是被卡死,那个上火!前不久Computer Use出来,也有点这个感觉,一个简单的搜索任务咣咣截屏、速度像蜗牛,跑下来一个小任务大几毛美金。(多模态任务,背后是Claude-sonnet便宜不了) 现在Gemini 2.0 Flash还是测试版,暂时还是免费,Gemini团队的头Logan在X上预告了1月份会切到正式版,在这之前其实可以多测试一下各种任务的token消耗。这次玩得比较猛,不管是Project Astra还是AI Studio都是主打声音视频双向实时交互,效果看起来很炸裂,但是要烧多少token,耗多少银子,也得心里有数。但总的来说这次在价格方面还是很有诚意,至少没给抬出一个sonnet或是o1,4o这一级的价位方案。 顺便说一下,发稿的时候,OpenAI也在12天发布的D6,在高级语音模式中开放了视频语音实时交互的新功能(这次被谷歌狠狠狙击了一把,出来混要还的),包含在Plus和Pro中的,有限量,不知道在API对外价格是否还有探底,但个人认为OpenAI还是会把资源放在核心服务会员上,会员包月比单卖API好卖,也划算。
再说性能,也就是模型在各种测试集上的得分:
一句话就是2.0Flash基本各项指标超过1.5Pro,尤其在数学(Math)和推理(Reasoning)上全面碾压上一代的Pro和Flash,有了这两项能力,做AI代理的大脑应该是合格的。
谷歌官方博客上还是自己和自己比,主管Logan在X上私下发了一个现在通行的编程任务SWE-Bench的得分是超过Coding上最强的Claude-3.5-sonnet的,这个说实话是有点超出预期的。遇到某些任务AI代理需要编码“手搓”工具,应该是手到擒来。模型编程的能力某种程度上和推理能力也是相通的。
有一点诡异的是在长上下文理解(Long Context),长文本处理方面,相比上一代的pro和flash都有些微下降,不知原因如何,但今天测试了最新的gemini-2.0-flash-exp在1万token左右的翻译任务上,看起来效果是略有上升的(其实之前已经不错了),可能只是少许影响更长的上下文任务,不知道对于AI代理的长程记忆是否会有影响。
看了Gemini2.0产品负责人接受专访,说到在调用原生工具上2.0做了专门的训练,其实就是让模型知道什么时候应该调工具什么时候靠自己,然后应该调什么工具最高效,有一堆工具怎么组合之类的,很多时候用户的提示并不很明确,要掌握这个边界其实不容易。之前很多人认为推理能力强的模型更适合做AI自主代理,但是crewAI的CEO亲自试O1,发现O1对自己的推理能力过于自信,容易推理来推理去,就是不调用工具,反而出错率更高。
有手快的Youtube博主,测试了一下2.0Flash,除了在需要深度自我反思的问题上会卡壳(比如问strewberry有几个‘r’,你的回答有几个单词之类,有点找茬和无聊的问题),其他的推理和算数问题都完美过关。
最后说速度,这个最直观:
官方说法是,速度是上一代pro的两倍。
虽然不像OpenAI直接把语音视频实时互动上到了消费者端,谷歌还是提前照顾开发者,在AI Studio中实际体验Stream Realtime交互(这个是基于Gemini 2.0 multimodal live API的),也就是一边给AI分享屏幕,然后一边和它语音对话,飞快而切顺畅,感觉不到让人不快的延迟。X上大家可能也主要在猛夸这一点,有个老哥掐表了:0.5秒,可以了。唯一有点不爽的是语音交互英语没问题,一说中文它就给你回日语!
语音对话,反应速度很快,但是语速有点慢,营养有点少,X上有个老哥让它语音指导自己在cursor上编程,等着它不紧不慢地说完,要崩溃了。
还有一个测试阶段的Project Mariner,也就是Claude Computer Use的谷歌版,前一阵Computer Use出来时,有人出来爆料这个,因为提前已经知道了,所以没什么惊喜,体验和Computer Use差不多,一样的慢得让人抓狂,只不过是在浏览器上而不是Docker容器里。
刚刚发布,好戏刚刚才开始,接下来这几天,可能能看到更多开发者对Gemini2.0的各种测试,可以在AI代理项目中深入测试一下gemini-2.0-flash-exp这个新模型的性能,初步测试翻译和摘要的能力是很炸裂的,等着看其他人的测试。