不服就干!谷歌重磅新品三连发反击OpenAI玩ChatGPT搜索

科技   2024-12-17 19:14   北京  

文丨都保杰

今天的国际人工智能圈格外热闹。
OpenAI向谷歌亮刀要从搜索市场切蛋糕,谷歌这边一系列操作表示你还是too young too simple,sometimes naive,让你见识下哥真正的实力!

人工智能领域的两大领先公司开始了真正的白热化对垒。
憋到第8天的野心
OpenAI在连续12天上新的第8天,他们团队起了个简单却又野心勃勃的主题名:ChatGPT Search Day,正式开挖谷歌墙角。
ChatGPT搜索今天开始向所有用户免费推出,官方说能以更快、更好的方式搜索网络——目前可通过http://chatgpt.com及移动或桌面应用程序登录使用。
直播间的发布人员称:当你使用ChatGPT作为浏览器中的默认搜索引擎时,可以更快地到达网络上想要访问的地方。
简单来说就是,以前的搜索方式很笨,而这个ChatGPT搜索引擎能分析你输入的搜索需求,然后帮你分类汇总你可能想要的结果,省得你翻来翻去浪费时间。
不仅如此,他‍们还在移动应用程序中向ChatGPT添加了地图,以便用户可以用聊天的方式搜索了解当地餐馆和企业的最新动态信息。
此外,真正高智商的掌上AI小助手也即将上线,跟Siri那种低智商瓜菜助手体验截然不同,使用ChatGPT中的高级语音进行搜索,将于下周很快推出。
直播结束后,CEO萨姆·奥尔特曼 (Sam Altman)都忍不住发帖称赞:“随着ChatGPT搜索在全球范围内推出,谷歌正式成为2024年的搜索引擎??如果你需要任何与人工智能相关的内容,请随时咨询我们——我们在这方面做得更好。”

听这话里话外的意思,是要把称霸搜索领域这么多年的谷歌变成过去式的节奏。
对于OpenAI的粉丝而言,没有Sam在桌边的发布会本来都不想看来着,因为直觉认为会没啥重磅的东西,谁知道事实却相反。
有粉丝表示,这不是一个引人注目的人工智能突破,但可能是一次重要的战略更新。
对于非常普通的用户(即大多数服务的最大用户群体)来说,这是一个很好的QOL(生活质量)升级,一旦上手会使那些用户不太愿意去其他地方搜索(如谷歌),而且老实说,高级语音模式下的搜索实际上非常棒。
相对于许多其他搜索引擎来说,ChatGPT更好的一点在于它可以从多个来源收集信息并回答你的确切问题,这是搜索的未来,谷歌必须做出应对和改变。
不过,粉丝们对于剩下几天新品发布的期待值还是比较高的,认为Open AI团队仍需要在本周宣布一些重大消息,搜索功能旨在抢占谷歌的市场份额,但如果不宣布更强的AI代理或GPT4.5,那么考虑到谷歌最新展示的产品性能,局面可能会将恰恰相反。
换句话说就是,你想去谷歌地盘偷塔,谷歌可能要一鼓作气干爆你的老巢水晶了,然后再升级一下自己的塔,现在到了真正比拼操作手法的时候。
谷歌三张飞牌秀肌肉
正在ChatGPT Search这边刚刚出炉还没散去热气儿,谷歌那边CEO桑达尔·皮柴(Sundar Pichai)抛出压箱底儿的好东西炸了锅。

最亮眼的是谷歌新推出的先进视频模型Veo 2,该模型实现了对现实世界的物理和运动有更好的理解,可生成分辨率高达4K的AI视频。
在社交媒体上,第三方评测人员表示输出效果令人大吃一惊,因为Veo 2生成的样本视频比OpenAI最新发布的Sora更加出色,生成了令人印象深刻的AI视频,在与竞品正面比较中一马当先。
亮点在于,Veo 2能更好地理解现实世界的物理现象以及人类动作和表情的细微差别,有助于整体改善细节和真实感。此外,这个模型了解电影摄影的独特语言:要求它指定类型、指定镜头、建议电影效果,Veo 2就能提供这些效果——分辨率高达4K,长度可延长至几分钟。

例如在提示中建议“18mm镜头”,Veo 2就会知道如何制作这种镜头所擅长的广角镜头,或者通过在提示中输入“浅景深”来模糊背景并聚焦于拍摄对象。
此外,AI视频模型经常会出现“幻觉”和奇葩怪异细节的通病(例如多余的手指或意外动作、物体等)被优化的差不多了,Veo 2出现这些错误细节的频率较低,从而使输出的视频更加逼真。
来自网友的评测中切西红柿的画面令人印象深刻,下面这个是谷歌Veo 2生成的视频,几乎看不出是AI生成的:
而OpenAI模型Sora生成的视频就有亿点点翻车,都切到手了:
来自网友的多个视频模型进行“AI切牛排”挑战,谷歌Veo 2的输出效果也是明显要好上不少,其他的模型手部动作或刀法多多少少都有点奇怪。
Veo 2甚至还克服了运动过程中常见的肢体扭曲违和瓶颈,比如滑雪,变得非常丝滑。
不仅如此,谷歌还拿出了最新一代的图像生成模型Imagen3以及一款有趣的新工具Whisk。
关于Imagen3,实现更准确地渲染更多不同的艺术风格——从照片写实主义到印象派,从抽象到动漫,此次升级还可以更忠实地遵循提示,并渲染更丰富的细节和纹理。
Whisk则是Google实验室的最新实验,它允许输入或创建能够表达用户心中主题、场景和风格的图像,然后,用户可以将它们组合在一起并重新混合,以创建属于自己的独特作品。
底层技术上,Whis将最新的Imagen 3模型与Gemini的视觉理解和描述功能深入结合了一下,让修图只是一句话的事儿,很难想象这样的工具跟设计软件结合一下会有多方便。

对于谷歌的新动作,网友表示,谷歌已正式扭转对OpenAI的局面。
“进一步说,你是否感觉到谷歌即将对OpenAI采取行动,就像它在90年代对雅虎所做的那样。我有一种强烈的感觉,谷歌很快就会在GenAI、LLM领域击败所有竞争对手。”reddit网友如是说。
PK进入新阶段
就在几天前,OpenAI新推出的Sora生成的一段翻车视频在社交媒体上疯传,AI生成视频中一名体操运动员在自由体操动作时长出了额外的肢体,并短暂失去了头部,场面十分吓人。

合成错误是当前AI生成视频的典型特征,开发者称之为“jabberwockies”。
风险投资家Deedy Das在社交媒体评论此怪异视频时调侃:“虽然最新的Sora很酷,但体操运用仍然是AI视频界的图灵测试。
对于制作这些模型的工程师来说,AI生成视频火热很快就变成了一个问题,即需要多少示例以及多少训练才能使模型能够足够泛化以产生令人信服和连贯的结果,这也是一个元数据质量的问题——视频的标签有多准确。
OpenAI的GPT-4等语言模型给用户留下深刻印象的关键原因之一是它们最终达到了一定的规模,吸收了足够多的信息,让人觉得AI模型已经理解了世界,但通过视频合成,要达到同样的“理解”水平,不仅需要大量标记良好的训练数据,还需要有效处理这些数据的计算能力。
从目前的推进结果来看,谷歌先行一步走在了OpenAI前面,打碎了OpenAI的先发优越感。
未来几天,OpenAI还有没有重磅底牌拿出来让市场为之振奋,一起期待吧。
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信
如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会!
欢迎扫描下方二维码,加头部科技创始人、AI头号玩家俱乐部主理人晶总微信!

头部科技
头部科技是技术新世界的记录者、探索者和推动者。我们致力于普及细分场景的科技解决方案,打造科技和人才创新知识图谱。无论你身处技术公司或传统行业,在这里都可以找到智能化、数字化升级的案例和伙伴。在无限的时空中,和你共同探索科技原力是我们的荣光。
 最新文章