百度发布了一堆AI工具,但我只关心那副AI眼镜

文摘   科技   2024-11-12 20:02   上海  


从ChatGPT算起,大模型也火了1年多,但对于普通人来说,好像除了吃瓜,看发布会喊666外,没啥大用处。

人人都有私人助理,人人都能生产内容,这种畅想并没有实现。

有两个摆在明面的原因,首先大模型存在幻觉,这就导致了其始终没办法成为一个稳定的生产力工具,用来用去都觉得还不如自己手操。

其次,人工智能还是有门槛的,提示词写的好坏,参数该怎么调整,都会影响AI的能力,不然怎么那么多人工智能培训班。

只要这两个问题还存在,AI带来的美好幻想就只能是幻想,参加完百度世界2024大会后,硅基君看到了解决的希望。


文心大模型的日均调用量超15亿,年增长30倍百度的四大类智能体都很好用...这些常规的KPI展示环节没能引发什么互动,但李彦宏下一句话立刻让所有观众躁动起来——

“过去24个月,AI行业的最大变化是什么?是大模型基本消除了幻觉。”

幻觉问题是大模型广泛应用的最大限制之一,而解决文本生成幻觉问题背后的技术就是RAG(Retrieval - Augmented Generation),即检索增强。

基于RAG,大模型不会仅仅依赖模型内部已有的参数知识。它会外部知识库中检索相关的信息,然后,利用这些检索到的内容来帮助模型生成更准确、更有针对性的回答。

这样一来,大模型就可以避免生成与事实不符的内容,也就是没有幻觉。

但目前的RAG主要针对文字层面,在图片、视频等多模态领域做得还不够,这也就会导致生成的图片与实际不符。尤其是在生成大众熟悉的内容时候,比如东方明珠,名人画像等。一旦出现错误,会让人一眼看穿,非常影响AI的实用性。

百度开发了检索增强的文生图技术iRAG(image based RAG),将百度搜索的亿级图片资源跟强大的基础模型能力相结合,可以生成各种超真实的图片。

李彦宏现场展示了一幅由文心大模型生成的大众揽巡汽车飞跃长城的图片。通过文心iRAG技术,无论是这款特定型号汽车的车型车标都没有出错。


消除大模型的幻觉,也是AI应用爆发的基础。在李彦宏看来,今天,基础大模型能力就绪,即将迎来AI应用的群星闪耀时刻。

但是,AI应用哪有那么好做?只要上过手实操过的人都应该有这样的体会,为什么我的效果没有演示的好?仔细一看,别人喂的数据,写的代码提示词,和天书一样。

哪怕真的有一个很好的创意,但总不能只停留在AI阶段,得做成应用才能传播出去。

李彦宏也带来了解决方案——无代码工具“秒哒”,一款不需要写代码就能实现任意想法的软件,涵盖无代码编程、多智能体协作以及多工具调用等特点,只需说说话,就能构建出各种应用。

李彦宏以萝卜快跑新技术发布会为例,展示了活动报名系统的搭建过程:只要在“秒哒”上用中文描述需求,并补充一份带有大会时间地点主题的文档,就可以指挥多个智能体协作,完成报名系统的开发。

不知道大家还记不记得,曾经出现在实验室和论文中的AI公司,就是用大模型模拟成一个个员工,用户只需要发号施令,就可以有产出。

秒哒就是类似AI公司的工具。

上文的例子中,就由AI担任的项目经理、设计人员、开发人员、测试人员等,执行任务。也就是说,你只需要有想法,有创意,AI就能帮你完成,不会再受限于技术、人才等。

李彦宏表示,在AI的主力下,这是一个“只靠想法就能赚钱的时代。”


随着李彦宏的演讲结束,百度首席技术官王海峰介绍了文心大模型的用户规模已经达到了4.3亿,还解读了文心大模型最新技术及应用,如检索增强的文生图、无代码产品秒哒、文心快码等。

王海峰坚定的表示,文心大模型仍在持续训练中,更强大的新版本值得期待。


除了软件外,百度还带来了一款新的AI硬件——小度AI眼镜。

自从大模型出圈以来,AI硬件的故事就没有停过,从乏善可陈的rabbit r1到堪比“诈骗”的AI Pin,新奇的AI硬件不断出现。

AI硬件的理想的工作路径是“感知-推理-交互”,关键是如何解决感知问题,很多的产品都在这一块有所缺失。

首先就是一众类手机的AI 硬件,各种AI手机、rabbit r1等,这些产品在感知周围时候,需要用户刻意把产品拿起来,并进行拍照录像等,非常不自然。

而AI 项链、AI耳机等产品,缺少视觉上的感知,而且受限于产品体积,在交互上除了音频,没有其他更好的解决方案。典型的反面案例就是AI Pin,理想很美好,利用激光投影,但现在的技术并不完善。

那么在目前人们日常使用的产品中,还有什么?

眼镜。

在过去几个月里,国内对短期内AI的落地似乎迅速达成了共识,除了游戏之外,第二个就是眼睛。

在眼镜上装摄像头,视角合理,另外智能眼镜比全新的硬件更能被接受。而且在现有的技术下,做到无感添加AI的智能眼镜方式,小度智能眼镜是目前比较合适的答案。

广义上的智能眼睛大概可以分为三类,首先是苹果vision pro这种,性能配置高,功能复合了VR+AR,但这种方案会牺牲便携性,在没有完善的生态支持下很难普及。其实看看强如苹果都打算把vision pro生产线给砍了,就知道答案。

另一个是比较折中的方案,AR眼镜,相较于VR、和AI眼镜,取了一个折中的方案,主打轻量化、佩戴方便,但弱化功能性。

最后就是小度AI眼镜的形态,在保持眼镜的外观下,添加AI功能和相关硬件,只适配轻量级的AI功能,虽然肯定不是未来AI硬件的最终形态,但目前用户的可接受程度较高。比如meta与雷朋合作出品的第二代meta智能眼镜,在国外就受到追捧。


回到小度AI眼镜,它搭载了文心大模型,前置1600万超广角摄像头,采用4麦克风阵列设计,采用开放式扬声器发声方式。半小时可充满电,满电后支持56小时待机时间。重量也只有45g,和普通眼镜区别不大。

功能上,借助摄像头,用户可以进行第一视角拍摄,从而实现边走边问、识物、翻译等功能,堪比多了一个随身助理。

可以说,将现有的AI可以胜任的功能,都搭载在眼镜中。唯一不足的是,这款眼镜要明年上半年才上市。


最后,百度在发布会上还给大家带来了一个惊喜,邀请了巴黎奥运会的跳水运动员。在巴黎奥运会拿下两块金牌的全红婵在现场表示,AI系统对自己的训练帮助很大。

这也验证了,AI绝不是泡沫,真的在赋能千行百业。正如李彦宏在演讲最后所说:

“AI applications creating the world.”

全文完。




作者:董道力
编辑:张泽一
视觉设计:疏睿
责任编辑:张泽一

关于「新硅NewGeek」:我们以AI为圆心,追踪科技领域的方方面面,努力用最简单的方式阐述技术是如何改变世界。敬请关注。


新硅NewGeek
追踪每一个硅基生命的动向
 最新文章