首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物
科技
2025-01-02 19:54
北京
下一代AI视觉搜索,不止于“搜”。
作者 |
陈骏达
编辑 |
漠影
最近几天,支付宝App中悄然出现了一项新的AI应用——
“探一下”
。在“扫一扫”页面下方切换至“探一下”就能体验。
与传统的识物、搜题等视觉搜索应用不同,“探一下”的核心亮点为
探索
。识图辨物只是开始,在此基础上,有
探知识
、
探灵感
、
探文本
等能力板块。
从视觉搜索到智能推荐信息,“探一下”可成为一本随身的“
视觉百科全书
”。逛展时,打开“探一下”对准画作,背后的故事、历史背景、艺术风格都一览无余。踏青时,打开“探一下”对准花朵,不仅能识别出名称、科属,还有文化、园艺的相关知识。
“探一下”也可以识别同款商品、给出药物使用指南,或是翻译外文菜单,
并链接到支付宝丰富的商业生态
,提供用车、医疗等服务,使用场景很广泛。
当切换至探灵感功能时,它可以根据场景灵活配文,
可幽默、可治愈
,在宠物、办公等场景,还会有“读心”、“卷王”等定制滤镜,适合想晒图但不知道怎么写文案的人。
这些实用、有趣的功能背后,其实是视觉搜索产品在GenAI(生成式AI)时代范式转变的缩影,告别过去的传统判别式方案,
多模态大模型驱动的AI视觉搜索方案
正逐渐走向规模化应用。
在海外,Google Lens这一爆款视觉搜索产品,已凭借GenAI成为谷歌增长最快的查询类型之一,每月视觉搜索调用量超200亿次。依托于扫一扫的用户群体、支付宝的庞大商业生态圈以及蚂蚁的技术积累,
“探一下”会否成为国内对标乃至超越Google Lens的现象级产品呢?
01
.
视觉搜索赛道火热
理解分析能力亟待突破
过去20多年中,传统的文字搜索引擎已成为了搜索的标准形态。不过近几年来,原本作为文字搜索补充的视觉搜索已经逐渐走到台前。2022年,谷歌开发的视觉搜索应用Google Lens每月执行的视觉搜索任务已超过
120亿次
,2024年这一数字已达
200亿次
,并持续快速增长。
从用户角度来看,视觉搜索能提供超越文字限制的直观搜索体验,还能帮助用户发现更多相关信息,从而激发新的创意与灵感。在传统文字搜索增长进入稳定期后,
视觉成为众多互联网科技企业发力的重点之一。
从商业价值的角度来看,视觉搜索能在电商、社交媒体等领域提供全新的体验,
成为连接用户与商业服务的重要桥梁
,催生新的商业模式与价值。国内与国际的淘宝、亚马逊等电商平台纷纷推出相关服务,正是出于这一考量。
然而,在中国,
现象级的视觉搜索产品尚未出现
。许多厂商的视觉搜索基于AI1.0时代的判别式基础视觉算法,依托大量数据,专注于某一垂直领域,如搜题、识花、购物等,未能实现破圈。
即便是具备“识万物”能力的产品,也大多停留在了“识你所见”的层面,并且在复杂场景上的表现并不理想。当用户需要了解图片背后的更多信息时,仍需链接到搜索引擎的结果,
理解分析能力
成为上一代视觉搜索的明显短板,亟待突破。
02
.
从判别到生成
GenAI重新定义视觉搜索
互联网诞生以来,搜索的形态就处于不断流变的过程中。以Google为代表的传统搜索通过匹配关键词来获取信息,其核心是基于文字的资讯检索。
随着深度学习浪潮的开启,视觉搜索应运而生,以Google Lens早期版本为代表的同类产品以图像识别技术为核心,匹配数据库中的物体、场景或文字。
在GenAI技术的洗礼之下,传统搜索已往生成式搜索靠拢,显然,视觉搜索也需要顺应这一趋势。用户已经不再满足于仅仅获取信息,而是期待更丰富、更智能、更个性化的体验与解读。
视觉搜索需要从单纯的信息检索工具,进化为能够理解用户意图、提供个性化内容、激发创意灵感、连接服务生态的
下一代生成式视觉搜索
。
GenAI对视觉搜索的变革性意义已经成为共识。
去年,谷歌旗下的视觉搜索产品已与大模型进行了深度融合,可在识别画面信息之外回答用户的问题,内容由模型进行整合并输出。Google Lens还进一步支持了视频提问、语音提问等功能,同样也可为用户提供丰富、个性化的交互体验。
苹果也提升了对视觉智能的重视。新款iPhone的“相机控制”按钮能一键启用视觉智能,成为Apple Intelligence的视觉入口,支持拍餐厅看评价、拍传单添加日程、拍小狗看品种、拍商品买同款等新颖的交互体验。
支付宝近期推出“探一下”,也正是由于他们
把握住了生成式视觉搜索这一视觉搜索领域的新趋势
。“探一下”业务负责人
蔡伟(David Cai)
曾在谷歌工作,从零开始深度参与了Google Lens等视觉搜索项目,他认为这一代基于多模态大模型的视觉搜索技术变迁有两大趋势,
一是由搜索走向生成,二是由文本输入走向多模态、全模态输入。
据了解,“探一下”的视觉原生解决方案将多模态大模型能力同mRAG(多模态检索增强生成)、基础视觉算法、Agent能力相结合,以视觉为中心,提供了以探索为核心亮点,有用、有趣的用户体验。
为稳住识别等“求知”类需求的基本盘,并进行更具深度和广度的分析解读,“探一下”采用
多模态大模型全图理解+open-set多主体检测的技术链路
,能够识别特定场景中的多个主体,并将识别的结果聚合到一起,从而实现意图识别的快响应、高精度,并借助大模型理解力和知识力,进一步分析信息、理解信息、提供信息。
在精细化识别的基础上,“探一下”还可提供趣味性、启发性的内容。结合预训练好的“读心、幽默、治愈”等文本模版,“探灵感”功能可以即时生成对应“类人”风格的文本。
响应速度是不少AI产品落地时的痛点。蔡伟介绍,“探一下”联合蚂蚁百灵多模态大模型团队,针对大模型进行了
轻量化推理加速
,并采用了从视觉初定位,到粗意图,再到精细化识别的Coarse-to-Fine机制,缩短了结果输出的耗时,为用户提供了更为即时的体验。
准确性则是所有AI产品真正发挥实际效用的关键。探一下在生成回答时依靠不同的数据源,利用RAG技术综合信息进行交叉验证,还在最终输出时注明来源,让结果更可靠,用户更信任。
同时,“探一下”在隐私与安全上保持了与
支付宝金融级产品一样的安全合规标准
,对图片类型、数据存储位置(用户或服务器)都进行了细致严格的限定。
03
.
链接支付宝生态
“探一下”探万物的可能性
“探一下”目前的主要入口是支付宝的扫一扫功能,这从一定程度上反映了蚂蚁对这一交互形式的信心与决心。“我们认为生成式AI带来的搜索变革,其实是一个全新的交互形态,
视觉不仅仅是文本的一个附庸,而是能承载独立的产品入口
。”
蔡伟进一步介绍,扫一扫在过去已积累了亿万级的用户,新应用“探一下”能利用这一优势,降低培养用户习惯的成本。如果探一下能为用户创造足够多的价值,或许有希望引发如上一轮“扫一扫”般的新一轮用户行为升级。
未来,“探一下”仍然会专注于大模型具有优势,而前一代技术无法实现的场景。蚂蚁并不是一家搜索起家的企业,这让他们得以轻装上阵,更自由地探索“探一下”发展的可能性。
基于支付宝丰富的服务供给
,“探一下”未来可能会接入小程序、智能体和其他潜在的用户交互形式。今年蚂蚁集团接连推出了AI生活管家“支小宝”、AI金融管家“蚂小财”和AI健康管家。作为视觉元素交互入口,“探一下”也有可能成为链接三大管家服务的重要入口。比如,在健康管家中,“探一下”可以识别药物,并且进一步链接用药指南、报告解读、医生推荐、智能导诊等健康服务。
在三大AI管家之外,作为独立的视觉原生入口,“探一下”还能识别汽车等物品及场景,链接到支付宝的“车生活”服务,提供看车、充电等生活服务,
具备链接商业世界的想象力空间。
“探一下”也可落地到更丰富的应用场景,如
旅游、户外、亲子
等场景,不断扩大内容生态;也能基于支付宝数字公益方面的经验,发挥更大的社会价值,比如,探索无障碍辅助等领域,更好服务视障人群。
“探一下”团队在测试与发布过程中发现了不少
意外之喜
:如用户很喜欢用它来识别昆虫;部分用户还用“探一下”取代相机,作为内容记录与分享的新方式。作为一款C端的通用AI视觉搜索产品,“探一下”未来会针对用户需求不断进行迭代,持续优化体验。
此外,新一代视觉搜索也带来了智能硬件的发展想象。在部分场景中,“Always-on”的智能眼镜等硬件能提供比手机更好的用户体验,
蔡伟称“探一下”也在思考与智能硬件的融合模式。
04
.
结语:
“探一下”或将引领下一代AI视觉搜索趋势
搜索是互联网的组织层,串联起用户、信息、商业、服务等诸多要素,是信息、智能世界的重要入口。谷歌定义了搜索目前的模样,但他们起初或许并不知道搜索会长成它现在的样子。
在生成式AI时代,视觉搜索这个动作,将极大丰富搜索的样式,搜索不再是从已知中找答案,而是基于多模态大模型的视觉理解与创作能力,提供更智能、更丰富、更具交互性的服务体验。
蚂蚁集团入局AI视觉搜索,正是对其AI First战略的进一步加速。2024年,蚂蚁集团发布三大AI管家,设立强化学习实验室,AI专利、AI论文数量猛增。而支付宝的“探一下”也正在探索下一代AI视觉搜索新范式,焕新传统的搜索产品,也有希望让AI像扫码支付一样便利每个人的生活——不止有大脑能对话、有手脚能办事,更有眼睛能探索身边世界。
(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)
智东西
智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。
最新文章
端侧AI随时上云?这套端边云协同方案给出了新解法
一枚智能戒指值380亿!三星荣耀踊跃入局
大模型中标排行榜出炉,科大讯飞成2024年度标王
追觅首创机械手,真正作用于亿万家庭的“灵巧手”出现了
AIGC时代,联想的野望和收获
2025 AI深度前瞻:推理成本暴降90%,智能体迎GPT时刻,空间智能涌现
支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物
川普马斯克决裂倒计时?《福布斯》预测AI十大趋势:AI接管电脑,在太空建集群
雷军4小时跨年直播:交小米年终总结,晒30万辆交车目标,立了N多flag
00后李飞飞学生联合创业,破解世界级机器人难题,被稚晖君投资,独家对话创始人
大模型“六小虎”,拿下4200万大单
最快5秒光速出片,全球首个接近实时生成的AI视频模型来了
百年“老字号”靠AI上市,IPO估值10亿美元
从雷军到张文宏都是假的,起底乱象丛生的AI数字人带货
追觅再革新热清洁技术,智能清洁的竞争尚未进入困境
孙正义“芯片帝国”计划曝光!向特朗普承诺投资1000亿美元
如何快速部署和体验内置开源LLM大模型
2024年大模型融资全景:最高800亿,独角兽洗牌,地方国资猛扑
套壳AI公司,骗了800名员工和200只猫
三个人,估值650亿
AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优
人形机器人再添数亿元融资!江苏创企拿下,曾帮小米造机器狗
2个月,11亿大模型大单,讯飞狂赚
AI视频创企又拿新融资,数亿元!
刚刚,马斯克融资438亿!黄仁勋苏姿丰都投了
一家AI独角兽宣布倒闭
微软CEO纳德拉年终访谈!赞同黄仁勋,坦露与OpenAI分歧,揭秘夺回市场战略
GMI Cloud King Cui演讲:AI Native Cloud助力企业出海,解决算力需求,构建高稳定性GPU集群
刚刚,又一家大模型独角兽获新融资:数亿美元!
OpenAI最强推理模型o3发布!AGI测试能力暴涨,最难数学测试分数碾压同行
专用、类人形、人形全面布局:普渡机器人解答了具身智能商业化的终极命题
比小米便宜,比Meta高清,国内首款量产AI眼镜999元开售
AI创企暴雷!90后女创始人欺诈被捕:涉案7000万,或面临40年刑期
苹果AI落地中国生变:正接触腾讯和字节,谁还有机会
深圳重磅AI利好!5亿元训力券,1亿元模型券,重奖爆款智能硬件产品
一口气融728亿!AI融资新纪录,比OpenAI还吸金,华人联合创办
黄仁勋深度专访:谈英特尔CEO下课,回应美国半导体管制,用AI写演讲稿
24万“AI民工”血汗,哺出一个95后亿万富豪
深圳教授联手三星高管押注具身智能!被联想创投等看中了
清华系大模型独角兽又融资,30亿元!今年商业化收入翻倍
学校新来的AI体育老师,量身定制每天一小时最合理运动计划
NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署|在线研讨会直播预告
清华系出手!全球第一款端侧全模态理解模型开源
国产AI算力黑马崛起,解密英博云全新产品矩阵
XR一夜变天,谷歌“重做安卓”!三星MR头显亮牌,硬刚苹果
2024 ACL Fellow出炉!全球九位科学家入选,华人有四位
后Scaling Law时代,需要一份向量数据库的琅琊榜
趣丸科技贾朔:探索音乐创作的技术平权——AI音乐的创新实践
谷歌最强大模型登场!掀Agent风暴,放AI芯片大招,深夜突袭OpenAI
让手机、PC、汽车、AIoT等“终端”都用好AI,搞定统一生态这事太重要了
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉