在Google开发者大会上学踢球,我跟AI都挺累

科技   2024-08-08 12:02   四川  

连奥运会的新闻上,都在说 AI 训练、AI 裁判,我其实一直是有点将信将疑的——要想知道梨子啥味儿,我得自己去尝尝。


这两日恰好是 Google 在北京的中国开发者大会(除了加州山景城之外,每年都会在柏林、班加罗尔、北京/上海等开发者聚集城市举行),我本是带着老板要求学习 AI 的任务而来,没想到却变成了一场让我重新找回运动热情的游戏大集合。


今年 Google 中国开发者大会的展区里,不再只是一台显示屏孤零零地“画着画”,“吟着诗”,也不再是基于图像识别技术的手影、舞蹈游戏。感谢AI(随处可见的 Powered by Gemini)。大概也是因为奥运会的热度,Google 设计了一系列运动和 AI 结合的新奇体验。


我(就趁着领导不注意)帮大家体验了一下,AI是怎么既当陪练,又能点评,还得兼职摄影师的。


 “智趣蹴鞠”,给我夸得能上奥运会了 


“球网”左右上方,各设两个得分点。不过在我等待的半个小时内,可没人命中。两个得分点处的摄像头一闪,证明它们已经准备好记录。同时,“球门”正上方和左右,还有四只拍摄手机。


智趣蹴鞠体验区丨Google


它们一起从四个方向,拍下并分析踢球者的姿势,球的速度,落点位置,并给出力度,准确度和风格的打分。前两点都好说,我问工作人员第三点依据何来,他笑笑说,“你要是比划得像C罗估计就得满分。”


黄框是得分点丨作者拍摄


基于 Gemini 多模态能力,AI 教练对我的点球是这么评价的,“力量十足,但射门精度还需要再提升。注意脚踝的锁定,并关注触球点”——一些放之四海而皆准的评价。


接着 AI 帮我制作精彩瞬间。根据我挑选的一张原片,和照片背景“宇宙”,Imagen2(一款文生图模型)自行生成的一段 Prompt,让我直呼“好!家!伙!,还是AI会说话。”


挑花眼了丨作者拍摄


“一名宇宙球员释放出超音速一脚,踢出发光的彗星在零重力场地上飞驰。踢击的力量点燃了一场超新星,在宇宙尘埃中涟漪。这些霓虹从球员的靴子中喷发而出。彗星向前飞去,留下了一条灼热的轨迹。”

没等多久,它就为我生成了以下图片。


这个分数真的很高了丨Google


Imagen2 展示了快速响应的能力。据悉,Imagen2 放到 VertexAI(谷歌云上的机器学习托管平台)上进行托管,而对于开发者的便利就是,能实现大规模运行和通过 VertexAI SDK 集成。


 “高尔夫陪练”,真人指导说我手感挺好,AI却说僵硬欠练 


结束后,自信心爆棚的我,立刻去排队了高尔夫展台。现场显示屏正在分析上一个球的运动轨迹。


也是通过球员正上方的摄像头,对挥杆动作,击球次数,球的位置,离球洞的距离拍摄后逐帧分析。


高尔夫体验区丨Google


“高尔夫展台”展示的 Google Cloud 与 BigQuery 结合,首先照片进去云端存储,OpenCV 进行目标检测,将所需数据提取出来,并传入到 BigQuery 进行数据分析。


接着再由 Gemini 将上述决策式 AI 的判断结果,讲成人话。与其吐槽人家“三杆才进洞”,Gemini 则是说,“花了些时间来熟悉,也是乐趣”。


AI教练复盘丨作者拍摄


整个分析生成的过程,我大概等待了3分钟左右。比起刚才的“无脑夸”,这次 Gemini 还是挺中肯的,而且还给了练习建议。比如它察觉我的挥杆动作略显僵硬,就提示我想象钟摆运动。我看出来了,AI 教练都走鼓励派的。


 “智引线”,走两步,你走两步 


一部手机加上一个骨传导耳机,就是一个“盲杖”。手机别在腰上,摄像头传回视频,用基于 TensorFlow 图像识别技术捕捉地面的引导线,在偏航时,立刻发出声音信号,让使用者调整方向。


智引线体验区丨Google


每一个在上面走的人都慢吞吞,原因是非视障群体,并不习惯这样的道路指引方式。而且“智引线”项目的受众也并非视力正常的人。“智引线”是希望成为视障群体的一个慢跑帮手。


这位大哥很厉害,我走到三分之一处就歪了丨作者拍摄


它要去思考的产品细节非常多。比如,提示怎么“直给”,考虑到用户在跑步,语音提示就太慢了,所以采取左耳震动就提示要往左偏,反之亦然,遇到障碍物就强烈震动。


一些社会公益组织拿着用户需求找到 Google,“智引线”就是其中一个,而且目前已经开源。


工作人员讲解技术原理丨作者拍摄


听工作人员的介绍,最开始 AI 会将“影子”也识别成障碍物,他说项目的确还在完善阶段。比如如何对抗更加嘈杂的环境,而我在佩戴时就无法清晰判别到底是哪一边在震动;比如目前它只能用在有明确跑道线的环境里;比如一些路面的坑坑洼洼要怎么提示出来更快更安全?


 Gameface,我都不知道我能做出来50多个表情 


Project Gameface 项目灵感来自于游戏主播 Lance Carr。他患有肌肉萎缩,但热爱游戏,他玩游戏的设备是一个头部跟踪的鼠标。有一天,他的房子失火,连带游戏设备被烧毁。后来Google找到他,一起设计了这个开源项目,通过头部动作和面部表情识别来控制光标。


Project Gameface 既可以是系统级软件,用来控制手机里的所有应用。也可以做成 API,针对性优化成无障碍游戏。比如展区有展示,类似愤怒的小鸟的弹弓游戏,和 uno 的纸牌类游戏。


面孔游戏体验区丨作者拍摄


驱动 Project Gameface 的是 Google 的 MediaPipe 框架,其中有几个模型,Face Landmark Detection API:用户检测并追踪人脸的关键点,比如眼睛、鼻子和嘴;BlazeFace Model:实时面部轮廓检测;FaceMesh Model 和 Mediapipe Blendshape V2model:能捕捉到面部肌肉和详细的面部特征。


工作人员说,Project Gameface 支持 50 多个面部表情和头部动作。并且支持自定义表情来控制哪些功能,同时可以设置表情程度和大小(是必须嘴长得足够大才能点击进去)。


头部动作和面部表情设置丨Google


前者是为了只能做限制动作和表情的用户;后者,我猜想是为了减少某些相似和下意识表情对应用使用的干扰度。


在脸没有完全抽筋儿之前,我尝试,用“眉心控制”光标,“张嘴”click 进入,“向左撇嘴并抬头”scroll 上划,完成了一篇网页的浏览。


旁边一位患有肌肉萎缩的女生开发者和我一起正玩得开心。


今年的体验的确更具包容性丨Google


同时第一次看到导盲犬,它也有参展牌丨Google


无障碍展区的无障碍参会者明显多于往届。“太多无障碍技术和应用没有真的在我们之间流传开来。”这位参会者说,“还是缺少类似的场合。”


作者:沈知涵

编辑:卧虫

插图及封面图来源:Google与本文作者提供


果壳AI组 出品


本文来自果壳,未经授权不得转载.

如有需要请联系sns@guokr.com

果壳
科学和技术,是我们和这个世界对话所用的语言。
 最新文章