11月18日,智能硬件创业公司Rokid发布人工智能(AI)和增强现实(AR)眼镜产品Rokid Glasses。
Rokid Glasses的形态与普通眼镜相似,其通过摄像头支持高清拍照和视频录制功能。该产品还整合了阿里巴巴旗下的通义千问大模型,具备物体识别、文字翻译、数学题解答等能力。
据经济观察网不完全统计,自今年10月以来,至少有小度、小米、Rokid、创业公司致敬未知等4家国内厂商,已发布或者被传出计划推出AI眼镜。这让AI眼镜成了目前国内智能可穿戴领域的新风口。
小度方面称,该公司跨行研制AI眼镜的原因是,眼镜作为人的第一视角设备,在搭载了摄像头、麦克风、传感器等组件后,进一步具备了捕捉多模态信息的能力,也成了高效便捷的人机交互入口。同时,大模型在多模态、强化学习、语音识别等能力上的进步,为AI重塑智能眼镜带来了更大的想象空间。
不过,致敬未知前产品经理王永森告诉经济观察网,对业内人士来说,AR眼镜结合大模型的技术门槛并不高,但是很难把AI眼镜做好。AI眼镜在调用大模型时,如何低延时、准确地理解用户的自然对话意图,是目前的一个技术难点。
2023年9月,美国科技巨头Meta发布了和美国眼镜品牌雷朋联合研制的AI眼镜Meta Ray-Ban。该产品的起售价为299美元(约2167元人民币),在发售4个月后的销量超过100万台。
这款产品的热销,侧面验证了AI眼镜的可行性,也给入局该赛道的厂商带来了信心。
Rokid工业设计总监夏凯认为,过去AI硬件领域存在着一些创新误区:比如,一款APP可以解决的功能,不要硬件化;如果C端(面向个人用户的)产品的信息呈现更简陋、交互比手机更复杂,大概率也会翻车,例如美国创业公司Humane 发布的智能硬件产品AI Pin。
因此,夏凯觉得AI硬件的创新可以从个人日常的基础生活功能切入,设置的功能简单、刚需即可,这样的产品售价便宜、试错成本低。
夏凯告诉经济观察网,眼镜这种设备的优势是,用户平时就把它戴在头上,它不像手机那样需要用户抬手交互。而交互是过去困扰AR眼镜厂商的一个问题,大模型的出现解决了这个难题。大模型可以被理解为一个搜索引擎,能让使用AI眼镜的用户更精准地触达信息。比如用户在逛商场时,看见一件衣服,就可以通过AI眼镜检索出这款产品在全网的最优惠价格和最佳购买途径,然后下单购买。
多位AI眼镜的用户对经济观察网表示,由于近视或者有佩戴装饰品的需求,他们本身就会使用眼镜。同时,他们也看重AI眼镜的拍照、通话、翻译、会议记录等功能,觉得这类产品使用方便,可以部分替代手机的作用。
一位用户说,她所在的单位是一家外企,但她的英语并不好,所以比较依赖AI眼镜的翻译功能。另一位用户表示,他购买AI眼镜,主要是为了在玩过山车等特定场景中录像。
致敬未知是国内较早开始研究AR眼镜结合大模型的智能硬件创业公司。该公司成立于2022年8月,在2023年拿到过阿里巴巴领投的1000万美元(约7246万元人民币)天使轮融资,其创始人吴德周曾担任锤子科技合伙人、华为荣耀产品线总经理。
王永森曾在致敬未知担任产品经理,负责过AR眼镜的大模型场景整合。他表示,致敬未知当初选择走AR眼镜路线,是因为相比虚拟现实(VR)那种隔绝显示的场景,AR更贴近现实。吴德周希望致敬未知的产品能贴合用户现实,并提供现实背后的数字信息。在AR眼镜结合大模型后,用户可以使用其识别生图、物品。基于识别功能和数字信息串联,用户还能进行比价、给商铺评分和团购。
在对比一系列AR眼镜产品的交互设计后,致敬未知还得出了一个结论:AR 眼镜要特别注意任何交互和呈现,不能影响用户的走路、下楼梯、聊天等现实行为。
王永森说,AR眼镜结合大模型的大概过程是:首先,研发人员在训练和筛选模型后,在AR眼镜中整合图片分切模型、语音识别算法等小模型,这些小模型可以收集信息,是大模型理解世界的工具;其次,AR眼镜将收集到的图像或语音信息交给大模型,由其做出智能判断并生成结果;最后,AR眼镜把大模型生成的结果反馈到服务器和算法层面,整合互联网上的相关信息,打包呈现给用户。
AR眼镜结合大模型的成本,与普通的大模型应用的成本相似。硬件厂商除了需要投入后端工程师、算法工程师等人力成本外,使用大模型也需要按照token(大模型文本中的基本单位)计费。据王永森透露,很多AI眼镜厂商在前期都会向大模型公司垫付用户使用大模型的成本。
为了不影响用户的佩戴体验,各家厂商正在致力于AI眼镜的轻量化,例如采用镁铝合金这种比钢材和铝合金等传统材料更轻的材料,以及使用更轻、更薄的光波导显示模块。
目前,市面上的AI眼镜的重量基本保持在50克以内,而普通眼镜的重量是20—30克。
王永森说,更好的处理器芯片,更多的摄像头和其他组件,意味着AI眼镜会更重、更难携带和佩戴。因此,为了符合人体工学的要求,厂商需要在AI眼镜的重量和算力能力中间寻找平衡。
仍有技术瓶颈
当前,各家厂商发布的AI眼镜,其功能主要聚焦于问答、翻译、识物等场景。
不过,一位扩展现实(XR,即AR、VR等技术的统称)设备行业的前从业者告诉经济观察网,现在的AI眼镜,就是给具备通话、拍照、AR等能力的音频眼镜,增加了语音助手功能。而且音频眼镜的门槛很低,厂商找一家原始设计制造商(ODM)就能做贴牌产品。
上述XR设备行业的前从业者还称,受限于端侧芯片的性能,AI眼镜当前依赖于云侧大模型提供AI能力。此外,这类产品也需要解决持续工作带来的高功耗、发热,以及短续航和网络延迟等一系列问题。
王永森说,对业内人士来说,AR眼镜结合大模型的技术门槛并不高,但是很难把AI眼镜做好。其中一个难点是,AI眼镜在调用大模型时,如何低延时、准确地理解用户的自然对话意图。人们会进行无序的自然对话,可能一口气说出十几个字、好几件事,但大模型需要理解这些话语里面的用户意图。
Rokid创始人祝铭明此前表示,可穿戴眼镜的同质化竞争确实存在,但这是所有消费电子行业的必经阶段。就像手机行业一样,现在用户更换手机不只是因为品牌,更因为各款手机的细节打磨和生态体验不同。所以,可穿戴眼镜的核心竞争力最终会落在品牌竞争力、生态的丰富程度以及产品的细节打磨上。
祝铭明认为,只有真正愿意在细节上深耕的公司,才能在这个市场中生存并发展。最终,可穿戴眼镜行业会走向类似手机行业的寡头格局。与手机行业的5—6家主流厂商相比,可穿戴眼镜行业由于存在强烈的个性化需求,可能会有10—20家主流厂商存在。