宇视 | 祛魅大模型 落地在百业

科技   2024-10-23 18:34   北京  

今年4月参加了宇视的生态大会,看了,听了,体验了。当时感触很深,也写了点东西。半年时间过去了,在这次安博会上再到宇视展台参观,感觉虽说是参加的安博会,宇视更像是把生态大会的理念、产品、平台进行了一次全面的落地展示,交了一份半年度期中答卷。围绕的核心点,在于愿景的落地和新赛道的全面展示。

祛魅 任何技术最终落地一定在产业

大模型「梧桐」是本次宇视展示的基石,展台内大多数方案、产品和行业应用,都是围绕着升级版本的「梧桐」展开。

「梧桐」大模型基本架构

前年起,大模型铺天盖地的到来,加上去年Chat GPT、Sora的突现,开始让人有些应接不暇。就像开着歼8和轰6的我们,看着天兵的F22、B21一脸懵圈、欲罢不能一样,充满着明星般的魅力和无限的神秘、羡慕。但当这个东西有一天本土化以后,当我们也有了歼20,我们就会从惊为天人到慢慢习惯。大模型的过程亦是如此。无论是通用大模型,还是行业大模型,从无到有,一点点积累、一点点做,最终把它应用在社会生活的各个场景下,服务行业、服务于人,慢慢从天上落到地下,完成本土化和能力授予的过程,是大模型祛魅的过程,更是由虚向实的过程。

去年5月,宇视推出行业大模型「梧桐」;今年4月,升级到2.0版本。无论如何迭代,个人认为宇视做大模型的出发点都是:做减法,把“小模型+大样本”变成“大模型+小样本”。基于这个出发点,我们看到的升级,是符合祛魅过程和逻辑的,是植根于行业、植根于合作伙伴、植根于业务和产业应用的纵向升级,最终承接能力的在于千行百业的用户。

就像我写的上一篇所说:“通用大模型对于千差万别的细分行业来说,更像是一个母体。单纯的通用大模型,无法做到落地赋能产业链。真正的应用,还要通过通用大模型的平台,做二级的行业大模型。”行业大模型的意义在于提供能力平台,降低样本数量和开发难度。让所有用户、合作伙伴能够通过自己已知的能力,快速切入智能化赛道。

举一个最直观的例子。「梧桐」大模型应用的一个方向,是将自然语言处理能力、视频特征提取能力和语音内容理解能力进行深度融合,对用户输入的语言文字进行深度解析和语义理解,对用户输入的语音进行解码识别和分析,同时提取视频中关键要素进行打标,准确理解视频或图片内容,快速检索匹配出关键字或语音对应的视图内容。

“万物搜”展示

针对这个方向,此次宇视参展推出的“万物搜”就是直接落地行业的应用。基于多模态大模型算法推出,支持语音搜、语义搜、图搜功能,将以往结构化、标准化的检索,升级到用户自然语言检索想要的图片,识别出画面中的物体、场景等特征内容。“万物搜”从本质上说是原有图像检索、以图找图,基于大模型底座的一次重要升级。区别于传统检索和图像结构化平台,其特点是:

1、语音或文字输入关键标签,通过大模型平台,准确判断语境与语义,快速锁定关键特征,依据特征进行提前预警及事后追溯,降低操作门槛、提升使用效率、提高相应速度;

2、对关键帧和关键标签进行多次判断,结合实地情况进行多轮分析,降低误报率;

3、通过多为建模、多角度标签画像,快速提取关键的第一帧,大幅提高溯源效率,覆盖视频业务绝大多数场景。

细化到应用场景,可以举例说明。比如,园区监控场景下,需要两个维度的使用逻辑,即事前及事后。如园区关键通道管理及准入人员管理,可以通过“万物搜”提前打标,联动区域内所有在线摄像机进行跟踪及校准,进行提前布防,防止出现人员、车辆越位及敏感区域闯入。事后,即在出现状况后进行快速检索。如园区内物品丢失,可根据该物品特征,在中控室直接进行语音、文字输入,将该物品的出现位置进行一一锁定,并形成轨迹分析,最终判定去向,等等。

这种类似“以图找图”、“提前布防”的功能之前就有,图侦应用很多。但其部署难度、用户操作难度及管理成本都很高,而且最重要的是关键的第一帧很难锁定。以上这些特点,对操作对象、使用对象及集成公司都有很高的门槛限制。但通过边端云智能+大模型加持,这种门槛被打破,将成本和效率找到一个最佳平衡。

猎光2.0图像处理引擎

大模型应用在视频上,还有一个路径,就是解决视频行业的老痛点——图像质量和光源问题。安博会上,宇视搭建了暗室,展示了“猎光2.0图像处理引擎”。传统ISP到达瓶颈后,画质提升的收益率越来越低。猎光2.0在传统AI-ISP基础上,得益于梧桐大模型的加持,使得其在低至≤0.0001 Lux的照度环境下,依然能够让图像呈现出如同在白昼中一般的鲜艳色彩。图像技术与AI技术的深度融合,补齐了ISP的短板,突破传统黑光的极限。这对于极端环境、夜间布控等一系列场景来说,都是一个解决了痛点的好事。

以上只是行业大模型应用的一两个最小的场景。以此类推,复制到无数个现有场景下,用一个能力去解决多个行业的问题,就是能力的落地和服务的落地。比如环境保护、城市治理、安全生产、农业生产等等。当然,这个应用,一定是基于用户需求的前提下。而用户需求千差万别,想要通过一套系统去满足所有用户不现实,成本也太高。这就引出了能力授予后合作伙伴的能力升级。让更多深耕某个领域的伙伴获得更大的能力,用最小的成本、最快的速度满足垂直客户的具体需求,二次、三次到N次开发,都具备了可行性,而宇视也是一直这样讲、这样做的。

赛道 用户需求催生的精准营销

去年安博会后AI平权赋能文体,到今年生态大会上,着重展示了大模型下泛智能视频产品的应用,如体育教学、体育比赛、文旅VLOG等等,宇视在用真切的行动践行着其发展战略中最重要的一个特性——务实。用已有的能力不断拓宽赛道,为企业生存发展寻找更多的出路。本次安博会宇视展台上,也着重的展出了这些新应用的板块,展示、互动,让业内更多同行真切感受到了视频和AIoT在新赛道的增速。

AI体育打卡点

比如赋能智慧体育。其依据是:用户基数庞大,市场空间足够大;符合社会进步的方向;用户不要求100%的精度,给技术进步(包括大模型固有的幻觉)留出了空间。装备大模型的到来,为体育教育的创新和进步提供了巨大的机会,宇视文教体AI业务一方面深耕教育领域,探索从学生身体健康走向心理健康的AI管理新模式,驱动AI赋能向纵深推进,另一方面不断拓宽现有产品及方案的应用场景,辐射泛健康、泛运动等领域,覆盖更大范围的人群,提升AI应用的广度和力度。自“梧桐”大模型推出以来,宇视科技AI体锻屏、AI跑步屏、梧桐VLOG解决方案等已落地全国百余个城市。

体育赛事场景下,宇视综合性的解决方案,一站式轻量化提供自动运镜直播、自动进球识别、运动数据分析、专业级赛事管理等能力。我是一个球迷,也一直关注宇视的“吴钩”赛事管理小程序,并且和宇视的同事要过该场景的解决方案专门研究过。其实类似足球赛事抓拍、回放、精彩瞬间掠影、比赛规则监测等等,一直有企业在做,也在很多民间和专业赛事有应用。但如果一个龙头级的专业视频企业携带智能化大模型下的解决方案进入到这个赛道,从技术和结果上看,不说碾压也差不多。AI算法会自动检测球的控球权,实现对视频画面平移和推拉,实现对球员和球的自动运镜跟踪,AI运镜算法全景相机相当于一个人工摄像师,即使是静态固定安装,也能让摄像机看起来像一个有人在操控的移动摄像机;视频AI算法可以自动检测进球,无需人工打点,可自动捕捉精彩进球的高光时刻;对于争议球的判罚提供高效的视频依据;提供了非常方便的剪辑工具,对于一些精彩花絮,球员可以自行剪辑,一键在线剪辑。可以轻松、即时、经济地用视频记录比赛,方案为俱乐部等赛事组织方提供赛程管理、球员管理及赛事信息记录的平台,节省日常的赛事的管理成本。诸如此类等等,多角度、多方位、全场景、全包围,专业和业余入场后的效果,完全不一样。

在文旅场景下,基于「梧桐」大模型,可以快速完成场景算法模型的训练生产,如宇视提供的旅拍兔VLOG服务:可以快速将游客人像信息和视频画面自动匹配,生成最优视频片段,同时通过AI体态分析精准识别人体躯干、四肢到手指的精细动作以及面部的精细表情,精准捕捉游客的精彩瞬间。最后基于多模态技术对各场景和动作进行分析,自动叠加最匹配的图层、特效,还能进行画面人物消除和画面优化。

以上场景,不一而足。有真切的客户需求有足够规模的市场基于自身产品技术和营销体系的范围之内,三样都满足就是宇视努力扩展的方向,至于组织结构和现实困难,则边建边打,在运动中越来越强。

回望 按照自己的判断坚定走来

每年安博会,都会回想起张鹏国的那两篇10W+。今天写东西,又翻出来好好看了看。忽然发现,几年前这位行业大IP的话,一点点都成为了现实。

关于行业的发展和重塑:5G+AIoT时代的安防只是“可视化治理”的场景之一,业务和终端场景化对架构提出强劲挑战,需要强大的中台能力,包括数据中台和业务中台,数据业务化、业务服务化,双中台密不可分。有企业若想转型做SaaS,确认自己在某些细分市场的业务熟悉度后,来得及。(2019年)

AI的强工程、强垂直和强细分,让算法继续无限细分,贴近各行业深度业务及管理需求的公司将有大把机会,但不算独角兽,可算小鲜肉:颇有颜值,年少成名不稳重,尚需时间和历练来积淀代表作。(2018年)

关于机会点:有成长性的新业务,需具备六大特点,缺一不可:可量化(要能量化考核)、可积累(核心竞争力的沉淀)、可迭代(有后来居上的可能性)、空间足够大(有犯错及改正的空间)、符合社会及组织进化的方向(有未来)、资源关联性(不能平地起高楼)。(2019年)

真正的革新来自对现有技术和架构的颠覆,比如:可见光驰骋这么多年,非可见光的替代是否太慢?比如:未来带宽和算力不是问题,基于带宽不够和拥塞重传的TCP/IP会否被全面抛弃?很期待。(2019年)

智能识别只是开场序曲,“语音+视频结构化+肢体行为”会是下一个爆点。可惜,在北京安防展并没有令人激动的发现,显然,AI时代已经到来的论断为时尚早。(2018年)

关于经营:世道在变,故事营销不再有效,烧钱模式成为过去。无论处于什么样的冬天,努力活下去,永远是企业的第一要务。(2019年)

保持向全世界最先进公司学习的胸怀和能力,不断追求原创性的技术进步,才可能成为这场大战的主角。那些不断定制、修修补补、OEM来去的公司,多半沦为配角。(2018年)

以上列举了这些,有兴趣的可以去找原文。在2018-2019年,预见到的数据应用、AI公司洗牌、视频企业的增长点、向非可见光的迈进以及业务创新点、今天市场总体格局和表现,条条精准,直切要害。有时候我们不得不佩服这些企业家的眼光和前瞻性。大模型的推出、赛道的扩展以及对生态建设的思路,在几年前张鹏国的文章里都已经体现,而且宇视也是一步步朝着这个方向走的。将超前的眼光坚定的一步一个脚印的付诸实践。在最艰难的时刻,还能够给人信心、给人希望。我想这也许是宇视能够走到今天的原因所在。光在前方,脚在路上,寻找未来,满怀希望。

智安物联网
领先的公共安全及物联网资讯、研究媒体平台,每天为您提供行业内最新、最全的信息和深度报道。志在安全,心向物联。
 最新文章