熟悉我的读者知道,K哥是一名创业者,也是一位父亲。虽然工作很忙,但我仍然希望有尽可能多的时间陪伴家人,因此我非常重视效率,从公司管理到日常生活,我想尽办法用工具来提效。
AI浪潮袭来,我也一直在探索AI的应用场景,最近我搭建了一个“K总AI智能助手”,给我的工作和生活带来意想不到的变化。我有一种强烈感觉:说不定哪天,一觉醒来,我这个CEO就被AI干掉了。下面跟你分享我的故事。
不解决实际问题的AI,都是扯淡
最近我遇到一个挺苦恼的事情,我们办公室楼下的车位是不固定的,谁先来谁停。这就导致一些晚来的同事无法停车,只能停在马路边,一整天都提心吊胆,隔三差五地往窗外看,害怕被抄牌,非常影响工作效率。可是也没有其他的办法,总不能一直盯着车位,一旦空出来就去挪车吧。
想到这,我突然灵光一闪:人不能一直盯着,AI却可以做到。有了思路,接下来做一些技术预研。
技术方案不复杂,首先用一个监控摄像头拍摄停车场,一旦有车辆移动,会自动拍摄一张图片;写一个轮询程序,发现有新图片就调用AI大模型接口来识别图片信息;模型返回值确认有空车位,立刻发送一条消息提示给订阅者。这样就实现了一个简易版的“智能车位监控”程序,技术实现上不难,关键就是大模型的能力和使用成本了。
关于AI模型的选择,我第一时间就想到了智谱AI。今年 8 月份,智谱AI免费开放了 GLM-4-Flash,这是一款轻量化语言模型,文本模态,128K 上下文,不仅功能强大,响应速度也很快。仅仅过了4个月,又免费开放了第一个视觉对话模型 GLM-4V-Flash。智谱AI目前提供了免费全家桶,支持全模态(即:语言+多模态),对个人开发者来说,灰常良心了。
这是官网地址:
https://bigmodel.cn?utm_source=jishu&utm_campaign=4vflash&_channel_track_key=KR4L96UV
下面就来做个测试,通过官网的操作界面,上传一张停车场照片,让大模型识别是否有空的车位。
K哥在官网的操作界面上试了几张图片,不断调整提示词,直到满足接口调用要求,最终确定的提示词是:
顺便提一句,官网提供的操作界面使用起来很方便,你可以对所有接口进行简单测试,下面是我的操作过程。
跑通了提示词demo,接下来就来跑批量测试,我准备了1000多张测试图片。
简单写了一个测试脚本,遍历目录下的图片,然后挨个调用GLM-4V-Flash接口,将结果输出来进行比对,测试代码如下:
程序输出结果如下:
在测试过程当中,GLM-4V-Flash的图片识别能力、响应速度都非常优秀,免费的视觉对话大模型,竟然达到了工业级别的要求,这让我感到十分震撼。
GLM-4V-Flash接口的调用代码非常简单,从官网复制下来改成自己的APIKey,再输入提示词,就可以直接使用了。
基于以上技术调研和测试,接下来写一个主程序,来把各个子功能串起来,实现一个完整的车位监控程序。以下是代码的主要部分:
调试完毕后,代码就可以正常跑起来了,下面是程序运行时日志:
一个极简版的“智能车位监控”AI应用就搭建好了,来看一下运行效果吧。
基于智谱AI的GLM-4V-Flash模型来搭建应用,极大降低了AI的使用门槛,让我重新找回开发的乐趣,体验到创造的快乐。
AI从来不缺应用场景,
缺的是发现问题的眼睛
在做简易版“智能车位监控”的过程中,另一位同事的吐槽给了我启发。我们公司每周五是宠物日,可以带宠物来上班,大家都非常开心。可是行政主管张姐,却开心不起来,因为她既要照顾好宠物的饮食卫生,又要确保它们的安全,最担心的就是宠物乱跑,遇到危险或走失。
我对张姐说,我来给你找个免费帮手吧,一整天都盯着宠物们,如果它们有危险,就立刻向你报告。
张姐半信半疑地说,K总你没跟我开玩笑吧?我说,说到做到。
其实,用AI来识别宠物是否有危险,是一个挺复杂的问题,因为出现危险的情况有很多种。于是我重新定义了问题,并且做了些简化,即:将摄像头对准门口、窗户的前面3米的区域,只要宠物出现在这个区域,并且是朝着门或窗的方向跑,就触发报警。
我的提示词如下:
接下来准备2000张宠物图片,不同角度、不同姿态,结合提示词进行测试。
下面写测试代码,并统计正确识别率是多少,代码实现如下:
程序运行时日志:
经过测试,这个解决方案的有效率达到99.9%,应对目前的场景足够用了。接下来就可以写主程序了,业务逻辑代码实现如下:
下面是程序的运行时日志:
最后把程序打包发布,一起来看看实际运行效果吧。
张姐在手机上安装好了应用,笑得合不拢嘴,我记得她上一次这么高兴的时候,是给她升职加薪,似乎是很久远的事情了……总之,我的“K总AI智能助手”又成功发布了一个模块,算是一件值得开心的事。
AI,要从娃娃抓起
跟很多家长一样,K哥总是担心孩子养成坏习惯,比如坐姿不好,既影响视力,对身体发育也不好。反复提醒也没有,小孩自己都不上心。我想到了一个办法,就是让小K自己做一个“坐姿智能提醒”的AI应用,随时提醒他注意坐姿。
这个办法就能管用吗?我是有理论依据的,行为心理学告诉我们,行动会反过来影响人的思维,也就是说他开发“坐姿智能提醒”AI应用的时候,会慢慢认同这件事情,以后纠正坐姿也会更主动,否则就会出现“认知不协调”。
识别坐姿是否正确,对模型应用来说是小菜一碟,下面是提示词。
提示词的效果如何呢?我准备了1000多张小K不同坐姿的照片,作为测试样本。
测试程序代码如下:
程序运行时日志如下:
识别准确率达到99.82%,足够这个场景使用了。接下来,在我的指导下,小K完成了主程序的代码编写:
小K还自己设计了一个“赛博朋克风格”的动态效果:闪烁的屏幕、急促的警报音效。
我看不懂,但是我大为震撼,反正他开心就好。下面就是程序运行起来的效果,你别说,还挺酷炫的。
程序发布以后,困扰我已久的小孩坐姿问题终于解决了。我的“K总AI智能助手”,轻轻松松就已经实现3个模块,这背后的大“功臣”当然是GLM-4V-Flash了。
通过以上三个场景的实际应用,我们感觉GLM-4V-Flash 表现还是非常优秀的,不但支持多模态,在图像描述、图像分类、视觉推理、视觉问答(VQA)、图像情感分析等一系列高级图像处理任务上都很好用,关键调用免费。
对小型开发者来说,智谱方面先后推出的,包括GLM-4-Flash和GLM-4V-Flash在内的大模型免费全家桶非常值得推荐下,将大模型开发的门槛直接干到地板,使用便捷,开箱即用。
点击阅读原文,立刻开启你的AI大模型精彩创作旅程。