今天是2024年12月20日,星期五,北京,天气晴。
我们来关注下Agent,最近积极和消极的声音都不少,看看langchain的一个统计报告。
另外,看看关于图片去水印的简单思路,这个是文档处理的范畴。
关注技术,并关注应用落地,把技术学扎实,总会有更多的收获。
供各位参考,多思考,多总结,多实践;
一、langchain关于Agent的一项2024年终调查
langchain的文章(https://www.langchain.com/stateofaiagents)在调查了1300多名专业人士(包括工程师、产品经理、商业领袖、高管),所属行业分布为技术(60%)、金融服务(11%)医疗保健(6%)、教育(5%)以及消费品(4%);公司规模为<100人(51%的受访者)、100-2000人(占受访者的22%)、2000-10,000人(占受访者的11%)以及10,000多人(占受访者的16%)之后,统计得到了一个有趣的报告,可以看以下几张图。
1、Agent的使用程度
现在Agent既然很火,那么使用这项技术的人必然不在少数。
2、Agent的应用领域
使用Agent最多的,是进行研究和总结(58%),其次是简化个人生产力或协助任务(53.5%)。
3、限制Agent投产的因素
特别是对于小公司来说,Agent的性能远远超过了其他考虑因素,其次才是成本问题,这符合直觉。
4、对于Agent权限的控制分布
不同规模的公司在代理控制方面也以不同的优先权重。不足为奇的是,大型企业(2000多名员工)更加谨慎,严重依赖“只读”权限来避免不必要的风险。
5、针对Agent都有哪些控制措施
安全总比遗憾好,需要追踪和人工监督来控制Agent
二、关于图片去水印的简单思路
图片去水印是当前文档处理中会遇到的直接问题,水印的存在会直接影响OCR结果。
百度网盘AI大赛-图像处理挑战赛(水印智能消除赛,https://aistudio.baidu.com/competition/detail/209/0/introduction),评价指标为PSNR和MSSSIM,关于这块的评价指标,可以参考(https://aistudio.baidu.com/projectdetail/1844007?channelType=0&channel=0)
PSNR (Peak Signal-to-Noise Ratio) 峰值信噪比,是最普遍的评鉴画质的客观量测法,他表示讯号最大可能功率和影响它的表示精度的破坏性噪声功率的比值;
SSIM的全称为structural similarity index,即为结构相似性,是一种衡量两幅图像相似度的指标,分别从亮度对比度结构进行对比;
Multi-scale Structural Similarity(MS-SSIM) 是多尺度版本的SSIM;
首先是数据处理:
也可以做图像增强,包括自动生成水印:
另外一个,就是关于水印数据的合成,可看https://github.com/2Dou/watermarker项目,可以图片添加文字水印 可设置文字大小、颜色、旋转、间隔、透明度。
以及做resize,crop,jitter等操作:
其次是在模型选型,
在模型实现上,可以有多种不同的方案可选,例如UNet网络,先进行图片分割,也可以使用cycleGAN、SLBR网络,在image2image任务也可以使用IDR网络。
看下最终的效果,其实也不是很好,对比基线(在小批量数据上训练过的UNet网络作为示例,对应的成绩为:
竞赛方案最终结果为:
总结
本文主要谈了两件事,一个是关langchain的一个Agen t统计报告,灵异故事关于图片去水印的简单思路,这个是文档处理的范畴,但接入到整个流程中,会拖慢。
参考文献
1、https://www.langchain.com/stateofaiagents
2、https://aistudio.baidu.com/competition/detail/209/0/introduction
关于我们
老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入