qwen2-vl开源视觉模型在审计中的运用

文摘   2024-10-12 23:01   四川  

大语言模型相当于人的大脑,可以辅助人的思考、分析活动。

而视觉模型就相当于人的眼睛,可以辅助人去“看”、“检查”、“观察”。

如果再加上 agent 或者说一些自动化的程序来辅助人的手来输出,

那么基本上就可以完整的代替基础的审计民工了。

之前介绍过 Internvl 开源的视觉模型,当时由于它不能跑在我的 mac 电脑上,所以只是用的官方 demo 来进行的测试。

而今天,我想给大家介绍阿里出的 qwen2-vl 开源视觉模型,在自己本地的 mac 电脑上跑起来了,效果很好。

我还是以之前列举过的几个场景来体验下它的能力:

合同识别

例如,这里有一份合同信息。对于审计来说,我们可能会让实习生去整理这些合同的信息录入到表格中,或者与公司凭证、台账进行检查。

而用这个模型,我们只需要动动嘴皮子就能轻松完成。

我告诉它“帮我提取出合同中甲方、乙方、日期、合同金额”

甚至,你可以直接让其以 json 格式输出给你:

这不就是那些商用接口提供的样式吗?

有这个能力,完全可以批量识别合同,将关键信息提取出来,输出成表格。

回函信息检查

我们再以询证函回函检查为例,统计回函信息,很多时候也是实习生一个一个录的。

我直接提问:“请帮我提取出回函结论中,“信息不符,请列明不符项目及具体内容”单元格内的手写的文字信息。”

文字是全对的,数字金额有点不太对。毕竟是手写的,识别成这样其实不错了。

这有什么用呢?

目前各个所都建了函证中心,都有函证系统,那么完全可以调用这个模型的能力,

将回函信息提取出来,待审计人员审核检查并修订。

这对于集团性大所来说,实际上很有意义,能节省大量人工。

发票识别

对于这样一张发票,我们让它“以json格式提取发票信息”

可以得到:

效果还是比较好的。其实应该还可以在提示词中添加一些基本的检验,比如税额+ 金额 = 价税合计。

这样容易看出识别错误的地方。

识别会计凭证

对于一张会计凭证,我们让它提取出会计分录:

可以看到这个单位其实应该是分,而不是元,没分析对。

另外我们可以让它检查审核人和制单人是否一致:

结语

以上测试我是使用的 qwen2-vl-7B 比较小的模型,它还有大10 倍的 qwen2-vl-72B 的开源模型。

就算是小的 7B 模型也可以看出效果是非常好的。

结合它的能力,我们可以梳理类似需要大量人工录入的工作,将这些场景自动化,减轻初级审计人员的工作。

不同的 AI 模型可以作为我们的大脑、眼睛、手,将这些功能结合在一起,就可以替代人的基础工作。

而且离我们并不遥远,甚至现在已经可以实现。

Qwen2-vl 开源网址:https://github.com/QwenLM/Qwen2-VL

开源AI视觉模型改变审计行业基础工作

审计军火库迁移至audit dog网站

逆行的狗
不会编程的军人不是好的审计员
 最新文章