一行代码批量识别发票,可以是图片,也可以是PDF格式!

文摘   2024-09-25 22:22   上海  
今天给大家推荐的功能是:如何用一行代码识别把PDF格式的发票批量识别成Excel文件,其中识别的信息包含发票的所有内容,这样当我们手里有很多发票的时候,就不需要一张一张录入,从而提高我们的工作效率。
这个功能是我对之前录制过的一套课程:PDFOCR文字识别的更新优化,文字识别已经录制完成了,还没看的朋友可以去看一看。在这里我只讲新功能的操作和使用。

首先在课程中获得本套课程的所有软件和代码,拿到后打开第6讲,因为之前的课程已经讲了5个课时,包含软件的安装和代码的运行,都是很简短很基础的操作。

现在开始我们的识别教程

在这里你会得到一段代码,如下图所示:

这里我们只需要修改3个参数:输入地址、输出地址、新增一列文件名。

参数1:

首先是找到参数1:即发票存放的文件输入地址,见下图红色框内

再是,找到需要识别的PDF发票文件目录地址,见下图红色框

最后把输入地址替换成需要识别的PDF发票文件目录地址,即可。

注意:

如果只识别一张发票,参数1是这样:文件夹地址+发票的名称

pdf_path=rD:\Double\发票地址\发票1.pdf 

如果识别一个文件夹里所有发票,参数1是这样:文件夹地址

pdf_path=rD:\Double\发票地址 

切记红色字体不可删除,绿色字体替换成需要识别发票文件的地址。

参数2:

首先是找到参数2:即发票识别后发票存放的文件输出地址,见下图红色框内

再是,找到识别后PDF发票文件存放目录地址,见下图红色框

最后把输出地址替换成识别后PDF发票文件存放目录地址,即可。

Output_path = rD:\Double\发票识别结果文件

重要的事情说三遍:红色字体不可删除,绿色字体替换成需要识别发票文件的地址。

注意!注意!注意!输入和输出文件夹必须是相互独立的,不能是相互包含关系。

参数3:

为了方便对识别结果进行再核对,在Excel中增加了一列文件名,见下图红色框。


因此增加了第三个参数file_name =True,见图

如果不需要文件名这一列,则是file_name =False,见图

修改完,这三个参数后就可以运行代码。单击鼠标右键,点击run,见下图

如果本文章对您有帮助,欢迎大家点赞、转发+收藏。

最后需要本行代码朋友,可以扫描下方二维码,添加小编微信。



会敲代码的程序媛
上海的程序媛,爱代码,爱健身,爱户外运动,更爱搞副业。
 最新文章