使用 SAP BTP Document Information Extraction 服务，处理老师发到家长群里的成绩单

文摘 2024-09-18 18:18 北京

笔者之前的文章提到，老师会把班上周考的成绩单，发送到家长群里。成绩单包含了每位同学的学号和分数。成绩单的格式为图片即 png 或者 jpg 格式。

开学已经一个月了，老师把最近考试成绩发到了微信群里，我用 ChatGPT 简单分析一下

我用 ChatGPT 识别这些图片，把里面的信息提取出来，然后配上简单的指令，就能分析出一些我感兴趣的信息，比如孩子在班上的排名，孩子这一个月内的分数是上升还是下降趋势等等。

其实类似这种将图片等非结构化数据进行分析和信息提取，解析成结构化数据的工具，除了 ChatGPT 之外还有不少，比如我也经常用下面这个工具，帮助老婆实现办公自动化方面的一些需求：

说到从非结构化文档中提取数据, 这个领域的王者之一就是 SAP BTP 上的 Document Information Extraction Service.

这个基于机器学习且部署在 SAP BTP 云端的服务，旨在帮助企业自动化从非结构化文档中提取数据的过程。这一服务特别适用于处理海量的 PDF、图像扫描件、发票、订单等文档，通过自动化的方式提取出关键数据字段，减少了手动输入和人为错误的风险，同时提高了文档处理的效率。

文档信息提取服务能够处理各种格式的文档，例如 PDF、图像（JPG、PNG 等），并通过 OCR（Optical Character Recognition，光学字符识别）技术读取文档中的内容。然后，借助自然语言处理 (NLP) 和机器学习模型，它能够智能地识别并提取出特定的业务相关信息，例如发票中的发票号、日期、金额等。

这一过程极大地简化了手动录入数据的繁琐工作，并提升了业务流程的自动化水平。

SAP BTP 经过多年的发展，如今订阅和消费各种服务的步骤已经大大简化，再也没有了过去繁复的配置，进一步降低了使用者的学习门槛。

在 BTP Cockpit 的 Boosters 区域，根据关键字 document 搜索，找到 Document Information Extraction 的 Boosters 即配置加速器，点击 Start 按钮就可以一键配置。

短短数秒之后即可完成配置，点击 Go to Application 进入 Document Information Extraction 的控制台。

从 Select Document 弹出对话框 Document Type 的下拉选项里，我们可以看出，Document Information Service 预制的文档信息提取场景，支持 Invoice，Paument Advice 和 Purchase Order 这些订单类型。

当然，我们也可以选择 Custom，即自定义文档类型。

要进行自定义文档类型的信息提取，我们先得创建一个自定义 Schema.

Custom Schema 允许用户根据自身业务的需求，定制数据提取的逻辑和输出格式。

以发票信息提取场景为例，在标准的文档信息提取过程中，系统会自动识别常见的字段，比如发票号、日期、金额等。

然而，实际业务中，不同企业或不同行业可能有不同的文档格式和特定的字段。

因此 Custom Schema 类似 ABAP 标准程序里植入的 BAdI 增强出口，其必要性源自于文档的多样性与业务场景的复杂性，因为单一的通用数据模式往往无法完全满足特定企业的需求。

通过 Custom Schema，用户可以根据其特定的业务需求，自定义所需提取的字段。

假设我的业务需求就是把下面这张 PDF 格式的成绩单，里面的信息提取出来。

成绩单包含三部分：成绩单抬头名称，表格的抬头和具体的 6 条行项目。

因此我新建一个 Schema，名称为 student_score_schema, OCR Engine Type 为 Document：

在这个 Schema 的明细编辑界面，我根据 PDF 的布局，依次创建了两个 Header Fields 和两个 Line Item Fields.

title 负责提取成绩单抬头名称，类型为 string
table_header 负责提取表格抬头名称，类型为 string
student_number 负责提取行项目的学号，类型为 number
student_score 负责提取行项目的成绩分数，类型为 number

激活这个创建好的 Schema.

创建一个新的 Document Extraction 任务，选择刚刚创建好的 Schema，再上传本地的成绩单 PDF 文件，点击 Confirm：

很快这个成绩单内的信息就按照期望的方式被提取出来了，存储到了 Custom Schema 里定义的对应字段中去。

在提取结果里，从上到下依次显示了 Custom Schema 里定义的字段名称，和实际从文档中提取到的字段值。

另外在左侧的文档预览区域，鼠标放到文档上，能自动显示该区域的内容，到底通过 Custom Schema 里哪个字段存储的内容。

除了手动在 SAP BTP 控制台里通过 GUI 的方式操作之外，Document Information Extraction 也支持通过代码调用 API 的方式消费。

我们在 SAP BTP Document Information Extraction Service Key 里，能找到 swagger 也就是服务 API 的调用控制台的 url.

用浏览器访问这个 url，能进入 SAP BTP Document Information Extraction 的 API 调用控制台，相当于一个专属的浏览器版本的 Postman，可以在浏览器里通过 API 的方式执行文档信息提取的各种操作。

在实际调用 API 之前首先要进行身份认证。

记录下上图 Service Key 里包含的 `clientid` 和 `clientsecret` 字段。我们需要用这两个字段，换取 API 调用所需的 Access Token.

使用 Postman 访问如下 url, 其中 host 占位符可以在 Service Key 里找到。

https://<host>/oauth/token?grant_type=client_credentials

认证方式选择 Basic Auth，将 Username 和 Password，分别维护成 clientid 和 clientsecret.

执行这个 HTTP GET 请求，从 Response 里得到 Access Token.

回到 SAP BTP Document Information Extraction Swagger 控制台，在 token value 字段输入 Bearer 再加上刚才得到的 Access Token，点击 Authorize 按钮即可完成认证。

接下来我们就可以使用 API 的方式来消费 SAP BTP Document Information Extraction 服务了。

因为我们是进行文档类型的操作，所以展开 Document 类型来浏览其内的 API 列表。

使用 API `/document/jobs` 来提交一个新的文档信息提取作业。点击 Try it out 按钮：

在请求 Payload 区域，给 file 字段指定成本地 PDF 文件，options 区域的内容如下，其实就是指定我们之前创建的 Custom Schema.

{  "schemaName": "student_score_schema",  "clientld": "default",  "documentType": "Custom"}

点击 Execute 按钮发送请求，收到 HTTP 201 Created 的服务器端响应，说明一个新的文档信息提取作业，在服务器端创建成功了。

服务器端返回了这个作业的 id 和状态。文档信息提取是异步过程，状态为 Pending，说明提取尚未结束。

{   "status": "PENDING",   "id": "82933acd-5971-46ec-9b56-d0774cb3f175",   "processedTime": "2024-09-05T06:07:54.507003+00:00"}

稍等片刻，使用另一个 /document/jobs/{id} API，将服务器端返回的 job id 传入，就可以查询这个 job 对应的提取任务的执行结果了。

提取结果是 JSON 格式。

可以看到，SAP BTP Document Information Extraction 服务基于机器学习的方式进行的文档信息提取。

提取出的信息，智能匹配到 Custom Schema 的字段中去。

因此提取结果里，不仅包含了提取出来的值，还包含一个 condifence 值，即 Document Information Extraction 服务从文档里提取出来的字段，与 Custom Schema 里定义的字段，二者匹配程度的一个预测得分值，范围在 0 到 1 之间。越接近 1，结果越可信。

字段 coordinates 为文档里被识别出的字段的边界框的坐标。

当然用 SAP BTP Document Information Extraction 服务来处理学生的成绩单，简直是杀鸡用牛刀了。

目前业界流行的做法，是 Document Information Extraction 与机器人流程自动化 (RPA) 技术的集成。二者强强结合的方式，能够进一步提高业务流程的自动化水平。

除了 SAP 系统外，文档信息提取服务也将越来越多地与企业的其他业务系统进行集成，这将为企业提供更加灵活和广泛的应用场景，帮助企业实现数字化转型。

码农干货铺

永远要保持一种无论何时何地都逼着自己更努力更优秀来享受更好生活的学习状态

最新文章

FB08、F.80凭证冲销校验增强

ABAP基础知识会计凭证冲销BAPI

CDS相关资料整理(十二)增强或扩展CDS视图

SAP小技巧设置表的代理视图

大清乾隆通宝24局全部梳理完成

传输请求的状态跟踪

传输请求的合并拆分等

物料主数据屏幕增强1——自建表方式

物料主数据屏幕增强2——标准表方式

销售订单增强

销售开票增强

SAP请求传输完自动发送邮件

在 SAPGUI 里用 ABAP 编写和运行俄罗斯方块

SAP ABAP 代码全文(Full Text)搜索的技术实现原理

随手写的alv弹出，就是图个省事儿而已

获取SM12锁列表

用户解锁SM04 SM12

SAP QM 客户退货检验的三种实现方案

屏幕分割方法汇总

ALV相关文章

如何查看 SAP ABAP Kernel Module 的源代码

SAP ABAP 里的隐藏数据类型：%_c_pointer

【转载】AP ABAP 代码修改自动比较对象版本一致

批量修改角色权限字段值

SAP ABAP ZBA_R001 查询用户下的角色

SAP ABAP ZBA_R002 查询用户下的角色

函数动态调用(RTTS)-实战篇

SAP Business Accelerator Hub 上 SOAP，OData 和 REST，这三种 API 的联系和区别

SAP ABAP 长文本取数的终极优化

Smartforms 更改字体后显示有误问题分析

SAP委外采购订单创建时，系统报错提示：不能确定任何组件，消息号ME154

BP信贷关系表，信贷关系查询

ABAP Daemons 和 ABAP 后台作业的区别

什么是 SAP ABAP 系统的工作进程(Work Process)

SAP小技巧特殊搜索帮助

搜索帮助系列

使用 SAP BTP Document Information Extraction 服务，处理老师发到家长群里的成绩单

SAP小技巧 OFFICE软件的内嵌问题

SAP Business Accelerator Hub 上 SOAP，OData 和 REST，这三种 API 的联系和区别

保姆级教程：如何将 ABAP 系统的数据，嵌入到 PDF 并显示在浏览器窗口中

解答读者疑问：JSON 字符串序列化成 ABAP 时遇到问题该如何处理？

Translation of DB6 Trace Location Information to ABAP Source

ABAP 程序员必备指南：三种不同 ABAP 环境下诊断运行时错误的方法揭秘

SAP ABAP Web Service 的创建与消费：保姆级教程

保姆级教程：ABAP 通过 HTTP POST 调用 OData 服务创建业务数据的具体例子

SAP ABAP 权限控制的入门级介绍

从一个实际的例子出发，介绍 SAP ABAP CDS View 的权限控制实现原理

授人以鱼不如授人以渔：手撕 ABAP Where Used List 的标准功能实现

ABAP基础知识两种CDS视图的差异

谁有实际开发权限？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉