专利佳文5期 ▏生成式AI专利检索能力评测

科技   2024-03-13 17:42   江苏  

前 言

以ChatGPT为代表的生成式AI自2022年末就开始火爆全球,不断催生新的应用场景,改变了信息和知识的生产方式,推进了人与技术的交互模式。专利检索自然也要紧跟时代的发展,探索提高效率和质量的新路径。近期在阅读海峡对岸专利检索中心发布的《AI 聊天機器人專利分析報告》时,发现一章涉及生成式AI聊天机器人专利检索能力评测的内容,非常具有参考学习的价值,在此摘录分享。
报告原文PDF请点击文末“阅读原文”

聊天机器人逐渐被广泛应用在不同专业领域,而各界关注的正是传统人力具备的专业技能,在 AI 聊天机器人上能重现到何等程度, 如下图所示实测主题以 ChatGPT Plus(GPT-4)作为评测对象, 而检测的专业技能为「专利检索」,检测执行日期为 2023 年 5 月 20 日。检测流程将会以人力进行专利检索的角度切入模拟,检测步骤大致分为两个阶段「读取专利内容」以及「检索策略拟定」

「读取专利内容」能力评测

专利检索前首先确认 ChatGPT 对于专利检索的认知,是可以透过搜寻已公开专利来收集信息,藉此达到研发前的侵权回避、汇整竞争对手情报或者专利估价等目的,如下图所示。

图 :专利检索认知评测

下一步则是确认检索目标,例如专利检索运用在前案检索时,需要先判读专利内容并解析出可用于检索的重要元素;运用在特定主题(例如:特定技术、特定产业、特定专利权人)的专利分析,则是需要取得目标主题相关可用于检索的重要元素。


图 :专利检索前置作业能力评测

上图所示,确认 ChatGPT 知晓专利检索开始前,需要取得专利的核心概念、技术特征、工作原理、技术领域、产品、应用等信息, 并需要厘清检索目的(FTO、有效性检索、审查或者专利分析等等) 以及限缩条件(如地区),以较严谨的角度去审视 ChatGPT 回覆的内容,可以发现还缺少重要的分类号信息,而在后续提问中亦得到正向的答覆。

图 :以专利案号或网址获取专利内容评测

依据上图确认 ChatGPT 无法藉由专利案号于专利数据库进行检索,亦无法经由连结取得专利内容信息。由于 ChatGPT 无法透过案号以及网址取得专利内容,故尝试透过对话框写入专利摘要或请求项内容,确认 ChatGPT 可以由摘要或请求项内容解析出具有意义的关键字词以及技术领域。

在评测ChatGPT 在于「读取专利内容」的能力时,发现无法藉由输入存取网络内容的指令(如提供专利案号及连结),来使 ChatGPT产生使用者所需要的回应内容,需要透过使用者手动输入纯文字的专利内容,才能使 ChatGPT 成功读取并解析专利内容,以获取可用于专利检索的可用信息(如应用技术领域、技术特征、关键字以及分类号等),如下图所示。

图 :解析英文摘要评测

图 :解析英文独立项及附属项内容

图:解析中文摘要评测

图:解析中文独立项及附属项内容

评测过程中发现到不同的对话框,对于相同提问得到的回应内容也会有所出入,如上图的中英文独立项及附属项内容解析,是藉由不同对话框进行提问,在于分类号的回应上有着阶层多寡的差异,推测原因在于不同对话框背后对应了不同的语言模型。评估现阶段的ChatGPT 在于「读取专利内容」的能力上,只要提问的方式恰到好处, 可以协助不具专业技术背景的使用者快速的解析可用的技术特征、关键字以及分类号,但准确度可能会依据语言模型在于不同专业领域知识训练有所差异。

「检索策略拟定」能力评测

下一步则是设定检索策略的能力评测,ChatGPT 认为检索策略需要包括数据库、关键字及分类号检索、栏位设定、专利引用/被引用文献(滚雪球)、专利权人、时间范围等信息。另外在提供特定主题给ChatGPT 要求检索策略时,一样会返回关键字及分类号内

从大方向来看 ChatGPT 对于检索策略的理解是正确的,但是要完成专利检索最重要的一步是建立检索式,因此,修正提问方式如下图所示。

图:检索策略知识确认

图 :检索式评测-1

虽然 ChatGPT 知道可以藉由逻辑运算调整检索范围,但是从上图可以发现 ChatGPT 会以范例形式的内容进行回应,所以,不见得是可以直接被使用的内容,若是以上图提供的检索式进行评估,可以发现其在于关键字的上下位观念敏感度较低,例如将「生成式」相关关键字透过 OR 逻辑结合非常上位的关键字「自然语言处理」,基本上检索结果会非常的发散。

除了依据不同对话框背后不同的语言模型,会有不同的回应内容之外,询问 ChatGPT 的方式也会让回应有所差异,另外一个评测是以「聊天机器人」为检索主题如下图所示,要求ChatGPT 提供特定数量的关键字以及中英文同义词,如同建好表格请 ChatGPT 填入资料,并进一步要求建立检索式。

图 :「聊天机器人」主题关键字

图 :检索式评测-2

可以发现到虽然 ChatGPT 会使用逻辑操作数搭配关键字来建立检索式,但是在于逻辑操作数影响到的关键字设定上,却是令人出乎意料之外(例如 NOT “patent”),由于 patent 是一个常见于专利文献的用词,如果是透过 Google Patent 来将上图的检索式进行搜寻, 基本上所有结果都会被过滤;而透过 Derwent Innovation(DI)数据库以全文栏位进行检索,则是部份包括先前技术引用文献内容(如 patent application Ser. No. 15/949,011)的专利文献会被过滤,因此,用 NOT 操作数搭配「patent」关键字作为聊天机器人主题的检索范围限缩是不恰当的。后续尝试提示 ChatGPT 检索式中存在错误的部份,虽然从回应中得到了修正后的正确检索式,如下图所示,但修正的理由为专利文件本身是检索的目标,故移除 NOT “patent”,以专利从业人员的角度来看,如上述在 DI 数据库以及 Google Patent 数据库实测检索结果,依据不同数据库对于引用文献记载的方式,将会影响检索关键字的使用,因此,检索主题需要进行排除特定技术时,需要评估所设定的关键字是否会因为专利内容有固定记载的状况进行调整

图 :检索式修正检测

根据上图修正后的检索式,于 DI 数据库于全文栏位进行检索得到 283 笔检索结果,其中包括 141 个 DWPI 专利家族、98 个INPADOC 专利家族以及 235 个申请号,随机从检索结果中挑选一件专利的独立项,作为输入确认 ChatGPT 是否能够判断专利内容与检索式之间的关联性,并且假设遭遇检索结果不如预期的状况时,确认ChatGPT 有能力提供对检索式进行调整的建议,如下图所示。

图:检索结果判断以及调整检测

在这阶段评测过程中发现 ChatGPT 的知识水平,可以充分理解检索策略的用途,但是生成的检索式并非完全正确,因此,还是需要经由使用者确认其可用性,并藉由输入的内容引导 ChatGPT 进行检索策略的调整综上所述,评估现阶段的 ChatGPT 在于「检索策略拟定」的能力上,只能是辅助使用者完成任务的角色,并无法独立完成专利检索作业,主因为 ChatGPT 无法存取任何专利数据库内容作为训练数据,亦无法直接向任何专利检索数据库下达检索操作指令。

最后询问ChatGPT 对于专利数据库业者导入生成式 AI 技术的看法,如下图所示,得到预期的功能包括自然语言查询、专利摘要生成、自动分类、趋势分析、专利监控以及查找相关专利。直观来说ChatGPT 的专长是产生内容,而专利说明书的撰写正是目前 ChatGPT 能作到的,未来专利产业中不论是专利申请、专利审查、专利分析, 甚至是专利诉讼的攻防,都将因为导入生成式 AI 发生巨变

图 :生成式 AI 导入专利数据库可预期功能

The End

Source:https://www.psc.org.tw/upload/17/2024021514490586195.pdf
Each article is copyrighted to their original authors. The article is for informational purposes only and does not provide legal advice.


   更多内容,欢迎查看往期推送 

野生的专利检索与分析
专利检索分析知识分享交流
 最新文章