大分子药物FTO分析之数据库选择和检索策略

科技   2023-11-07 10:55   江苏  

本文作者:刘健(经授权发布)


1

前言


生物药物主要有蛋白质、核酸、糖类、脂类等,因其具有靶向性好、药理活性高、毒副作用小、营养价值高等优势,近几年发展迅速,预计2022年国内生物药市场规模将超5000亿元。其中蛋白质类和核酸类药物尤其受到研发的关注和市场的追捧。

生物药的研发过程面临着技术难度高、费用高、周期长等问题。此外生物医药领域竞争激烈,专利布局也很密集,不管是企业、科研院所还是投资方还必须考虑可能存在的专利侵权问题;因此在研发或投融资过程中,经常需要对生物药进行防侵权检索和分析。

生物大分子药一般涉及氨基酸序列或者核苷酸序列,而关键词检索不能很好地适用于序列检索,此外普通的检索分析人员对序列检索的数据库、检索策略并不熟悉。本文将以单克隆抗体药物的防侵权检索分析为例,介绍序列检索的数据库和检索策略。


2

1. 序列检索的数据库


例如NCBI、EMBL、DDBJ等免费序列检索数据库存在专利数据收录不全、算法以及保密等问题,不适合用于严谨的防侵权分析。目前可用于序列检索,并且数据收录和算法均能满足防侵权分析的主流商业数据库主要有GenomeQuest(以下简称GQ)、STN和智慧芽3个。

篇幅所限本文不对GQ、STN和智慧芽这3个数据库的优缺点进行全面分析和比较,仅从笔者的使用经验做出如下分享:

1). 使用2个以上数据库同时进行检索

笔者在检索中会使用相同的检索策略在上述3个数据库同时进行序列检索,时常会发现各个数据库的核心检索结果为分别互补的情况,即各个数据库的收录范围多数重合,但存在少数专利未被这3个数据库同时收录。

例如智慧芽相比于GQ和STN,对最新公布的CN专利中的序列收录更加及时;但是由于GQ和STN开发序列数据库较早,因此对于老专利的收录比智慧芽又更加全面。

因此结合2个以上数据库的收录范围,可有效满足防侵权检索对查全率较高的要求,避免出现重大纰漏。特别是应对中国防侵权检索,笔者建议至少使用智慧芽再加上GQ或STN同时进行检索。

2).考虑检索结果的同族专利

笔者在检索中经常发现,如数据库中一个简单专利家族包含涉及序列的WO、US、EP、CN等专利,数据库可能仅收录了其中WO或US专利的序列信息,而暂未收录EP或CN专利序列信息。其原因可能是不同国家/地区的专利局序列文本化程度不一样,也有可能是公开较晚的同族专利中的序列暂未被数据库收录。

例如申请日较早的WO1999057134A1专利家族,GQ、STN和智慧芽这3个数据库均收录了该家族中WO、US专利的序列,但未收录申请于1999年05月03日CN1305896C中的序列。

再如申请日较晚的WO2015100394A1专利家族也存在类似情况,智慧芽收录了该家族中WO、US专利的序列,但未收录申请于2014年12月24日的三件中国同族专利CN105814204B、CN111394355A和CN111440795A中的序列。

因此笔者建议在进行防侵权检索时,原始检索范围可放宽至全球,并再在简单专利家族数据库中筛选目标国家/地区的专利进行对比分析,这样可有效避免同族专利收录不全带来的漏检风险。

3).序列检索的不同算法

目前主流的序列检索算法有GenePAST、Blast、Motif、Fragment Search等,其中Blast、Motif是常规算法。这些算法基本能够满足不同类型的检索需求,但需要注意的是针对不同的检索对象,应该选择最适合的算法。

例如针单克隆对抗体序列的检索,我们会使用GQ的GenePAST算法、STN的CDR算法对抗体CDR序列进行检索,利用GQ和STN的Blast算法进行抗体重链/轻链全长检索。智慧芽还专门针对抗体检索场景开发了一个检索页面,检索时较为方便。

以下为GQ、STN和智慧芽这3个数据库抗体检索的界面。

上图为智慧芽抗体检索界面

上图为STN抗体检索界面

上图为GQ抗体检索界面


 另外,上述3个数据库具有不同的显示/导出规则和筛选项,各有优点,建议检索分析人员可根据不同的案件需求和检索习惯使用不同的数据库,在此不再展开。

总之,笔者认为序列检索数据库并不像关键词检索数据库那样数据收录完整且趋于同质化,上述3个序列检索数据库各有不同的特点,作为检索分析人员需要在充分了解序列检索的内在逻辑、数据库优缺点的基础上选择最优的检索方案。


3

单克隆抗体的防侵权检索策略


针对单克隆抗体的序列检索已经具有比较成熟的方法了,常用的是CDR检索[1],上述3个数据库也都有相应的算法或特定的检索界面,逻辑清晰易上手。但是笔者认为如果仅仅使用CDR检索,大概率是不能满足防侵权检索的要求的,其原因和应对策略如下:

单克隆抗体示意图


1).关注保护一个或多个CDR的权利要求

如权利要求单独保护一个或多个CDR,且说明书中未出现同时满足CDR1、CDR2、CDR3的可变区/全长序列,这样的专利往往会被漏检,或者数据库不会作为高相关专利显示。在对检索结果进行分析时,需要分别筛选出匹配1个或2个CDR的专利,并对涉及保护CDR的权利要求进行侵权判定分析。目前,上述3个数据库均可以方便地分别筛选出匹配1个、2个或3个CDR的专利,这也为检索分析工作带来了较大的便利。

CDRs筛选示意图


此外,因为CDR序列一般较短,在检索时一般建议可以适当设置1-2个氨基酸的错配,而不是设置序列相似度。

2).重链/轻链可变区全长检索

CDR具有不同的标注方式,例如IMGT、Chothia、Kabat、Martin规则下的CDR序列各不相同,笔者不建议针对不同标注方式的CDR序列分别进行多次检索,这样不仅会带来更多的数据库花费,也会增加不少分析的工作量。因此,笔者建议针对重链/轻链可变区全长进行检索,一般建议设置80%的序列相似度,其原因如下:

a.作为CDR检索的重要互补检索策略,重链/轻链可变区全长检索可有效检出全长符合80%以上相似度,但不符合CDR检索要求的专利。

b.此外,例如有些专利权利要求的撰写方式为:“一种抗体,其特征在于,轻链可变区为SEQ ID NO: 1 及其同一性在80%以上序列”,这种情况未限定CDR,权利要求保护范围也比较大,如不使用全长检索很有可能造成漏检。

同时,笔者认为CDR检索结合重链/轻链可变区全长检索,是单克隆抗体防侵权检索的基本策略。

3).靶点、适应症检索

笔者在检索中还发现存在一些在审专利申请的权利要求会以靶点、适应症等角度保护抗体,但未限定具体的序列。例如专利申请CN103509114A的权利要求1为:“能够结合CLD18并介导杀伤CLD18表达细胞的抗体”。这类专利申请的权利要求保护范围较大,并且目标抗体很有可能会落入保护范围。

一般认为,这类专利权利要求中限定的抗体需要得到说明书中具体序列的支持,并且直接授权的前景很小。但是防侵权检索中也需要关注在审状态的专利申请,因此如果不进行靶点、适应症检索的话,可能会因为如下原因而存在漏检风险:

a.说明书中具体序列与目标序列同一性较低,

b.数据库未收录相关序列,亦或说明书中确实不存在序列。

笔者认为,作为检索分析人员,更加注重的是系统地、全面地提示风险,因此有必要对靶点和/或适应症进行关键词检索,作为序列检索的补充。

4).恒定区检索

针对单克隆抗体进行防侵权检索时,一般不需要检索恒定区的序列,但是如果存在突变点位或者特定修饰的情况,则建议对部分或全部恒定区序列进行检索。


4

总结

综上,现有的商业数据库为我们提供了较为全面的序列收录范围,以及基本的序列检索算法和方便快捷的检索/筛选界面,能够基本满足我们对不同类型的序列进行检索分析的需求。但是笔者始终认为“人无完人、库无完库”,我们作为数据库的使用者,应当在充分了解不同数据库的优缺点的基础上,时刻关注数据库算法的更新以及收录范围的变化,在序列检索时综合利用不同数据库的优点以提高项目可靠度,结合科学、全面的检索策略以确保项目质量。

另外,笔者对融合蛋白、RNA等序列检索也积累了较多项目经验,以后继续分享。

[1] 匹配同时满足CDR1、CDR2、CDR3这3段CDR序列的可变区/全长序列作为检索结果。

本文作者

刘健

苏州兰登紫金信息技术有限公司检索分析部主管

jliu@lz-inno.com

     擅长提供基于深度专利和科研文献分析的技术咨询,为客户的研发方向提供指引,为客户研发部门的专利布局、成果转化与管理提供咨询服务。在以下技术领域或产业中具有多年工作经验:新能源电池及汽车、高分子材料、大分子及小分子药物、医疗器械、人工智能及机器人、食品工业等。

野生的专利检索与分析
专利检索分析知识分享交流
 最新文章