数据库分享 | NCBI 关于 2023 年资源更新的最新报告

文摘 2024-11-21 06:40 中国香港

Basic Information

英文标题： Database resources of the National Center for Biotechnology Information
中文标题：国家生物技术信息中心的数据库资源
发表日期：22 November 2023
文章类型：Na
所属期刊：Nucleic Acids Research
文章作者：Eric W Sayers | Stephen T Sherry
文章链接：https://academic.oup.com/nar/article/52/D1/D33/7442534

Abstract

国家生物技术信息中心（NCBI）为生物学提供了在线信息资源，包括GenBank®核酸序列数据库和PubMed®生命科学期刊出版物的引文及摘要数据库。
NCBI为这些数据中的大部分提供了来自35个不同数据库的搜索和检索操作。
E-utilities作为这些数据库的主要编程接口。
在过去一年中进行了重大更新的资源包括PubMed、PMC、Bookshelf、SciENcv、美国国立卫生研究院比较基因组资源（CGR）、NCBI病毒、SRA、RefSeq、外来污染筛选工具、分类学、iCn3D、ClinVar、GTR、MedGen、dbSNP、ALFA、ClinicalTrials.gov、病原体检测、抗微生物耐药性资源以及PubChem。
这些资源可以通过NCBI主页https://www.ncbi.nlm.nih.gov进行访问。

Introduction

NCBI overview

NCBI 概览

Para_01

国家生物技术信息中心（NCBI）是位于美国国立卫生研究院（NIH）内的国家医学图书馆（NLM）的一个中心，成立于1988年，旨在为分子生物学开发信息系统。
本文首先简要概述了NCBI的数据库集合，随后总结了我们在过去一年中进行了重大更新的资源。
我们提供了更全面的NCBI资源介绍，可在各个数据库的主页以及NCBI手册中找到（https://www.ncbi.nlm.nih.gov/books/NBK143764/）。

NCBI databases

NCBI数据库

Para_02

NCBI 维护着一组多样化的 35 个数据库，这些数据库合计包含 43 亿条记录（表 1 和图 1），其中大部分可通过 Entrez 检索系统获取，网址为 https://www.ncbi.nlm.nih.gov/search/。
图 2 以图形方式表示了这些数据库中的几个，并将它们分为三组：文献、生物分子和临床遗传学。
下面将按此顺序讨论这些数据库。
每个数据库支持使用简单的布尔查询进行文本搜索，以多种格式下载数据，并基于声明的关系在数据库之间链接记录。
在 Entrez 中检索到的记录可以多种格式显示，并可单独或批量下载。
Entrez 功能的应用编程接口（E-utilities）可供使用，并提供了详细的文档，网址为 https://eutils.ncbi.nlm.nih.gov/。

Table 1. NCBI databases (as of 21 August 2023)

Database	Records	Description
Literature
PubMed	36,100,644	scientific and medical abstracts/citations
PubMed Central	9,268,952	full-text journal articles
NLM Catalog	1,634,653	index of NLM collections
Bookshelf	983,634	books and reports
MeSH	353,699	ontology used for PubMed indexing
DNA/RNA
Nucleotide	605,293,217	DNA and RNA sequences from GenBank and RefSeq
BioSample	34,796,756	descriptions of biological source materials
SRA	28,858,671	high-throughput DNA/RNA sequence read archive
Taxonomy	2,653,432	taxonomic classification and nomenclature catalog
Assembly	1,782,091	genome assembly information
BioProject	712,423	biological projects providing data to NCBI
Genome	79,671	genome sequencing projects by organism
BioCollections	8,497	museum, herbaria, and biorepository collections
Genes
GEO Profiles	128,414,055	gene expression and molecular abundance profiles
Gene	47,059,151	collected information about gene loci
GEO DataSets	6,874,686	functional genomics studies
PopSet	404,340	sequence sets from phylogenetic/population studies
HomoloGene	141,268	homologous gene sets for selected organisms
Proteins
Protein	1,194,803,871	protein sequences from GenBank and RefSeq
Identical Protein Groups	629,076,260	protein sequences grouped by identity
Protein Clusters	1,137,329	sequence similarity-based protein clusters
Structure	208,741	experimentally-determined biomolecular structures
Protein Family Models	166,131	conserved domain architectures, HMMs, and BlastRules
Conserved Domains	64,234	conserved protein domains
Chemicals
PubChem Substance	307,634,967	deposited substance and chemical information
PubChem Compound	115,669,131	chemical information with structures, information, and links
PubChem BioAssay	1,626,630	bioactivity screening studies
PubChem Pathways	240,671	molecular pathways with links to genes, proteins, and chemicals
Clinical Genetics
dbSNP	1,121,739,543	short genetic variations
dbVar	7,749,330	genome structural variation studies
ClinVar	2,339,222	human variations of clinical significance
ClinicalTrials.gov	463,200	registry of clinical studies
MedGen	216,373	medical genetics literature and links
GTR	81,209	genetic testing registry
dbGaP	1,406	genotype/phenotype interaction studies

图 1. 截至2023年8月21日，每个NCBI数据库记录数量的年增长率。

图 2. 选自 NCBI 的数据库和工具，根据文中讨论被归类为三大类别。

Data sources and collaborations

数据来源与合作

Para_03

NCBI从三个来源接收数据：研究人员的直接提交，与国内外数据提供者及研究联盟的合作或协议，以及内部的整理工作。
例如，NCBI管理GenBank数据库，并作为国际核酸序列数据库合作组织(INSDC)的合作伙伴，与欧洲分子生物学实验室-欧洲生物信息研究所(EMBL-EBI)的欧洲核苷酸档案库(ENA)和日本DNA数据银行(DDBJ)合作。
有关直接提交过程的详细信息可从NCBI提交页面(https://www.ncbi.nlm.nih.gov/home/submit.shtml)和各资源主页获取（例如GenBank页面，https://www.ncbi.nlm.nih.gov/genbank/）。
关于各种合作、协议和整理工作的更多信息也可通过各资源的主页获得。

Literature updates

PubMed

PubMed

Para_04

PubMed 提供免费在线访问生物医学文献的引文和摘要，并促进了对 MEDLINE、PubMed Central 和 Bookshelf 文献资源的搜索。
在过去的一年里，PubMed 添加了超过 140 万条引文，使数据库在 2023 年的总引文数量增长到超过 3600 万条。
现在，PubMed 在选定的搜索字段中提供了邻近搜索功能（https://www.nlm.nih.gov/pubs/techbull/nd22/nd22_pubmed_proximity_search_available.html）。
这个备受期待的功能支持搜索出现在彼此特定距离内的术语，为在 PubMed 中搜索可能以多种方式表示的概念或捕捉短语的变化提供了一种强大的新方法（https://pubmed.ncbi.nlm.nih.gov/help/#proximity-searching）。
例如，对于 '配给医疗保健' 的邻近搜索也可以捕捉到诸如医疗保健配给、医疗保健的配给、医疗保健中的配给、普遍医疗保健的配给策略、有限医疗保健的配给等变化，而无需单独搜索这些短语。
此外，PubMed E-utilities API 已更新为使用支持 PubMed 网页界面相同的技术栈（https://ncbiinsights.ncbi.nlm.nih.gov/2022/11/22/updated-pubmed-eutilities-live/）。
这次更新使 PubMed E-utilities API 的功能与网站保持一致，以提供一致的行为和搜索结果。

Para_05

我们的最佳匹配算法既反映了文章与查询的相关性，也考虑了用户对文章类型的选择偏好。
随着用户偏好的变化，该模型会进行更新以适应这些变化。
过去，这些更新需要人工审核，因此更新频率较低。
现在，一个稳健的自动化系统能够判断新模型是否可靠，因此更新变得更加频繁。
我们还简化了作者姓名识别过程，使得PubMed中的计算作者信息可以每周持续更新。

PubMed Central (PMC)

PubMed Central (PMC)

Para_06

PMC是NLM的免费全文档案库，收录了生物医学和生命科学期刊文献。
2023年，PMC档案馆的公开可用全文期刊文章、作者手稿和预印本数量超过了900万篇。
2023年，PMC启动了NIH预印本试点项目的第二阶段，扩大了试点项目的范围，包括来自符合条件的预印本服务器的NIH资助研究产生的预印本。
作为NLM的一个项目，NIH预印本试点项目于2020年启动，旨在探索增加NIH支持研究成果可见度的新方法，第一阶段重点关注COVID-19及SARS-CoV-2病毒相关的NIH资助研究。
截至2023年8月，已有近13,000篇预印本记录通过该试点项目被加入到PMC中，从而加速并扩展了对NIH资助研究的发现。

Para_07

在2022年3月成功推出现代化PMC网站的基础上，PMC发布了几项改进文章显示的功能，以支持用户最需要的活动，这些改进基于从用户和利益相关者那里获得的直接反馈和用户研究。
这些更新包括改进桌面和移动设备上引用信息的展示方式；一种简便的方法可将文章直接添加到特定的My NCBI收藏夹；以及增强的"资源"部分，提供对类似文章、被引文章和NCBI其他数据库中的相关数据记录的便捷访问。
（https://ncbiinsights.ncbi.nlm.nih.gov/2023/02/27/enhancements-pmc-website/）

Para_08

此外，PMC进行了多项更新，以明确其作为数字档案的角色，并改进PMC内容的描述、展示和分享方式，服务于具有不同知识水平的广大且多样化的用户群体，这些用户对NLM、NIH以及学术出版流程了解程度不一。
这些背景信息更新包括在所有PMC文章页面上显著位置添加注释，以阐明NLM与其在PMC中归档的文章之间的关系；更新默认的社交媒体展示形式，当从PMC分享文章时；以及在文档页面上新增的信息图，展示了PMC中不同类型的内容及其如何融入学术出版流程。
随着美国及全球COVID-19公共卫生紧急状态声明的到期，PMC将其COVID-19公共卫生紧急倡议转变为PMC COVID-19集合，继续致力于确保对超过50家出版商提交的超过35万篇文章的永久访问。
最后，在二月份，NLM扩大了PMC的资格要求，考虑接受主要以西班牙语出版的非MEDLINE期刊的申请，这是朝着将PMC的范围更紧密地与MEDLINE以及更广泛的NLM收藏相一致迈出的第一步。

Bookshelf

书架

Para_09

NCBI Bookshelf 提供生命科学、医疗保健和医学领域的全文书籍和文档的免费在线访问。
在过去的一年里，Bookshelf 添加了超过 1000 本书，使资料库总数增长到超过 11 600 本，来自超过 150 家内容提供商。
2023 年新增加的重要同行评审集合涉及毒理学、健康差异、护理和公共卫生等领域。
Bookshelf 还启动了一个试点项目来收集开放教育资源 (OER)。
作为这个试点项目的一部分，首次添加的开放教科书是 Open RN 项目创建和更新的教科书（https://www.ncbi.nlm.nih.gov/books/NBK590025/），该项目由奇皮瓦河谷技术学院领导，并部分由教育部资助。
为了帮助用户更容易找到 Bookshelf 中所有可用的教科书和 OER 资源，目前大约有 150 本书，Bookshelf 为此系列添加了搜索过滤器，并在其网站上所有教科书页面的底部添加了指向这些资源列表的链接。

SciENcv

SciENcv

Para_10

SciENcv（Science Experts Network Curriculum Vitae，网址：https://www.ncbi.nlm.nih.gov/sciencv）对于那些寻求来自联邦组织如美国国立卫生研究院、国家科学基金会和教育部教育科学研究所等机构的联邦研究资助的人来说是一个有用的资源。
通过将ORCID账户与SciENcv关联起来，用户可以享受到一系列的好处，包括在文档中包含持久性标识符、从ORCID资料自动填充字段以及能够无缝地将ORCID资料中的引用整合到个人简介中。
这样能够轻松地在个人简介中加入来自ORCID资料的引用信息。

Para_11

SciENcv最近进行了针对用户需求的界面增强，包括诸如对必填项进行错误验证、通过日历实现用户友好的日期输入以及字符计数器确保遵守政策规定的文字限制等功能。
SciENcv将保持动态更新，以适应联邦机构不断变化的需求，这些机构在寻求更全面的申请人信息的同时，正朝着标准化申请表的方向发展。

Biomolecule updates

DNA/RNA

脱氧核糖核酸/核糖核酸

NIH comparative genomics resource

美国国立卫生研究院比较基因组学资源

Para_12

美国国立卫生研究院比较基因组资源库（CGR）（https://www.ncbi.nlm.nih.gov/datasets/cgr/）通过最大化真核研究生物及其基因组数据对生物医学研究的影响。
CGR通过社区合作和美国国立生物技术信息中心基因组工具包，促进所有真核生物可靠比较基因组学分析。
社区合作对于CGR的成功至关重要，因为它确定了将更多与基因组相关的数据和元数据与美国国立生物技术信息中心的基因组工具包连接起来的机会，并提供了有价值的反馈来推动进一步的发展。
该工具包通过相互关联的数据库提供高质量的基因组相关数据，这些数据库具有接入点，可实现美国国立生物技术信息中心内容和工具的无缝导航，还可以融入用户的操作流程之中。

Para_13

我们在过去一年中发布了或更新了该工具包的多个组件。
其中包括一个新的实验性BLAST数据库，该数据库仅限于真核生物序列（nt_euk），以及分别针对原核生物（nt_prok）、病毒（nt_viruses）和其他序列（nt_others）的数据库。
这些较小的数据库下载时间更短，减少了搜索时间，并将搜索集中到感兴趣的序列上。
自2022年9月以来，我们向SPARCLE添加了超过4500个经过整理和发布的域结构（特定和超家族），这些信息可在保守域搜索（CD-Search）结果和蛋白质家族数据库中获取。
这些结构提供了蛋白质产物名称和蛋白质属性，如基因本体（GO）术语、酶委员会（EC）编号、PubMed ID以及来自其他资源的ID，例如转运蛋白分类数据库（TCDB）、MEROPS（肽酶数据库）和CAZy（碳水化合物活性酶数据库）。
这支持了更加准确和全面的比较蛋白质分析，并通过提高分类资源的互操作性使数据更加符合FAIR原则。

Para_14

我们以多种方式更新了真核基因组注释管道（EGAP），这是另一个工具组件的更新，这些改进提高了注释效果，并使生成的注释集更加有用。
通过使用STAR和minimap2对齐器生成的对齐结果进行额外过滤，改善了串联重复基因簇中的注释，而实现方面的改进提高了跨物种的对齐率。
此外，现在使用InterProScan为注释的基因分配GO术语，相关数据可通过FTP和NCBI Gene获取。
最后，EGAP现在利用Subread featureCounts软件计算每项RNA-Seq运行以及每个基因的表达量。

Para_15

比较基因组浏览器（CGV）(https://ncbi.nlm.nih.gov/genome/cgv/) 允许用户基于两个基因组之间的比对进行视觉检查，自2023年初以来，已增加了超过200种物种和375个比对的数据，其中许多是哺乳动物间的跨物种例子。
除了国家生物技术信息中心（NCBI）生成的比对外，这些新数据还包括加州大学圣克鲁兹分校基因组研究所生成并在最小程度上由NCBI处理以便展示的比对。
我们在工具中增加了一个点图（二维）显示功能，以帮助检测具有大范围基因组重排区域，例如易位或片段重复。

Para_16

由于我们在CGR方面的工作，NCBI也在提供工具和分析以提高基因组序列质量方面取得了重大进展。
继去年的测试版发布之后，现在可以下载一个稳定的Foreign Contamination Screening (FCS)工具套件（https://github.com/ncbi/fcs），该套件能够检测组装基因组中的接头和跨物种污染，使基因组提交者能够在提交前改进他们的基因组质量。
该工具支持对真核和原核生物基因组进行筛选。
基因组提交门户已更新，使用快速且灵敏度更高的FCS-GX筛选方法，加快了流程，并有助于减少新提交基因组中的错误。
超过150万个现有基因组的污染数据也可通过FTP获取（https://ftp.ncbi.nlm.nih.gov/genomes/TOOLS/FCS/reports/）。
我们进一步利用平均核苷酸同一性(ANI)分析来检测原核生物基因组中的污染。
我们使用FCS和ANI结果的组合，在NCBI的基因组资源中标记某些真核和原核生物基因组为‘受污染’，并将它们排除在NCBI RefSeq集合之外。
更多汇总报告可在FTP上获取（https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/），包括带有扩展基因组和注释统计信息的assembly_summary文件。
正在进行的努力将进一步揭示序列质量信息，帮助用户对其研究使用的数据做出明智决策。

NCBI virus

NCBI病毒

Para_17

NCBI病毒资源（https://www.ncbi.nlm.nih.gov/labs/virus/）作为一个用户友好的平台，用于搜索和获取病毒基因组序列及标准化元数据。
为了确保遗传变异评估的一致性和准确性，NCBI开发了一套分析流程（https://www.ncbi.nlm.nih.gov/sra/docs/sars-cov-2-variant-calling/），旨在系统地识别存储在序列读取档案（SRA）和GenBank仓库中的超过1480万个SARS-CoV-2序列样本中的核苷酸和蛋白质变化。
作为NCBI病毒资源的一部分，SARS-CoV-2变异概览仪表板（https://www.ncbi.nlm.nih.gov/activ）利用了来自NCBI SARS-CoV-2变异分析流程的见解。
最近进行了改进，该仪表板现在提供了使用序列变异或遗传谱系作为搜索参数来查询SARS-CoV-2记录的功能。
搜索后，界面提供可查看的序列记录和元数据，这些信息既可以在界面上查看，也可以下载为文件。
SARS-CoV-2变异概览还包括各国和美国各州的谱系地理位置和频率以及定义谱系的突变的可视化。
该界面是在与美国国立卫生研究院加速COVID-19治疗干预和疫苗（ACTIV）追踪抗药性和冠状病毒进化（TRACE）倡议合作下开发的（https://www.nih.gov/research-training/medical-research-initiatives/activ/tracking-resistance-coronavirus-evolution-trace）。

Sequence read archive (SRA)

序列读取存档 (SRA)

Para_18

NCBI 庆祝 SRA 数据上云三周年，目前数据总量已超过 25 艾字节。
其中包括超过 2700 万个公开的 SRA 文件，既有规范化格式也有精简格式，以及相关元数据和 STAT 分析。
这些数据可在亚马逊网络服务开放数据项目和谷歌云平台公共数据集项目中获取（https://www.ncbi.nlm.nih.gov/sra/docs/sra-cloud/）。
我们旨在通过提高识别和访问的便利性来促进艾字节级别的发现，这一目标正在逐步实现。
利用 SRA 云端数据，Edgar 等人极大地扩展了我们对病毒多样性的认识。
公共卫生领域的研究者正积极利用云端的 STAT 结果，既监测自己的提交数据，也监控如小儿麻痹症和麻疹等疾病。
Hodgins 等人指出，"传统的基于同源性的搜索方法（例如 BLAST）无法应用于如此大规模的数据"，他们通过使用‘谷歌的大查询 API 在 2021 年 3 月 15 日搜索 NCBI-STAT 数据库中与 tax_id = 1513 匹配的序列’，在宏基因组考古样本中发现了古老的破伤风梭菌相关序列。
通过参与 NIH ACTIV TRACE 项目，NCBI 提供了对原始源文件、SRA 文件以及从这些文件生成的 VCF 文件的开放访问，重点关注 SRA 数据中的 SARS-CoV-2 子集。
最后，这些公开数据激发了在最近的一次编程马拉松活动中探索 VCF 文件用于群体遗传学的可能性（https://ncbiinsights.ncbi.nlm.nih.gov/event/vcf-for-population-genomics-codeathon）。

RefSeq

RefSeq

Para_19

截至2023年8月11日，NCBI RefSeq收藏现在包括311,967个原核生物和1,735个真核生物基因组，这两类基因组每年的增长率均为21%。
本期刊中有一篇单独的文章描述了原核生物收藏的改进。
在真核生物收藏中，现在已有1,056个物种的基因组使用NCBI的真核生物基因组注释管道（EGAP）进行了注释，其中包括对人类、小鼠、大鼠和其他分类群的大量人工校正工作。
我们已经修订了新的EGAP注释运行的命名系统：这些名称基于组装存取号，并有一个日期后缀与注释运行相对应，例如GCF_000001405.40-RS_2023_03表示2023年3月的人类GRCh38.p14注释。
这提高了报告组装和注释数据的清晰度，并使数据更加FAIR（可发现、可访问、可交互操作和可重用）。
RefSeq对人类基因组的注释显著地融合了来自NCBI和EMBL-EBI的匹配注释（MANE）数据集。
最新的MANE发布版本（v1.2）包含了99.4%蛋白质编码基因的转录本，作为临床变异报告的通用标准。
我们鼓励采用MANE转录本来提高临床报告的一致性，简化临床解读，并促进资源之间的数据比较和交换。
我们还增加了历史人类RefSeq转录本的比对和注释数据，以帮助临床团队将遗留数据集迁移到GRCh38.p14参考基因组。
除了为人类GRCh38.p14和T2T-CHM13v2.0基因组提供的全面注释外，我们现在还为其他基因组上的策划基因提供注释，如人类HPRC联盟的基因组，作为泛基因组资源试点项目的组成部分。

Para_20

人类和小鼠基因组注释包括了RefSeq功能元件(RefSeqFEs)数量的巨大增长，这些元件记录了多样且功能重要的非基因编码元件，如基因调控元件和其他已在文献中实验验证的基因组区域。
对于人类GRCh38.p14和T2T-CHM13v2.0的GCF_000001405.40-RS_2023_03和GCF_009914755.1-RS_2023_03注释，自2022年对这些组装体进行注释以来，分别新增了超过78,000和66,000个新的RefSeqFE特征。
对于GRCm39上的小鼠GCF_000001635.27-RS_2023_04注释，自2020年最后一次小鼠注释以来，新增了超过3,900个新的RefSeqFE特征。
2023年的其他RefSeqFE改进包括：为注释特征提供的可提取细胞类型活动数据、下载文件中的额外字段以供数据挖掘、基因调控元件的附加目标基因链接以及GRCh38.p14、T2T-CHM13v2.0和GRCm39组装体上RefSeqFE轨道中心的更新。
更多详情，包括数据访问选项，可在RefSeqFE网页上找到（https://www.ncbi.nlm.nih.gov/refseq/functionalelements/）。
我们鼓励使用这个快速增长的数据集作为实验验证的非基因编码区域的参考资源。

Taxonomy

分类学

Para_21

NCBI 继续维护原核生物模式菌株及其基因组，以支持 ANI 分析。
我们已经在分类学 FTP 站点（https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/new_taxdump）引入了新的文件，用于列出以前在文献和公共资源中错误地列出的排除类型（excludedfromtype.dmp）。
我们也展示了 ANI 作为一种评估分类合并有效性的工具的实用性。
当两个独立描述的分类单元被识别为属于同一物种时，它们会被合并，而后来描述的分类单元成为最初描述分类单元的异名。
因此，我们预计来自异名的组装将显示出较高的 ANI 值。
如果异名的基因组显示较低的身份或较低的 ANI 值，则可能表明所涉及的物种实际上是不同的，不应该被合并。
我们收集了此类可能存在疑问的分类合并及其相关的 ANI 值（ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/prokaryote_ANI_suspect_heterotypic_synonyms.txt）。
由于 ANI 过程依赖于高质量的模式菌株基因组序列，因此在没有这类数据的情况下，其潜力受到限制。
不幸的是，仍有许多物种没有任何来自模式材料的基因组，所以我们强烈鼓励对这些物种进行测序并将基因组提交（ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/prokaryote_without_type_assembly.txt）。

Para_22

最终，我们完成了两项备受瞩目的名称变更：细菌和古菌的新门名称以及流感的二名法种名。
这些变更由《原核生物国际命名法规》(ICNP) 和《病毒分类与命名国际法规》(ICVCN) 制定的规则更改所触发。
我们在 NCBI Insights 博客文章中以及 FTP 站点上更详细地描述了这些变更（https://ftp.ncbi.nih.gov/pub/taxonomy/Major_taxonomic_updates_2023.txt）。

Proteins

蛋白质

iCn3D

iCn3D

Para_23

NCBI 跟踪的大量蛋白质序列可以映射到实验得出或计算预测的三维结构。
我们继续开发三维结构查看器 iCn3D，作为比较分析序列和结构以及探索序列-结构-功能关系的强大工具。
iCn3D 可以显示实验确定的三维结构以及预测的结构，并从各种在线资源检索三维坐标集。
我们现在提供了从蛋白质 BLAST 搜索结果直接可视化的链接。
在 BLAST 结果的‘对齐’窗格中，对于每个我们可以链接到实验或预测结构的序列，在每个序列右侧的‘相关信息’列表下会出现此类链接。
点击该链接将在浏览器标签中打开 iCn3D，显示用户查询序列与结构相关联序列之间的对齐，以及三维结构或模型。
iCn3D 将检索模板结构上的注释，例如保守域足迹、功能位点和序列变异，并允许用户将查询-主体保守模式与这些注释及详细的三维构象进行比较。
我们继续频繁更新 iCn3D，通常是对用户的直接请求作出响应。
更新记录在 https://github.com/ncbi/icn3d/blob/master/CHANGELOG.md，并且可以在 https://www.ncbi.nlm.nih.gov/Structure/icn3d 访问 iCn3D。

Chemicals

化学物质

Para_24

过去一年里，作为NCBI的公共化学数据库，PubChem扩大了其数据内容的范围，现在提供了来自超过930个数据来源的超过1亿1500万种化合物的信息。
值得注意的是，来自FDA全球物质注册系统（GSRS）的数据被整合到PubChem中，用于注释化合物，这使得获取受FDA监管的化学品信息变得更加容易。
同样值得注意的是，NLM于2022年12月停止了其化学信息资源ChemIDPlus和药物信息门户的服务，并且这些资源中的数据现在可以在PubChem中获取。
相关链接：https://www.nlm.nih.gov/pubs/techbull/ja22/ja22_pubchem.html。

Para_25

去年里，我们对PubChem的网页界面进行了重大改动，具体总结可在PubChem帮助网站上找到（https://pubchem.ncbi.nlm.nih.gov/docs/user-interface-updates-2023）。
一个值得注意的变化是引入了综合文献表格，该表格列出了关于特定化合物的所有论文。
我们通过整合来自多种文献数据源的信息来生成这个列表，包括期刊、出版商和数据库。
综合文献表格使用户可以在一个地方搜索、排序和下载数据。
我们还更新了PubChemRDF，这是一种采用资源描述框架（RDF；https://www.w3.org/RDF/）格式的机器可读的PubChem数据。
增加了共现子域，用于根据化学物质、基因/蛋白质和疾病在生物医学文献中的出现情况编码它们之间的关系。
这一更新使得用户能够通过SPARQL查询识别与给定命名实体一起被提及的化学物质、基因/蛋白质和疾病。

Clinical genetics updates

ClinVar

ClinVar

Para_26

ClinVar 是 NCBI 的人类遗传变异存档库，这些变异已被分类用于疾病和药物反应。
在过去的一年里，ClinVar 向数据库新增了 78 万条新变异记录，这些记录来源于 100 万条新提交的数据。
我们向 ClinVar 提交门户增加了几个功能，以便提交者更轻松地维护与其组织相关的信息。
‘编辑提交者组’和‘编辑人员’按钮允许提交者轻松编辑关于其组织提交者的资料（即有权代表该组织提交的人）以及人员（即在 ClinVar 上该组织页面公开列出的人）。
‘查看/添加断言标准文件’按钮使提交者能够添加新的文件作为 ClinVar 提交的断言标准。
现在，断言标准文件独立于变异提交进行提交，这意味着提交者只需提供一次每个断言标准文件，之后它将始终可用于未来的提交使用。

Para_27

ClinVar 团队还为体细胞变异分类开发了一个原型。
设计了新的字段来表示体细胞变异的临床影响（治疗、诊断或预后）以及其致癌性，这与该变异的生殖细胞分类区分开来。
我们还开发了新的变异页面和提交电子表格模板，并针对体细胞分类进行了修改，然后通过视频访谈的方式与用户进行了测试。
我们利用这些访谈反馈对变异页面和电子表格模板进行了修改，并以此指导体细胞变异汇总的设计。
我们将 ClinVar XML 和提交电子表格模板预期更改的预览发布到了 GitHub (https://github.com/ncbi/clinvar)，以帮助用户和提交者为此项变更做好准备。
我们将在有可用信息时发布更多预览，例如预期对 ClinVar VCF 文件的更新。

Genetic testing registry (GTR)

遗传检测登记库（GTR）

Para_28

遗传检测注册库（GTR，https://www.ncbi.nlm.nih.gov/gtr/）是美国国家生物技术信息中心（NCBI）的可订购临床和研究遗传检测以及分子和血清学检测的数据库，用于传染病。
GTR旨在通过提供遗传检测信息并为遗传检测领域带来透明度来支持医疗保健提供者。
截至2023年7月，GTR包含由来自48个国家的492个实验室提供的77,486项临床检测和233项研究检测，其中包括279个美国实验室。
在临床检测中，实验室已为2,237项检测分配了现行程序术语（CPT®）代码，并为519项检测分配了LOINC®代码。
GTR包含74,973项分子检测，其中近90%是单基因检测，其余的是多基因面板、外显子组和全基因组检测。
次世代测序（NGS）是最常用的技术（占检测的72%）。
GTR还包括细胞遗传学检测（2,563项检测涉及1,314个独特的染色体区域或线粒体）以及生物化学遗传检测（137项检测测量111种蛋白质；209项检测测量69种酶；596项检测测量2,346种分析物）

Para_29

在过去的一年里，GTR专注于改善数据提交者的提交体验。
新功能包括重新设计的主页，以实现更直观的提交体验。
新的页面提供了快速访问小组功能的方式，提交者可以管理实验室工作人员的权限，这些人员可以代表实验室提交数据，并且可以一键下载所有临床测试数据。
一个新的测试提交页面允许提交者添加新的测试、下载Excel模板、上传电子表格以及跟踪API提交。
我们还改进了GTR提交网站内的导航，使其更容易在主页、实验室记录、测试管理工具和测试提交页面之间切换。
测试管理工具提供了几个好处：它改进了搜索和选择需要更新或删除的测试的方式，使提交者能更轻松地追踪和更新测试数据，并为提交者提供了一种方式来下载选定数量的测试数据。
一个新的功能允许提交者同时为多个临床测试更新一组数据字段。
最后，提交者可以使用一个提交API，该API支持完全自动化的测试记录提交。

MedGen

MedGen

Para_30

MedGen 是 NCBI 的面向具有遗传成分疾病的临床信息门户。
其目标是支持临床遗传学在医学实践中的整合。
为了实现这一目标，MedGen 提供了一个关于遗传表型信息的在线门户，并从社区权威来源协调临床遗传学信息。
MedGen 还作为 ClinVar 和 GTR 的表型基础。
MedGen 致力于提供对适用于临床护理的遗传学知识库的访问，以便这些数据在护理点有用，同时也有助于计算互操作性的发展。

Para_31

MedGen是推动遗传表型数据标准化社区中的关键参与者。
它汇集并协调来自权威来源的人类疾病名称和属性，包括NLM内的UMLS、OMIM、Mondo、HPO、Orphanet（https://orpha.net）、向GTR提交检测描述的检测实验室，以及向ClinVar提交变异解释信息的组织。
术语可用作平面文件（如OMIM）或本体（如Mondo、HPO），MedGen对它们进行不同处理，以便以易于使用的格式在其网站上呈现给GTR和ClinVar用户，并在FTP站点上的报告中供外部组织使用。
当需要记录来支持GTR和ClinVar提交，而权威资源中没有此类记录时，MedGen会创建新记录，并每月向UMLS发送报告以供审核。
例如，MedGen通过使用通用药品名称和响应一词创建记录，来表示个体基于其基因型对药物可能产生的反应，即‘药物反应’。
在处理多个来源的数据时，有时会发现不一致之处，MedGen的策展人会审查问题，并找到解决方案或将问题报告给来源方，从而使整个社区从数据标准化中受益。
MedGen可能需要拆分记录、合并多个记录或创建新记录。
一些审查需要来自数据源和其他社区利益相关者的输入。
一个常见的数据冲突是测试实验室与数据来源之间所需的概念粒度不同，这促使了策展审查。
其他例子包括表示临床表现与特定遗传亚型之间的区别、有冲突的同义词（如癌症和肉瘤）、使用诸如‘基因相关障碍’之类的术语指代多种不同的表型，以及使用宽泛的概念描述多种不同的表型。
MedGen员工与社区合作，并提供数据不一致性的报告，以将来自多个来源的疾病概念映射统一到一个具体、统一的记录上，这个记录可用于临床医生、临床实验室、研究人员和数据来源方。

dbSNP and ALFA

dbSNP 和 ALFA

Para_32

为了纪念 dbSNP 成立 25 周年，2023 年 dbSNP 发布了第 156 版本和 ALFA 第 3 版本，这是一个重要的里程碑，拥有超过 10 亿条带有等位基因频率的 RefSNP（rs）记录。
dbSNP 第 156 版本整合了来自数千个来源的数据，包括大规模人群研究，如 1000Genomes、TOPMed、gnomAD 和 NCBI ALFA 第 3 版本。
dbSNP 第 156 版本提供了人群频率、分子见解、ClinVar 临床解读、出版物和专注于人类单核苷酸变异、插入和缺失的基因组映射。
此外，NCBI ALFA 第 3 版本（版本 20230706150541）的发布代表了一个重大成就，因为它包含了来自超过 20 万个人的全球人群数据。
ALFA 第 3 版本通过添加基因型频率数据和哈迪-温伯格平衡概率改进了早期版本的变异分析。
此次发布汇总了惊人的 5.8 兆总基因型，产生了 9.047 亿种独特变异，其中包括 55.4 万个 dbSNP 第 156 版本中未知的新变异。
它是可用的最完整的变异集合之一，提供了 12 个主要人群的等位基因和基因型频率。
关于项目的信息和数据访问可在 dbSNP（https://www.ncbi.nlm.nih.gov/snp/）和 ALFA（https://www.ncbi.nlm.nih.gov/snp/docs/gsr/alfa/）网站上找到。
dbSNP 与 ALFA 结合使用增强了对遗传多样性的理解，推动了针对常见变异和临床突变的个性化医学和疾病遗传学的进步。

ClinicalTrials.gov

临床试验.gov

Para_33

ClinicalTrials.gov（https://clinicaltrials.gov/）于2000年启动，是一个提供由赞助商或研究者提交的大约46万个全球临床研究项目的网站和在线数据库，其中包括近6万个研究项目的摘要结果。
自2019年10月以来，NLM一直在与利益相关者互动，并利用反馈来现代化ClinicalTrials.gov，以便在一个更新的平台上提供更好的用户体验，该平台能够适应增长并提高效率。
2023年6月，NLM推出了现代化的ClinicalTrials.gov网站。
这个新设计包括简单的网页组件，例如左侧菜单和可展开的折叠面板，这些组件改善了导航并使信息易于查找。
此外，现代化的网站针对移动设备进行了优化。
现代化的网站取代了经典版的ClinicalTrials.gov，后者将持续提供服务直至2024年。

Para_34

2022年，NLM发布了Protocol Registration and Results System（PRS）测试版的初始版本，这是ClinicalTrials.gov的数据录入和管理系统。
2023年，对该测试版网站的发布包括了PRS中的所有Protocol Section模块。
这些模块每个都包含了新的设计、改进的导航以及更新的在线帮助和滑出抽屉式的帮助内容。
在PRS测试版中录入的数据将同时保存在经典版和测试版网站上，而且在2023年晚些时候，用户将能够在现代化的PRS版本中提交他们的研究方案并获得国家临床试验编号。

Pathogen detection

病原体检测

Para_35

NCBI 病原体检测项目（https://www.ncbi.nlm.nih.gov/pathogens/）通过整合从培养的细菌分离物获得的病原体基因组序列，并快速聚类和识别相关序列，帮助公共卫生科学家调查疾病爆发。
研究者已成功利用该项目帮助揭示了一起因受污染蘑菇引发的国际性疫情，并证明了它对减少美国食源性病原体导致的疾病和疾病负担的重要贡献。
截至2023年8月10日，超过158万5千种病原体分离物，覆盖80种细菌分类群和一种新兴真菌病原体——耳念珠菌，正在被积极分析。
分析结果每天都在隔离株浏览器中提供（https://www.ncbi.nlm.nih.gov/pathogens/isolates）。

Para_36

这种接近实时更新的综合性公共数据现在已成为美国及国际上许多细菌爆发检测和分析工作的核心。
通过GenomeTrakr项目，FDA利用NCBI病原体检测系统发起了1056项旨在保护消费者免受食源性疾病侵害的行动（https://www.fda.gov/food/whole-genome-sequencing-wgs-program/genometrakr-network）。
它还用于调查医院内的疫情爆发；例如，哈佛医学院和多个公共卫生机构的研究人员使用Pathogen Detection聚类信息来识别新生儿重症监护室患者中的隐匿性耐甲氧西林金黄色葡萄球菌（MRSA）疫情，并使用AMRFinderPlus结果来表征分离株的抗药性和毒性基因。
更多关于NCBI病原体检测资源如何促进公共卫生和研究的例子，请参见https://www.ncbi.nlm.nih.gov/pathogens/success_stories。

Antimicrobial resistance

抗微生物耐药性

Para_37

病原体检测团队持续改进并发布了抗菌素耐药性（AMR）的更新资源（https://www.ncbi.nlm.nih.gov/pathogens/antimicrobial-resistance/）。
截至2023年8月发布，团队已整理了总计7827种蛋白质（包括6757种AMR蛋白质、252种应激反应蛋白质和818种毒力蛋白质），以及1217个点突变和3818篇关于蛋白质及点突变的出版物参考。
AMRFinderPlus软件更新包括自动解析来自九种常用注释工具和数据库的输出，以及平均超过60%的处理速度提升。
AMRFinderPlus也被纳入其他科学家的工作流程；一个例子是它被包含在一个用于从全基因组测序数据中检测AMR决定因素的ISO认证管道中，其输出经过调整，适用于临床抗生素敏感性预测和公共卫生微生物学报告。

Para_38

我们使用AMRFinderPlus（https://www.ncbi.nlm.nih.gov/pathogens/antimicrobial-resistance/AMRFinder/）分析Pathogen Detection Isolates Browser中的所有细菌分离株，抗性基因、应激基因和毒力基因这三类基因均可在Isolates Browser中获取。
目前超过152万个分离株至少含有一个已识别的抗性基因，超过128万个分离株至少含有一个已识别的应激响应基因，超过92万个分离株至少含有一个已识别的毒力基因。
对于GenBank中有组装序列的分离株子集，通过AMRFinderPlus识别出的超过2200万个基因和点突变的详细信息及序列可在微生物遗传与基因组元件识别浏览器（MicroBIGG-E；https://www.ncbi.nlm.nih.gov/pathogens/microbigge）中获取，这些基因和点突变来自超过110万个组装。
抗生素敏感性数据的抗菌谱模板可供使用，并与BioSample提交相关联（https://www.ncbi.nlm.nih.gov/pathogens/submit-data/#ast），用户提交的敏感性判断显示在超过23000个分离株的Isolates Browser中。
Isolate Browser和MicroBIGG-E的数据也在Google Cloud Platform上提供，包括MicroBIGG-E中所有2200万个基因和点突变的contig和蛋白质序列（https://www.ncbi.nlm.nih.gov/pathogens/docs/gcp）。
最近的一次NCBI网络研讨会展示了如何使用这些云资源（https://www.ncbi.nlm.nih.gov/pathogens/docs/ncbi_minute_230329）。

For further information

待补充

Data availability

Para_40

这些资源可以通过NCBI主页https://www.ncbi.nlm.nih.gov访问。

http://mp.weixin.qq.com/s?__biz=MzUzMTEwODk0Ng==&mid=2247529105&idx=4&sn=6e71898c477e0253bd51a714375ed8e4

生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！