论文精选 | MEDIN期刊发表《基于蚁群优化的遗传分析:探讨在阿尔茨海默病中基因的作用 》的相关论文

文摘   2024-09-30 15:35   美国  


MEDIN

Medinformatics (MEDIN, eISSN: 3029-1321)发表了由中国国家自然科学基金资助(资助号:61988102)的题为《基于蚁群优化的遗传分析:探讨在阿尔茨海默病中基因的作用》的论文。


摘  要:


阿尔茨海默症(AD)是一种显著损害认知功能和生活质量的神经退行性疾病,对AD病理机制进行深入研究十分重要。尽管已有大量研究,但AD的病理机制中仍然存在许多未知因素。分析DNA微阵列数据对于阐明AD病理过程中基因共表达关系至关重要。本研究旨在探讨蚁群优化(ACO)算法在识别AD中线性共表达基因方面的应用价值。本研究利用了从基因表达数据库(GEO)中收集的AD患者基因表达谱数据,应用ACO算法探讨了不同病程阶段AD致病基因之间的共表达关系,通过对共表达关系的分析,识别了四个相关基因(SDHA、NDUFA10、SDHC和GPI)。通过将这些共表达基因作为特征,我们应用支持向量机(SVM)算法进行了AD分类预测。实验结果显示,各模型的平均AUC值分别达到了0.90、0.91、0.86和0.92。研究结果表明,ACO算法为深入探究AD的病理机制提供了新的视角。


1.引言:


阿尔茨海默症是老年人群中最常见的病理类型之一。该疾病的特征是早期显著的记忆力下降,逐渐导致日常生活能力的丧失,并伴随精神症状和行为障碍。AD的进展可分为四个阶段:正常、初期、中期和晚期。在晚期,患者可能面临吞咽困难、长期卧床等严重情况,并伴有感染等并发症,增加死亡风险。据西方国家的统计数据显示,65岁及以上人群中AD的发病率约为5%,而在85岁及以上人群中,发病率可超过30%。全球约有5000万人患有AD,其中中国约有1000万患者。预计到2050年,全球AD患者人数将达到约1.3亿。


AD的病理机制极其复杂,但仍是研究的焦点。研究人员已经对这种疾病有了基本的认识。AD的主要特征是大脑中Aβ蛋白和Tau蛋白的异常积累,导致神经元损伤和细胞死亡。Aβ蛋白以淀粉样斑块的形式聚集,而Tau蛋白形成缠结,破坏正常的神经元功能。AD的发病机制涉及多种复杂因素,包括蛋白质异常、细胞损伤、炎症、氧化应激、神经递质变化和血管问题。这些因素相互作用,最终导致神经元损伤和细胞死亡。


为探索阿尔茨海默症发病机制中涉及的复杂因素,通过一种称为DNA微阵列技术的方法,可以观察不同阶段AD患者的基因表达水平。该技术能够将基因信息以数字数据的形式表达,称为表达水平。如果两个基因具有相似的功能,那么它们的表达水平也可能相似。因此,通过分析DNA微阵列数据,可以识别基因特征。DNA微阵列技术具有高通量的特点,能够同时生成上万个基因的表达水平,而在传统生物实验中,一次只能研究一个基因。这一优势加速了基因研究,并使DNA微阵列技术在基因分析中得到了广泛应用,特别是在过去十年中对AD相关基因的研究中。


2. 材料与方法


2.1. 数据来源及处理


本篇文章研究中所使用的基因表达数据集来自GEO (https://www.ncbi.nlm.nih.gov/geo/browse)。我们选择了GSE5281数据集进行分析。所有数据均可在线免费获取。事实上,这些数据库来源于不同的平台、脑区、年龄组和性别,这有助于识别出具有共同显著差异的基因。GSE5281数据集是通过GPL570平台从脑组织切片中获得,包含了来自内嗅皮质、海马体、颞中回、后扣带回、上额回和初级视觉皮层的脑组织样本。基因表达分析是通过使用Affymetrix U133 Plus 2.0芯片(约55,000个转录本)对激光捕获细胞进行的。该数据集包含54,675个基因和161个样本,其中74个为对照样本,87个为阿尔茨海默病患者的样本。这些样本被分为两个独立的矩阵进行研究和分析:对照组和疾病组。对照组的数据在本文中表示为矩阵Mctrl,其维度为74列54,675行。这74列是由74个基因芯片生成的,每一列包含54,675个数据点。每个数据点代表特定基因的表达水平。同样的组织方法被用于创建矩阵Mad,其中包含来自疾病阶段的87列数据。Mctrl矩阵中的每一行代表一个74维向量,包含在不同条件下生成的74个表达水平。第i行向量对应于第i个基因,包含该基因的隐含信息。每个矩阵中的每个行向量都可以描述为一个k维向量。两个向量X=(x1,x2,…,xk)和Y=(y1,y2,…,yk)之间的平方欧几里得距离定义如下:


如果两个基因具有相似的功能,它们的表达水平也可能相似。因此,分析基因表达水平可以识别共表达基因,这对于理解复杂的生物过程至关重要。具体来说,我们通过计算基因表达水平之间的平方欧几里得距离来评估它们之间的差异。较小的平方欧几里得距离表明两个基因的表达水平差异较小,暗示更高的功能相似性。这种方法能够更精确地识别潜在的共表达基因,从而为后续的生物验证和功能研究提供坚实的基础。


2.2. 基因序列


基于DNA微阵列数据,提出一个基因序列的概念。所有基因都排列在一条线(序列或圆圈)上,相似的基因排列在一起,得到的序列称为基因序列。任何两个基因的相似性通过它们表达水平的差异来衡量。差异越小,两个基因的相似性越高。在不同的实验条件下,会生成不同的表达水平。对于同一个基因,存在一个对应的多维向量,每个分量是不同实验条件下的基因表达水平。向量的距离衡量两个对应基因在所有实验条件下的相似性。距离越小,两个对应基因的相似性越高。


基因序列可以被看作旅行商问题的解,其中每个基因被视作一个虚拟城市,其对应向量就是虚拟城市的位置。在这个问题中,TSP的解是一名推销员访问每个城市一次并返回到起始城市的路线。最佳基因序列指的是最短的TSP路线。显然,最佳基因序列是所有基因的最优线性排列,其中相似的基因被聚集在一起,并且这种聚集是全局最优的。因此,最佳基因序列是非常有吸引力的,过去十年中一些专家对此计算方法给予了关注。如中所述,HK Tsai等人改进了遗传算法来计算基因序列。


2.3. 共表达基因的筛选


如果一个基因与另一个基因的距离非常接近,它可能与该基因共表达。共表达的程度通常通过距离来衡量。对于矩阵Mctrl,其对应的最优基因排序是通过ACO方法计算的,记为Gctrl。其中Gctrl是包含所有基因的序列,如下:

其中,gi表示第i个基因,基因的数量为n。设基因gi对应向量X(gi)(即矩阵中的第i行向量),则基因gi对应的向量记作X(gi)。计算基因gi和gj之间的距离DE(X(gi),X(gj))

其中i,j=1,2,...,n。显然,函数值fctrl(i,j)表示基因gi和gj之间的的共表达程度。值越小,表明共表达越强。所有的函数值构成一个数据集合

上述数据集合形成了一个函数曲线,记为fctrl(t)基因gi与任意基因的共表达程度映射为fctrl(i)函数图1清晰且准确地展示了任意基因与METTL3的共表达程度。与基因排序的热图相比,函数曲线如同放大镜一般,提供了共表达细节的清晰视图。这一特性弥补了基因排序及其他聚类方法的不足。另一方面,利用该曲线很容易确定特定基因(如METTL3)的共表达基因:如果某个基因在基因排序中位于METTL3附近(即它是METTL3的临近基因)并且函数值相对较小,那么它被认为是共表达基因。假设所有共表达基因形成集合Cctrl


根据上述方法,对于疾病数据(即矩阵Mad),我们可以计算相应的函数曲线,记为fad(t)相应的共表达基因集合可以获得,记为Cad。使

集合C(METTL3)包含在阿尔茨海默病发展过程中(从正常到疾病阶段)始终与 METTL3基因保持共表达的基因。包含在C(METTL3)集合中的基因可能与阿尔茨海默病的发展密切相关,因为这些基因始终与METTL3共表达。

图1:根据共表达水平识别具有相似功能的基因。值越小对应的基因间差异越小,共表达程度越高。横坐标是使用ACO算法计算的基因序列,纵坐标表示每个基因相对于METTL3基因的共表达函数值。


2.4. 蚁群优化


在自然界中,蚂蚁会寻找食物并返回巢穴。在寻找路径的过程中,蚂蚁会释放化学物质(信息素)来标记它们走过的路径。这些信息素会吸引其他蚂蚁沿着相同的路径前行。这种集体行为最终会引导整个蚁群找到食物的来源。ACO算法的基本原理是模拟蚂蚁在搜索空间中的移动,每只蚂蚁根据其以往的经验和信息素信息选择路径。它利用蚂蚁在问题空间中的搜索行为,蚂蚁在搜索过程中会留下信息素痕迹,这些信息素会影响其他蚂蚁的决策。


ACO算法引入了信息素的概念,它代表路径的质量。蚂蚁在它们经过的路径上释放信息素,路径上的信息素浓度与路径的质量成正比。信息素通过路径在蚁群中传播,并影响蚂蚁的路径选择。在问题空间中,蚂蚁会随机选择路径。它们倾向于选择信息素浓度较高的路径,因为这表明其他蚂蚁在这些路径上找到了更好的解决方案。然而,ACO算法也包括探索机制,以确保蚂蚁不会局限于已知的良好路径。在完成搜索后,信息素会根据搜索结果进行更新。通常,信息素会随着时间的推移逐渐挥发,以防止陷入局部最优解。蚂蚁根据其搜索结果增加或减少路径上的信息素浓度。ACO算法通过蚂蚁之间的合作来实现全局搜索。蚂蚁在搜索过程中留下信息素,指导其他蚂蚁的决策。渐渐地,蚁群会集中在问题的最佳解决方案周围,因为信息素浓度较高的路径会变得更具吸引力。


下面,我们通过解决TSP问题来模拟蚂蚁的运动,以说明ACO算法模型。表1总结了以下讨论中所需的符号,并为每个符号提供了解释。

表1:蚁群优化中主要使用的符号


假设m只蚂蚁被随机放置在n个城市上,其中dij表示城市i和城市j之间的距离,τij(t)表示第t次迭代时城市i和城市j之间路径上的信息素强度。初始时,所有路径具有相同的信息素,并且令τij(0)=Const(其中Const为正常数)。蚂蚁k(k=1,2,...,m)在移动过程中根据每条路径上的信息素和路径长度来确定其转移方向。此时使用禁忌表tabuk(k=1,2,..,m)记录蚂蚁k在当前时刻访问过的城市,并随着蚁群搜索过程的进展动态调整集合tabukpkij(t)示蚂蚁k在第t次迭代时从城市i移动到城市j的状态转移概率,其定义如下:

其中allowedk表示蚂蚁k被允许选择作为下一步的城市集合。α是信息素启发因子,表示信息素路径的重要性,并反映信息素在引导蚂蚁运动中的作用。较高的α值使得蚂蚁更倾向于选择其他蚂蚁走过的路径,从而增强蚁群的合作。β是能见度启发因子,表示能见度的重要性,并且表明在蚂蚁路径选择中对启发式信息的重视程度。较高的β值使得状态转移概率更接近贪婪规则。ηij(t)是启发式函数,对于给定的旅行商问题,它是一个常数。其表达式如下:


其中dij表示城市到城市的距离,表达式如下:

其中(xi,yi)和(xj,yj)分别表示城市和城市的坐标。对于蚂蚁k,越小dij,ηij(t)越大,则pkij(t)越大。因为启发式函数反映了城市i到城市j路径对于蚂蚁k的吸引程度。为了避免残留的信息素过度积累,从而淹没启发式信息,需要在每只蚂蚁完成每一步或整个循环结束后更新残留信息素。因此,在第t次迭代时,路径上path(i,j)的信息量可以根据以下规则进行调整:

其中ρ代表信息素挥发系数,1-ρ表示信息素残留因子。为了防止信息素的无限积累,ρ的取值范围为p∈(0,1)。Δτij(t)表示当前循环中路径path(i,j)上信息素的增量。在初始时刻,信息素增量为0,即Δτij(0)=0。Δτijk(t)表示第k只蚂蚁在第t次循环中在路径path(i,j)上留下的信息素量。根据不同的信息素更新策略,蚁群优化算法可以分为三种类型,分别为蚁周模型、蚁密模型和蚁量模型。在蚁周期模型中,

在该公式中,Lk表示蚂蚁k在本次循环中经过的路径总长度。在蚁密模型中,

在蚁量模型中,

在该公式中,Q是表示信息素强度的常数。这三种模型的区别在于,蚁量模型和蚁密模型采用局部信息更新,即蚂蚁在每一步之后更新其刚刚走过的路径上的信息。而蚁周模型则采用全局信息更新,即在所有蚂蚁完成一个周期后,所有路径上的信息才会更新。在这些模型中,蚁周期模型在解决旅行商问题时表现相对较好,因此常常被用作蚁群算法的基础模型。


以蚁周期模型为例,蚁群算法在解决最优基因序列问题时的具体实现步骤如下。

算法1: 蚁群优化(ACO)


2.5. ACO在AD中的应用


在本文中,从GSE5281数据库中选取了50个基因进行测试,该数据库一共有54675个基因。为了识别随METTL3基因变化而变化的基因,在选定的数据集(GSE5281)中,以METTL3的中位表达值为划分标准,AD样本被分为METTL3高表达和METTL3低表达亚组。并对METTL3高表达和低表达亚组,分别使用lmFit和eBayes方法进行了差异基因表达分析(DEGs)。然后使用"WGCNA"软件包(版本1.71)来识别GSE5281表达数据中与METTL3相关的AD基因。最后,为了将模块与特征相关联,将与METTL3_High或METTL3_Low亚组相关的主要模块定义为关键模块,并选择这些模块进行进一步筛选。使用"STRINGdb"软件包(版本2.4.2)对关键模块中的基因进行蛋白质相互作用分析,并使用"ggraph"函数对网络数据进行可视化展示。对关键模块基因和关键AD基因进行了功能富集分析,从最有价值的通路中选取的基因被定义为关键AD基因(即本文中使用的50个基因)。


我们对关键AD基因进行分析,将基因之间的关系视为旅行商问题。具体来说,选定的50个基因被类比为50个城市,并计算这些“城市”(即基因)之间的欧氏距离平方。随后,使用ACO算法确定基因的顺序,目的是将具有相似表达水平的基因聚集在一起。此外,基因根据其相关性强弱进行了排序,相关性较强的基因被放置得更接近。通过提供的热图和共表达曲线可视化中可以明显看出ACO算法排列后的基因序列中强相关性。这种排列方法在可控阶段和AD疾病阶段相关基因的交集分析中,我们识别出了四个与METTL3基因始终相关的关键基因。这一发现为理解AD的分子机制提供了新的方法。


3. 结果


3.1.基因序列的计算与分析


在本研究中,采用了ACO算法对基因序列进行分析。研究的初始阶段应用了热图技术,以对比ACO算法排序前后基因表达水平的变化。这一方法有效展示了基因表达模式的变化,从而阐明了在不同条件下基因表达水平的动态分布。随后,研究的重点转向了分析本实验的核心基因METTL3与其他基因之间的距离,通过距离曲线揭示它们在表达水平上的相互关联。此外,通过反复的实验程序,研究团队对与METTL3相关的基因集进行了统计分析和验证,以确保实验结果的可重复性和可靠性。


进一步地,研究中使用了SVM进行预测分析,旨在探讨与METTL3相关基因(关键基因)与AD之间的潜在联系。最终,通过分析函数曲线,研究揭示了AD进展过程中基因共表达水平的变化。ACO算法在这一系列复杂的基因分析中发挥了关键作用,为深入理解复杂的基因网络及其与疾病的关系提供了新的科学视角。


首先,我们采用热图技术对应用ACO算法排序前后基因表达水平数据进行了比较。此阶段的主要目标是通过视觉方式展示基因表达模式的变化,从而清晰地呈现排序前后基因表达水平的差异。从图2中的观察可以看出,排序后的基因序列表现出更高的有序性,且相邻基因的表达水平变得更为相似。该结果强调了ACO算法在基因排序中的有效性。这一发现为我们进一步探索基因之间的相互关系及其与疾病的相关性奠定了更为坚实的基础,也为后续的分析过程铺平了道路。

图2:这组图像通过热图展示ACO算法在基因排序中的有效性。(A)未排序的AD可控阶段的基因表达水平数据的热图。(B)未排序的AD病变阶段的基因表达水平数据的热图。(C)经过ACO算法排序后的可控阶段的基因表达水平数据。最后,(D)经过ACO算法排序后的病变阶段的基因表达水平数据。

图3:详细展示了其他基因与METTL3之间的共表达模式,(A)AD可控阶段的共表达曲线,其中x轴表示基因名称,y轴表示该基因与METTL3基因的距离。(B)AD病变阶段的共表达曲线,其中x轴表示基因名称,y轴表示该基因与METTL3基因的距离。


随后,我们将基因排序结果应用于构建共表达曲线。横轴表示按基因排序结果排列的各基因名称,纵轴表示这些基因与METTL3基因之间的共表达程度。通过共表达曲线的形式可视化每个基因与METTL3的共表达关系,距离越短表明共表达的程度越高。如图3所示,这一优化过程如同放大镜,清晰展示了任何基因与METTL3之间的共表达细节。这项工作不仅解决了基因排序及其他聚类方法的不足,使我们能够更细致地分析基因间的关系,同时也简化了特定基因(如本实验中的METTL3)的共表达基因的识别,从而更准确地理解这些基因之间的相互作用。


在本研究中,我们实施了ACO算法对基因序列进行计算分析。通过在算法运行期间引入多次重复运行策略,我们能够在统计基础上获得稳定可靠的解决方案。这种稳定性体现在多次迭代后解决方案的一致性上,而不是依赖于程序单次运行的结果。鉴于ACO算法的随机性和启发式搜索特性,期望算法在每次运行中都能产生完全一致且明确的单一最优解是不现实的。因此,这种多次重复运行的策略显著提高了结果的统计稳定性和可靠性。


在具体的应用场景中,我们利用ACO算法对基因序列进行了10次计算,得到了10种不同的基因序列。特别地,我们重点分析了METTL3基因与其相邻基因(基因序列中前后各5个基因)的相互作用模式,并对在这一邻近范围内重复出现超过5次的基因进行了统计分析。我们分析了AD可控阶段和病变阶段METTL3基因的邻近基因,识别出了在这两种情况下的基因交集。


本研究包含两个统计表,记录了AD的可控阶段和病变阶段中,METTL3基因与其相邻基因的邻近频率。这两个表对应于AD的两个阶段,提供了关于METTL3及其邻近基因邻近频率的全面数据。表2涉及AD的可控阶段,详细说明了在此阶段METTL3与其邻近基因之间的邻近频率。表3则与AD的病变阶段有关,展示了在此阶段METTL3与其邻近基因之间的邻近频率。

表2:AD可控阶段METTL3临近基因的临近频次

表3:AD病变阶段METTL3临近基因的临近频次


3.2. SVM预测分析:基因与AD的关系


基于表2和表3中的基因交集,我们选出了四个重要基因,即SDHA、NDUFA10、SDHC和GPI。随后,我们对这四个基因进行了SVM预测分析。在实验中,我们使用SVM算法构建了一个预测模型,旨在探讨METTL3基因与SDHA基因与AD之间的关联。通过对SVM模型的深入分析,我们观察到该模型在将个体分类为AD患者或非AD个体方面表现出色。同样地,我们进行了多次实验,使用METTL3以及我们选择的相关基因(NDUFA10、SDHC和GPI)作为SVM分析的特征。如图4所示,这些结果表明,METTL3与我们选择的相关基因作为特征,在SVM模型中展现出了卓越的分类能力。这表明其在AD的早期诊断及相关研究中具有潜在的应用价值。

图4:AD患者用黄色表示,而对照组用紫色表示。(A-D) 构建了METTL3和SDHA、NDUFA10、SDHC和GPI在AD中的诊断模型。横坐标和纵坐标分别表示METTL3和SDHA、NDUFA10、SDHC和GPI的表达水平。

图5:验证模型的分类性能。(A-J)ROC曲线。AUC表示ROC曲线下的面积。当0.5 < AUC < 1时,模型显示出优秀的分类性能和预测价值。训练集和测试集通过交叉验证随机分为十次。通过计算十个AUC值的平均值来评估SVM诊断模型在AD中的预测性能。


我们构建的SVM模型使用METTL3和SDHA作为特征,并进行了10折交叉验证以评估模型的性能。每次交叉验证均附带绘制了ROC曲线,以可视化模型在AD诊断中的表现。此外,我们进行了多次实验,其中分别使用METTL3以及NDUFA10、SDHC和GPI作为特征构建了不同的SVM模型。这些实验的结果显示,每个模型的平均AUC值分别为0.91、0.86和0.92。这些较高的AUC平均值表明,无论是使用METTL3和SDHA还是其他基因作为特征,这些SVM模型在AD诊断中表现出色。


4. 讨论


本研究使用DNA微阵列技术的主要目的是筛选与AD相关的候选致病基因,为进一步的生物学验证提供基础。从功能类似于已知致病基因的基因入手,可以在寻找致病基因的过程中节省时间。目前,许多国内外机构和研究人员已经对基因表达数据进行了分析,使用了如K近邻法、聚类、神经网络、支持向量机等机器学习方法。在这些方法中,聚类分析是最广泛使用的统计技术。例如,Friedman等使用基于神经网络的聚类方法研究酵母细胞的进化过程。Alizadeh及其团队通过样本层次聚类研究弥漫性大B细胞淋巴瘤(DLBCL)。Alon及其同事应用基于分割的聚类算法对40个肿瘤组织和22个正常结肠组织中的6,500个基因进行聚类。Sugiyama等人结合自组织映射和k均值方法,在聚类边界划分上获得了优于单独使用k均值方法的结果。Leping Li等人结合遗传算法和K近邻(KNN)方法提取特征,选择了最有信息量的基因子集。Jungwon及其团队引入了集成分类器的概念,结合了多层感知器(MLP)、K近邻(KNN)方法、支持向量机(SVM)等方法构建分类器。EMatthias等人应用模糊C均值(FCM)聚类在存在噪声的酵母基因表达数据集上进行实验,表现出强大的鲁棒性。


尽管聚类分析具有许多固有优势,但它并没有解决聚类结果排序的问题。因此,使用全局优化算法确定基因数据的最佳序列在一定程度上超越了聚类,因为全局优化算法可以对基因进行全局排列,使得基因数据的分析和研究更为便捷。目前用于寻找最佳基因序列的全局优化算法主要包括遗传算法和蚁群算法。Tsai等将此问题转化为TSP问题,并应用改进的遗传算法(FCGA)解决TSP问题。Lee及其团队应用混合遗传算法解决此问题,作者团队使用基本的蚁群算法和改进的蚁群算法解决TSP问题。


在本研究中,我们将与METTL3共表达的基因识别为与AD相关的新特征。以DNA微阵列数据为基础进行基因表达分析,我们将每个基因表示为一个由各种实验条件下的表达水平组成的向量,每个分量对应于特定条件。该向量封装了基因的内在信息。向量距离较近的基因可能具有功能相似性并展现共表达模式。在我们的方法中,每个基因被概念化为一个虚拟城市,其位置由相应的向量决定。通过应用ACO算法,我们得到了最佳基因序列。一个线性排列,其中相似的基因被排序在相邻位置。从该序列中,我们定义了每个基因的函数值,表示其与METTL3的距离,并量化共表达的程度。这些函数值共同形成了一条曲线,映射了所有基因的共表达水平,提供了关于所有基因与METTL3之间关系的全面概述。该函数曲线为基因共表达水平提供了精确而深刻的描述,使得在对照组和疾病阶段之间的共表达模式变化的观察更加清晰。研究表明,高共表达水平在对照组和疾病阶段均有所观察,提示共表达基因及关键基因在AD进展中可能扮演着关键角色。


然而,这种方法的一个重要限制是处理大规模基因数据时所需的较长计算时间。这一挑战导致我们在本研究中专注于与METTL3潜在关联的基因子集,这可能会导致结论的不完全性和结果的潜在局限。为了解决这个问题,我们的研究团队正在积极开发一种高效算法,以处理包含数万个基因的数据集。我们预计,这种快速算法将显著减少计算时间,并在未来的研究中实现对AD基因表达模式的全面而深入的分析。通过克服当前的计算限制,我们旨在揭示更广泛的遗传信息,从而推动我们对阿尔茨海默病复杂病理机制的理解。


✦ ✦ ✦ 

5. 总结:


在本研究中,我们使用基于ACO算法的基因分析方法,以揭示AD复杂的病因因素。通过系统地比较健康状态和病发状态的基因共表达曲线和序列,我们识别了一组关键基因,即METTL3、SDHA、NDUFA10、SDHC和GPI。这些基因因其显著的共表达模式而被区分出来,它们很可能共同参与了AD的发病机制。这些关键基因的识别通过SVM模型得到了进一步证实,该模型将这些基因纳入评估其诊断效用。SVM模型在区分AD患者和健康对照组的实验中表现出色,突显了这些基因作为AD生物标志物的潜力。这一方法不仅为AD的早期诊断提供了新的途径,还为后续的疾病分子机制研究奠定了基础。


尽管我们的发现具有前景,但我们认识到这些关键基因在AD中的具体生物学角色尚待完全阐明。这些基因通过何种复杂的相互作用和通路影响AD进展需要通过针对性的分子实验进行全面研究。未来的研究应着重于解开这些基因对AD发病机制的精确作用机制,从而推进我们的理解,并为治疗开发开辟新途径。我们的研究为AD的发病机制提供了新视角,将先进的计算方法与稳健的统计验证相结合。ACO基础的基因分析与SVM等机器学习方法的整合不仅突显了跨学科策略在生物医学研究中的强大能力,也为发现复杂疾病如阿尔茨海默病的新型生物标志物和治疗靶点提供了有前景的框架。

✦  ✦  ✦  


文章链接


https://ojs.bonviewpress.com/index.php/MEDIN/article/view/3658


作者介绍


朱成江,中国四川师范大学

杨   琳,中国四川师范大学

黄旭冬,美国马萨诸塞总医院和哈佛医学院

金坤沛,中国四川师范大学

庞欣平,中国西交利物浦大学

宋向虎,中国四川师范大学

孙   悦,中国四川师范大学

高崇浩,中国四川师范大学

魏彦玉,中国电子科技大学

庞朝阳,中国四川师范大学


基金支持


本研究部分由中国国家自然科学基金资助。

资助号:61988102


机构简介

四川师范大学,中国


四川师范大学,位于四川成都,是四川省人民政府举办的全日制综合性公办省属重点大学。首批国家“中西部高校基础能力建设工程”重点建设高校、四川省“双一流”建设高校、全国深化创新创业教育改革示范高校、国家级卓越教师培养计划、大学生创新创业训练计划、四川省“2011协同创新中心”,是四川省举办本科师范教育最早、师范类院校中办学历史最为悠久的大学,全国首批硕士授权单位,博士授权单位,四川省重点中华文化研究院,具有推荐免试攻读研究生资格。


马萨诸塞总医院,美国


美国马萨诸塞州总医院为一所坐落于波士顿的综合型医院。其为美国新英格兰地区最古老且最具规模的医院,并是哈佛大学最大型的医学教学中心及生物医学研究基地。院方目前提供不同类型的医疗服务,亦具非常浓厚的研究气氛。麻院同时获得多个机构的好评。


哈佛医学院,美国


哈佛医学院位于波士顿长木医学区,提供各个医科课程及颁发专业资格证书。哈佛医学院的医学本科课程与美国其他大部分的医学院一样,只接受已经持有学士学位证书的毕业生报考,进入医学院修业时间为四年,毕业的医学生会获得“医学士”证书,但这并不是哲学博士,而是与英国及某些英联邦国家医学院颁发的“内外全科医学士”相等的学位。


西交利物浦大学,中国


西交利物浦大学,简称“西浦”,位于江苏省苏州市,是经中华人民共和国教育部批准、由江苏省人民政府依法管理、江苏省教育厅主管、中国西安交通大学和英国利物浦大学合作创立的具有独立法人资格的中外合作大学。是中外合作大学联盟成员、苏州高校影视联盟牵头单位、江苏省省级硕士立项建设单位。


电子科技大学,中国


电子科技大学简称电子科大(UESTC),位于四川省成都市,是教育部主管全国重点高等学校, 全日制公办普通高等学校。该校入选国家建设高水平大学公派研究生项目, 是中国政府奖学金来华留学生接收院校、全国深化创新创业教育改革示范高校。

版权声明:

*本文由Bon View Publishing中国办公室编辑撰写,文中涉及到的英文翻译部分,为译者在个人理解之上的概述与转达,详情及准确信息,请参考英文原文。如需转载,请于公众号后台留言咨询。

排版:徐远山

编辑:张燕欢、周晓芳

审核:任南西

监制:张   雨


博识开放科学
博识开放科学为新加坡博识出版社官方账号,与您分享、交流前沿学科知识,追踪学科进展。创造一个博识、独立、专业的学科交流平台。
 最新文章