深度学习+神经元形态，详细梳理最新进展！(上）

文摘 2024-10-10 12:01 广东

神经元是构成大脑和神经系统的基本单元，这是一种具有特殊形态的细胞，它的形状一般为树形，类似于只有树干的小树苗。神经元的形态和其作用息息相关，不同脑区、不同类型、不同作用的神经元细胞一般有不同的形态特点。此外神经元的异常或者疾病也会影响神经元的形态，下图展示了神经元形态的一个示例。

可以从图中看出，有些神经元的突触数量较少，每根突触的长度都较长；有的神经元突触数量较多，但是都比较短，有的神经元突触数量较少，但是每根都比较长。不同形态的神经元的结构和作用不同，也位于不同的区域，因此结构和细胞形态是密切相关的。

下图是神经元的形态组成，从左侧到右侧分别为三个主要部分：树突(dendrite)、细胞体(soma)和轴突(axon)。

树突的表面有许多小的突起，称为树突棘，这是形成突触连接的主要场所，用于接收来自其他神经元的信息。树突的功能主要是接收刺激，然后将这些电信号传递到神经元的细胞体内。细胞体是细胞处理信息的地方，是轴突和树突汇聚的焦点。轴突从细胞体发出，负责将神经冲动从神经元的细胞体传递到其他神经元或其他类型的细胞。

可以将神经元形态形式化表示为图结构的数据：

神经元的每个节点v包含以下信息：(x, y, z)—-神经元节点的三维坐标，(r, s)——神经元节点的半径和种类，我们可以用不同的s值来表示这个节点的神经结构，如细胞体，轴突，树突等。当然随着测量技术的发展，或许我们可以知道关于某个节点更多的信息。

神经元的形态包含了许多重要的信息，随着神经元形态数据的不断增加，如何使用高效的计算方法分析这些数据，就是一个非常重要的问题了。深度学习已经在这一领域取得了许多重要的进展，接下来的两期内容，我们将按照时间顺序来介绍这一领域的进展~

MorphVAE

首先介绍的是MorphVAE，MorphVAE用生成式模型来建模不同的神经元的表示，这一模型的优点是可以生成和对应神经元相似的神经元。MorphVAE的模型框架图如下图所示：

在MorphVAE中，建模的分布为vMF分布vMF(μ, κ = c)。（vMF/von-Mises Fisher 分布可以被认为是“方向分布”，给定一个方向向量μ，那么从这个分布中采样，得到的是和μ比较相近的方向）

MorphVAE Encoder接受的输入X并非神经元G本身，而是神经元上的random walk（图中的w）。random walk可以被表示为从v0（soma）到随机的某个末梢的一个链，random walk的每一个节点都是神经元的某个节点，且两个相邻的节点的边一定在神经元上。如果用算法中深度优先搜索作为比喻，random walk就是从顶向下，每在一个状态时就随机选择一个子节点行走，直到走到叶子节点。

因为神经元的形态不同，所以不同的神经元上的random walk也会有不同的约束。由于random walk得到的是一个序列路径，因此MorphVAE的Encoder部分训练了一个LSTM-Encoder，进行inference得到vMF分布参数μ；在重采样部分，MorphVAE从vMF分布中采样五次，取均值作为神经元的潜在空间向量表示。

MorphVAE的效果较好，但使用过程中也有较多的问题。首先是神经元的准确表示依赖于较多且较长的random walk，因此MorphVAE在神经元较复杂、数量较多的真实数据集上耗时很高，需要降低random walk次数或降低random walk长度来换取可以接受的性能。

此外，MorphVAE的random walk之间有许多冗余信息（靠近soma/树根的节点的节点大概率会被选取很多次）

此外，在真实神经元数据集中，MorphVAE需要标签的辅助才可以取得较好的表示，在无标签的情况下性能会逐渐下降，而人工标注的成本较高。MorphVAE在处理大量的无标签数据集时效果会较差。下图是删去BIL数据集中的10%、50%、90%、100%的标签时，仅用random walk进行无监督训练的结果，可以看出label较少时，各种神经元的表示会逐渐重叠，不利于准确区分神经元类别。

TreeMOCO

对比学习也是建模神经元形态数据的一个很好的工具，可以显著增强模型的泛化性能。 对比学习的精髓可以理解为：如果两个样本相近，模型对两个样本的输出也应该相近；反过来，如果两个样本距离较远，模型对两个样本的输出也应该较远。因此，我们如果知道哪些样本“相近”，哪些样本“不相近”就可以进行对比学习。在有监督学习中，我们直接通过样本的标签学习即可，但对于无监督学习而言，我们就需要寻找什么是“相近”。

在图像中，我们可以通过对图像进行扰动来“增强”样本，例如比如裁剪、旋转、色彩映射，我们认为扰动（增强）后的图像和原图像是相近的。此外，我们假设数据集中的每张照片都不太相同，样本中其他的图像和这个图像而言是不同的。

MOCO和TreeMOCO的基本原理如下图。

我们认为对于正在学习的样本而言，其表示为查询q，而其他样本（包括扰动的样本）则可以被编码为k0,k1...，于是正负样本与原样本的区别就在于编码后的距离。我们要求原样本和正样本的编码距离较近，而原样本和负样本的编码距离较远。

TreeMOCO针对处理神经元（树）数据做了一些额外的设计。TreeMOCO对样本首先进行下采样，删掉一些对路径影响不大的小突触以简化神经元的形态。

随后对树进行一些增强操作，这些增强操作和图增强类似，但更符合树的特点。如删除子树、删除树上结点、翻转树等操作。操作后的树被认为是和原树相近的正例。

下表列举了TreeMOCO选用的数据增强方法，包括整体放大/旋转/位移/翻转一棵树、删除或者旋转树中的某条边、Mask某个节点的一些特征（如坐标）、随机删除或者遍历一些子树。

这些增强产生了正例，而其他神经元形态的数据则为反例。TreeMOCO的框架图如下所示。首先，TreeMOCO接受一个神经元，采样其他神经元反例作为负样本。TreeMOCO将神经元编码为q，正反例则编码为k{+}和k{-}，利用MOCO的对比学习损失函数对正例{k+}和许多负例{k-}进行学习。这一损失函数鼓励Encoder对相近的样本进行相近的编码，相近编码的距离应该小于不相近样本之间的编码距离。

CAJAL

CAJAL是一种基于度量几何来建模神经元形态学的方法。CAJAL通过对神经元的节点进行采样，两两计算距离并形成一个矩阵（距离分布），不同形态的神经元的细胞距离分布也不一样。CAJAL通过不同的细胞距离分布来分类神经元的形态。

具体来说，当数据集中有k个神经元，每个神经元表面采样n个点时，CAJAL的方法会得到k个n×n的矩阵。采样点n越多，距离度量越能详细描述神经元的不同形态，但CAJAL这一方法的时间复杂度为O(k× n2)，因此对于较大的数据集，我们需要限制采样点n的数量。但是对于真实数据集而言，神经元的节点数m常常可能m>10000，此时采样点n需要增大较多来准确表示神经元的形态，时间复杂度会难以接受。

CAJAL方法的主要优势是具有较高的可解释性，并可将神经元形态学数据和其他模态的数据进行整合（例如转录组学）分析。

总结

本文主要介绍了深度学习在建模神经元形态学数据上的三个早期的工作。这些工作有不同的方向和侧重点，例如MorphVAE侧重于神经元形态的生成，TreeMoco更加关注于模型生成的embedding在下游任务上的性能，而 CAJAL则更侧重于模型的可解释性和与其他模态数据的整合。下期，我们将带来这一领域更新工作的介绍，并做全面的总结和梳理，请大家保持关注～

【注意：转载请联系本公众号获得授权。】如果您对我们的内容有任何疑问需要咨询或想要联系作者，可以备注“AIMS”联系课代表。也欢迎大家投稿！

AIMShare课代表咨询

童鞋，看这里

目前已有1000+人关注加入我们

推荐阅读

high-quality content

结构生物学“去污名化”：AI虽好，也不能贪杯喔

AIMShare

DNA语言模型：理解基因组的强大新工具

AIMShare

申请季前谈：申请季面试，你准备好了吗？实用指南在此

AIMShare

http://mp.weixin.qq.com/s?__biz=MzkyODczMTY4OQ==&mid=2247484689&idx=1&sn=6deb399e3c1ba17388c9c71908f9ca0a

AIMShare

AlMShare（Al with Mission and Social responsibility）是以推动实现有社会使命的人工智能为目标的高质量知识分享平台。我们专注于AI交叉领域研究与人才培养，致力于打破该领域信息差。

最新文章

申请季前谈：如何准备面试（委员会Commitee）

利用结构预测工具，开发RNA适体设计新方法！

特朗普当选美国总统：留学与科研或将迎来大地震

生信研究如何画图？收下这份硬核无广入门指南！

Nature: 研究生如何在老板面前抗压？

“数学天才”姜萍违反规则：科学同样需要质疑与真诚

如何在学术会议上拿捏成果展示？Nature有好建议！

单细胞研究必看！如何在自己的课题中使用单细胞大模型？

Nature：如果导师不愿意给推荐人写推荐信，怎么办？

绘制糖蛋白结构来揭示黄病毒科进化史，登上Nature

深度学习+神经元形态，详细梳理最新进展！（下）

空间转录组学数据怎么玩转自如？建图就可以了！

深度学习+神经元形态，详细梳理最新进展！(上）

申请季前谈：申请季面试，你准备好了吗？实用指南在此

DNA语言模型：理解基因组的强大新工具

学术先锋｜源自OpenAI老对手, 揭秘AlphaFold背后“神秘组织”的前世今生

结构生物学“去污名化”：AI虽好，也不能贪杯喔

CytoCommunity：图神经网络革新细胞邻域识别

不止于Alphafold3！深度解析AI预测生物分子相互作用那些事～

从AF2到AF3，AlphaFold又进化了！

如何将ChatGPT用于科研？Nature有建议！

机器学习在抗菌肽识别与设计中的应用

基于对比学习的酶蛋白功能预测工具，登上Science的工作如何在一年内产生深远影响？

从小白到Nature子刊发表，AI forBiology/Science学习路径

如何申请MPhil项目？港大学长经验贴

通俗解析生物信息学中的多模态研究：单细胞多组学

如何将本科毕业设计在Nature外部送审,发表在Nature Biotechnology?

语言模型革新同源蛋白检测，Nature Biotechnology一作聊聊论文里没有的细节！

如何写一个Research Proposal-以《基于煸炒过程加蒜技术的红烧牛肉烹饪方法》为例

从数据处理到模型训练，一文速览单细胞大语言模型进展

生物信息大模型卷起来了：应用与前景浅谈

申请季前谈：如何选择适合自己的课题组

破解RNA逆向折叠难题，扩散模型在生物大分子数据上的又一妙用！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉