博士论文 | Northeastern 2024 | 学习结构化相关性并从中受益 96页

文摘 2024-12-07 22:58 广东

算法方法解决学习问题本质上是在看似随机的数据集中辨别顺序。此类算法的理论探索旨在将这些概念形式化，采用基于现实世界数据的概率分布来揭示底层结构。我们考虑了受现实世界启发的众多数据分布，展示了各种统计工具，使算法能够发现其参数。

我们考虑的两个具体数据集是短文本查询和射频信号。我们表明，通过强大的统计分析，即使是非常简单的神经网络也能够学习它们的潜在相关性。基于注意力的网络在短文本查询任务中的表现优于 LSTM 架构，而一种新颖的生成模型 AttEST 为基于注意力的架构的卓越性能提供了理论基础。

对于无线信号分类，引入了一种组合信号处理和机器学习方法。功率谱密度和循环平稳信号处理特征与神经网络相结合，能够以最少的计算资源实现高效的信号分类。

然后我们考虑网络科学中的优先连接图。一种新型模型，即优先相互依赖网络，引入了相互协同增长的无标度网络，这些网络由它们的相关性参数化。半相关网络的研究揭示了它们意想不到的弹性，与现实世界的网络行为相一致。

进一步的探索涉及优先连接图中的到达顺序推断，这是一个统计上具有挑战性的问题，对社交网络、生物网络和疾病爆发有影响。我们讨论了现有概率工具在解决这些问题方面的一些局限性，并提出了未来的研究方向。

论文以噪声图同构问题的变体结束，引入了一个新的算法挑战——在噪声优先连接图中计数子图。对现有结果的调查强调了该领域算法进步的潜力。

论文题目：Learning and Benefiting From Structured Correlations

作者：Tanay Mehta

类型：2024年博士论文

学校：Northeastern University（美国东北大学）

下载链接：

链接：https://pan.baidu.com/s/1wmeH8nO39JjoJ9nBWekPvg?pwd=ulwo

硕博论文汇总：

链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5

随机性经常用于科学，以模拟现实世界中的不确定性，例如物理学、生物学和计算机科学等领域。在计算机科学中，这个过程通常如下：描述一个统计模型来捕捉现实世界数据的结构，而其随机性则模拟数据中可观察到的变化。然后，目标是设计一种算法来解决数据集上的特定问题，无论是了解底层现象，还是提供一些实用性。

建模现实世界数据的一种强大技术是使用生成模型。生成模型捕获可观察的随机变量和我们希望了解的目标随机变量。通过联合建模可观察的输入数据和目标变量的分布，我们可以确定两者之间的结构化相关性，算法可以使用这些相关性来完成其任务。生成模型可以进一步用于基于统计模型生成更多人工输入样本。这些样本可用于增强机器学习中的训练集，或可用于衡量生成模型在更科学的领域（例如网络科学、无线信号）对现实的保真度。

这些算法的设计都是针对输入数据量身定制的，以保证高效计算，但代价是假设生成模型的结构。有了这个假设，这些学习算法就能够从随机性中提取结构来完成任务。这类算法的理论研究试图将算法成功的假设和它们解决问题的程度形式化。请注意，底层结构必须具有计算效率，否则算法就无法实际用于解决问题。

在本论文中，我们研究了一些现实世界启发的数据分布，并展示了各种生成模型和统计工具，使算法能够发现其参数。特别是，我们提出了两个结果，展示了神经算法在两个具体数据集中学习相关性的能力：短文本查询和射频信号。我们还深入研究了一种流行的网络模型，即优先连接分布，以展示数据相关性如何能够实现真实世界现象的忠实模型并为实际考虑提供益处。最后，我们继续研究各种参数学习问题的优先连接图，并探索常见概率工具在解决这些问题方面的局限性。

信号模型

故障模型说明。全局度大于 5 的富裕节点被停用并涂成黑色。它们的边也被停用并变成虚线。其余全局度大于 3 的节点是治疗者。财富通过实线边从治疗者传递到停用边；虚线边可能无法遍历。

在这个例子中，存在一个剥离，使得新的种子图比原始种子图具有更多的节点。d = 2。原始种子图是封闭在盒子中的左侧三个节点。首先，剥离最右边的节点。然后，剥离原始种子图中最右边的节点。此时，没有更多 2 度节点可以剥离。此示例可以推广到具有任意多个节点的图。

微信群

图科学实验室Graph Science Lab

分享有关图理论、图表示学习、图神经网络、图+交叉学科（生物、化学、物理 ...）、图+交叉算法（DL、RL、NLP、CV ...）最新科研资讯、论文、开源工具、招生/招聘、会议/竞赛、课程/书籍。秉持文理兼修，也分享人文作品。欢迎持续关注。