周期
共找到 19 条记录
文摘   2024-11-20 10:00   辽宁  
在内存资源有限的条件下,我们通常推荐使用小批次数据训练神经网络。然而,有一种称为梯度累积的技术,可以在逻辑上增加批量大小,而无需显式地增加批量大小。很困惑是吧?让我来解释一 ...
文摘   2024-11-19 09:07   辽宁  
这是一个讲自然语言处理方法的专栏,作为开篇,有必要先交代清楚语言的重要性。语言对于人类来说,就像是一个最熟悉的陌生人,熟悉到忽略它的存在。语言字面意义上是沟通、交流的工具, ...
文摘   2024-11-18 09:12   辽宁  
GPT-2(XL)有15亿个参数,使用16位精度,一个参数占用2个字节的内存,因此这些参数大约占用3GB的内存。按照如下超参数设置:优化器 → Adam批量大小 → 32变 ...
文摘   2024-11-17 10:43   辽宁  
深度学习框架在使用数据类型时通常非常保守。例如,在PyTorch中,模型参数默认的数据类型通常是64位或32位。当然,这么做是为了确保在表示信息时能够获得更好的精度。但对大 ...
文摘   2024-11-16 10:02   辽宁  
神经网络主要有两种内存使用方式:1.模型权重(这是固定的内存使用)。2.训练过程(这是动态的内存使用)。训练过程又有两种方式:a. 在前向传播过程中,计算并存储所有层的激活 ...
文摘   2024-11-15 09:10   辽宁  
如果数据是无标签的,我们很难构建一个监督学习系统。使用无监督技术是一种可行的解决方案,但它们能完成的任务类型有限。另一种可能的方法,是依赖自监督学习。自监督学习是指我们有一 ...
文摘   2024-11-14 09:55   辽宁  
大多数机器学习模型都是独立训练的,然而,通过某种方式实现模型之间的交互也许能带来很大的性能提升。1#)迁移学习迁移学习最佳应用场景:● 目标任务的数据较少。● 但一个相关任 ...
文摘   2024-11-13 09:12   辽宁  
默认情况下,即使有多块 GPU 可用,深度学习模型通常也只使用单块 GPU 进行训练。一种理想的做法(特别是在大数据环境中)是将训练工作负载分布在多块 GPU 上。下图展示 ...
文摘   2024-11-13 09:12   辽宁  
尽管在本地(通过验证集和测试集)对机器学习模型进行了严格测试,但立即用新模型替换旧模型仍不是一个好想法。一种更可靠的策略是在生产环境中测试模型(基于真实的实时数据)。虽然这 ...
文摘   2024-11-12 08:33   辽宁  
通过前面的学习,我们知道Kmeans是基于质心的聚类方法,高斯混合模型则可以看作是一种基于概率分布的聚类方法。那它们之间有什么区别呢?其实,高斯混合模型可以看作是Kmean ...
文摘   2024-11-11 09:08   辽宁  
在监督学习中,通过比较模型预测结果与实际标签之间的差异来评估模型的性能。但像聚类这种无监督学习任务,没有数据标签,如何衡量聚类的效果呢?因为很多聚类数据都是高维的,所以没办 ...
文摘   2024-11-08 09:11   辽宁  
t-SNE算法是SNE的改进版本,都是用于降维的。SNE(非t-SNE)的核心思想是:步骤1)对于高维数据中的每个点(x),将该点到所有其他点(y)的欧几里得距离转换为条件 ...
文摘   2024-11-07 12:53   辽宁  
PCA本质上是一种降维技术。然而,有时人们使用PCA来可视化高维数据集。这是通过将给定的数据投影到二维空间并进行可视化实现的。虽然这看起来是一个合理的做法,但这里有一个经常 ...
文摘   2024-11-07 12:53   辽宁  
PCA的核心目标是保留原始数据的最大方差,同时减少维度。其原理是,如果我们保留了方差,就能够保留最多的信息。但是为什么?许多人难以直观理解使用“方差”的动机。换句话说:为什 ...
文摘   2024-11-06 09:24   辽宁  
对于一个多分类数据集,其中两个数据标签概率质量函数如下:所有概率质量都属于其中某一类别,其它类别都为0。这样做会过度激励模型以相当高的置信度学习每个样本的真实类别,这可能会 ...
文摘   2024-11-06 09:24   辽宁  
one-hot编码可能给数据带来大问题。当使用one-hot编码类别数据时,不知不觉间,我们给数据引入一个问题:多重共线性。当可以通过两个或更多特征预测另一个特征时,就会出 ...
文摘   2024-11-05 09:23   辽宁  
如果可视化决策树的决策规则(在每个节点评估的条件),会发现它们总是与特征轴垂直,如图所示。换句话说,每棵决策树逐步根据这些垂直边界对特征空间进行划分,以分割数据。当然,这本 ...
文摘   2024-11-04 09:08   辽宁  
在线性回归中,通常使用均方误差作为损失函数。但你知道为什么用它吗?要知道,很多函数都能衡量预测值和真实值之间的不同,在所有候选者中,均方误差有什么特殊之处吗?据我所知,很多 ...
文摘   2024-11-01 09:05   辽宁  
在很多机器学习算法中都能看到核函数的身影,例如,支持向量机(SVM)、核主成分分析(Kernel PCA)等。这里的核函数能够在某个其他特征空间(通常是高维的)中计算点积, ...
人工智能大讲堂
专注人工智能数学原理和应用
 热门文章