学术简讯 | Pattern Recognition：最大化高斯性准则

文摘科技 2023-10-27 18:27 北京

近日，清华大学、昆明理工大学、北京邮电大学联合在模式识别权威杂志 Pattern Recognition (IF 8.0) 上发表论文，报告了一种最大化高斯性 (Maximum Gaussianality) 的训练准则，用于对数据分布进行规整。

分布规整与标准化流模型

我们知道数据的概率分布对如何选择模式识别算法至关重要。通常我们希望概率分布越简单越好，最好是高斯分布，这样就可以选择简单的模型对其进行建模，进而完成分类、生成等模式识别任务。例如在随机线性区分性分析 (Probabilistic LDA, PLDA)，数据必须是服从一些协方差一致的一组高斯分布，且这些高斯分布的均值本身也是一个高斯分布。形象的理解，如下图所示。

问题在于，现实应用中大部分数据都很复杂，这就必须用一个复杂的模型来建模。那么，有没有可能把一个复杂的分布映射成一个简单的分布呢？是有可能的，标准化流模型 (Normalization Flow, NF) 就是这样一个模型。它可以通过一串可逆映射把复杂分布映射到高斯分布，或反过来将高斯分布再映射回观察数据空间，如下图所示。

NF模型的天然缺陷

NF模型训练采用最大似然准则 (Maximum Likelihood, ML)，目的是使得隐空间的高斯分布映射回数据空间后在数据样本点处的概率最大。这一ML准则在数学上没有问题，但在实际应用中很容易陷入过拟合。这是因为训练数据是有限的，而NF模型可以非常灵活，总可以通过提高每个数据样本点处的概率密度来提高整体似然值。过拟合导致NF网络及相应的高斯隐空间并不能真正代表训练数据。如下图所示，基于左侧的数据学习得到了中间图所表示的高斯隐空间；对这一隐空间进行采样并映射回数据空间后得到了右图，可见隐空间所代表的分布与原始数据分布相差甚远。事实上，这一过拟合问题是ML准则用于训练连续数据模型时的天然缺陷，本质上是连续分布的概率密度函数在有限训练样本点上的无界性造成的。

最大化高斯准则

为解决这一问题，本文提出一种基于最大高斯性的训练准则，不是通过ML实现隐空间的高斯化，而是直接优化隐空间分布的属性，使之满足高斯分布条件。文章选择高维高斯分布的两项主要属性作为训练的目标：一是高维高斯分布的大部分概率集中在一个高维球壳上，因此样本向量的长度基本相同；二是从高维高斯分布采样的任意两个随机样本接近正交。基于这两条属性，文章用高斯分布来分别近似采样的长度和采样间的余弦距离，进而得出衡量高斯性的两个准则：

上式中，

\mathcal{R}_{\ell}

和

\mathcal{R}_{\phi}

分别是对应长度和角度的高斯性，

\ell(\mathbf{z}_i)

表示样本

\mathbf{z}_i

的长度，

\phi(\mathbf{\mathbf{z}}_i, \mathbf{z}_j)

是

\mathbf{z}_i

和

\mathbf{z}_j

之间的余弦距离，

d

是样本维度，

\epsilon

在高维空间中近似为1，

\xi

是通过实验确定的角度分布的方差。在训练NF时，将目标定为使隐空间中样本的

\mathcal{R}_{\ell}(\mathbf{z}) + \mathcal{R}_{\phi}(\mathbf{z})

最大化，即可得到一个对分布进行高斯化的映射网络。模拟实验表明，这一方法非常有效，且不存在过拟合问题。我们称这一准则为最大化高斯性 (MG) 准则。

MG准则用于说话人向量规整

MG是一个通用的训练准则，可对任何数据做正规化。作为例子，文章将MG准则应用于说话人识别，取得了明显的性能提升。当前说话人识别依赖神经网络提取说话人向量，归因于神经网络的灵活性，说话人向量的分布不受约束（下图左），这对后端打分带来很大压力。采用MG准则对类间分布和类内分布分别做高斯化，可使得说话人向量更规整（下图右），从而有利于对说话人的辨识。

论文地址

Yunqi Cai, Lantian Li, Andrew Abel, Xiaoyan Zhu, Dong Wang. Maximum Gaussianality training for deep speaker vector normalization[J]. Pattern Recognition, 2024, 145:109977.

https://www.sciencedirect.com/science/article/abs/pii/S0031320323006751

http://mp.weixin.qq.com/s?__biz=MzI2MzU4NDI4NA==&mid=2247485800&idx=1&sn=cfe247c4e9a00398ddc8b1b49ad882e1

清语赋

清华大学语音语言团队 (CSLT) 科研学术分享和日常生活百态

中文读唇总动员：CNVSRC 2024 研讨会圆满落幕

中文读唇总动员：CNVSRC 2024 研讨会将于本周五开幕

《人工智能通识课讲义》全面升级，开放下载

中文读唇总动员：CNVSRC 2024 中文连续视觉语音识别挑战赛 Leaderboard 开放

中文读唇总动员：第二届视觉语音识别挑战赛 CNVSRC 2024 启动

【AI100问(19)】人工智能是大杂烩吗？

中文读唇总动员：CNVSRC 2023 研讨会圆满落幕

中文读唇总动员：CNVSRC 2023 研讨会本周六晚开幕

中文读唇总动员：CNVSRC 2023 中文连续视觉语音识别挑战赛 Leaderboard开放

学术简讯 | Pattern Recognition：最大化高斯性准则

中文读唇总动员：CNVSRC 2023 中文连续视觉语音识别挑战赛评测集开放

中文读唇总动员：CNVSRC 2023 视觉语音识别挑战赛启动

学术简讯 | CN-Celeb-AV: 多场景视听多模态数据集发布

学术简讯 |《图解人工智能》正式出版

学术简讯 | CN-CVS：大规模普通话视听多模态数据集公开发布

明星声纹总动员：CNSRC 2022 说话人识别竞赛全栈资源发布

学术简讯 | 基于随机循环一致性准则的语音信息分解工作获 Odyssey 最佳学生论文奖

明星声纹挑战赛 CNSRC 2022 收官，上海交大、国音智能、北理工拔得头筹

明星声纹总动员：CNSRC 2022 声纹识别竞赛研讨会即将召开

明星声纹总动员：CNSRC 2022 系统技术报告提交与 Odyssey 2022 特殊议题征稿

O-COCOSDA 2022 征稿

明星声纹总动员：CNSRC 2022 说话人识别竞赛 Leaderboard 开放

明星声纹总动员：CNSRC 2022 说话人识别竞赛开发集和基线系统发布

明星声纹总动员：CNSRC 2022 说话人识别竞赛启动

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉