[线代] 浅写奇异值分解（SVD）

文摘 2024-08-25 10:00 加拿大

近来繁忙，游目骋怀于大千世界，此文成于横加公路一日。

补充前置知识

阅读本文的你应当具备初等代数、线性代数的基本知识。

时间有限，只是随便写点的基础定义，具体的应用之后有时间在ML专栏写。

幺正矩阵/酉矩阵

我们知道矩阵转置相当于将矩阵以对角线翻转，将一个的矩阵转置成的矩阵，记做。而共轭转置则是在复数域的情况下，转置的同时对矩阵中的元素取复共轭。对于取复数共轭的矩阵，我们记作，而矩阵的共轭转置记作（在量子力学中常用，但是这里是线性代数）。

一个矩阵为酉矩阵的充要条件是它的共轭转置矩阵等于其逆矩阵，即。其数学定义是，实际上，酉矩阵可以理解为正交矩阵在复数域的推广。

一些显而易见的性质，考虑阶的酉矩阵：

的行列式的模长为1
酉矩阵的所有特征值都是模长为1的复数
也是酉矩阵
对于一个范数，任意矩阵，若满足，则我们称为酉不变范数。一类代表是 L2范数和 Frobenius 范数。

对于两个复方阵，考虑酉矩阵若存在

则我们称是酉等价的。而若是实数域的方阵，则特别地称它们正交等价。

酉矩阵的集合在复数域上构成一个群，称为酉群。

特殊正交群

考虑一个交换环，并且，用表示所有元素属于的阶方阵集合，对于任意的阶方阵，正交群 定义为

配备矩阵乘法得到的群。而其特殊正交群则是正交群中行列式为 1 的元素构成的正规子群，表示为。复数域的情况，这被称为特殊酉群。

实数域上的全体正交矩阵构成一特殊正交群；复数域上全体酉矩阵构成一特殊酉群。实数域上全体酉矩阵构成一特殊正交群

特征值

对于一个阶的方阵，一个非零向量，存在标量，满足

则我们称是特征向量，是它的特征值。有同一特征值的特征向量加上零向量，形成一个线性空间称作特征空间。

对于这个，我们寻找一组特征向量，这些特征向量两两正交（它们的内积为0），并且这些特征向量是单位向量，当矩阵作用在这组正交单位向量上时，每个特征向量的长度可能会改变，但它们之间的正交性仍然保持不变。

我们所谓的对角化，是将一个矩阵转化为对角矩阵的过程。对于，存在一个由特征向量构成的可逆正交矩阵矩阵使得与相乘得到一个对角矩阵，也就是

实现对角化的前提是，原矩阵要有个线性无关的特征向量，并且对于每个特征值对应的特征向量是构成矩阵的列向量。

奇异值

考虑一个的矩阵，我们可以构建两个对称的方阵或者，它们具有相同的非零特征值，其中，的奇异值定义为特征值的平方根

有限维情况的谱定理

概括地说，谱定理给出了算子或者矩阵可以对角化的条件，但我们在线性代数中研究的主要都是有限维的线性空间，而谱定理比较广泛，适用于无限维空间中的自伴算子。所以本文我们仅讨论有限维的情况，无限维还是希尔伯特空间什么的，就留给以后的泛函分析文章吧。

我们将满足的矩阵称为正规矩阵。

自伴随矩阵，或称厄米矩阵，指的是共轭对称的方阵（有一个等价条件是，如果是实矩阵的情况，则等价于）。容易注意到它是特殊的正规矩阵。每个正规矩阵 都可以被酉矩阵对角化，即存在酉矩阵和对角矩阵使得

但是，正规矩阵的特征值可以是实数或者复数。而自伴随矩阵的特征值都是实数，意味着自伴随矩阵的特征向量可以被选择为标准正交的，因此存在标准正交基 ，由的特征向量组成。

奇异值分解

奇异值分解（Singular Value Decomposition, SVD）是线性代数中一种重要的矩阵分解方法。我的领域多用于在 PCA 中进行特征提取、降维以及提高模型的泛化能力。

一般描述

我们将每个元素都属于（即实数域或复数域）的的矩阵分解成三个矩阵

其中：

：的正交特征向量矩阵（即幺正矩阵/酉矩阵，注意这强调的是复数域的情况下）
：有个元素的非负实数对角矩阵，其主对角线上的每个元素都称为奇异值，等于或的正特征值的根（注意是实数，所以要求是非负平方根）
：一个的酉矩阵的共轭转置

这样的分解我们称之为奇异值分解。并且，我们一般将中的列向量称作左奇异向量，中的列向量称作右奇异向量，而的主对角元被是矩阵的奇异值。由于是正交的。所以我们亦可以将上述分解写成另一个形式

另外强调，一个矩阵的奇异值分解并不是唯一的，只是有些时候为了方便，我们会将奇异值从大到小地排序。

当一个方阵可以对角化时，意味着存在一个基底，其中对它的作用可以被表示为一个对角矩阵的作用。这从几何意义上看，我们可以将奇异值分解理解为将原空间中的向量转换到一个新的基底（这个基底由的特征向量构成）；在新基底下对向量进行伸缩，每个方向的缩放比例由奇异值确定；将缩放后的向量转换回到目标空间中的新基底（这个基底由的特征向量构成）.因此我们可以说，奇异值分解可以被看作是对角化更一般的推广。

正交性及扩展

前面的定义可能会有点武断，所以我们展开说说。继续之前的定义，接下来，我们将用和分别表示和的列，。SVD 提供了矩阵的四个子空间的正交基：

形成的列空间的正交基
形成的行空间的正交基
形成的左零空间的正交基
形成的零空间的正交基

关注到后两者，对于和，显然因为整个零空间和左零空间本身就是与行空间和列空间正交的，所以它们与前个基向量是正交的。在构造正交矩阵时，将这些向量全部包含在内，以保证它们是方阵，使得成立。

最优低秩近似

最优低秩近似是指在给定矩阵和指定秩的情况下，找到一个秩为的矩阵，使其在某种范数下与原矩阵的误差最小。

Eckart–Young–Mirsky 定理

矩阵的低秩近似通过保留最大的前个奇异值及其对应的奇异向量来实现。对于给定的，矩阵的最佳秩- 近似矩阵可以表示为

这个近似在最小化 Frobenius 范数误差方面是最优的，即

Eckart–Young–Mirsky 定理的内容即为，对于任何正整数（），存在一个秩为的矩阵使得的 Frobenius 范数是所有秩为的矩阵与之间 Frobenius 范数的最小值。

引用一个我比较喜欢的证明：https://truenobility303.github.io/Young/Eckart-Young-Mirsky 定理及其泛函版本简证

一种贪婪算法

顺便讲讲一种思路。

对于一个的矩阵，其中每个行向量都能表示为维空间中的一个点。我们选择一个单位向量来表示一条过原点的直线方向，即每个在方向的投影长度为，我们希望找到的是使得所有投影长度的平方和最大的直线，即使得其每个对应点的距离平方和最小的直线。

所以第一个奇异向量定义为

其对应的第一个奇异值的为

由于我们使用的是投影长度平方和，任何包含的 2 维子空间的投影长度平方和等于投影到方向的平方和加上在垂直方向上的平方和，所以同理地

一样，寻找第个奇异向量是在所有与之前找到的奇异向量正交的单位向量中，使最大化的过程

对应的奇异值为

参考

* 文章的部分表述我参考了记忆中阅读过的一些资料，因当下不方便查阅，可能相关部分表述和理解会与原文有不小出入。

Chapter 7 - The Singular Value Decomposition (SVD)

http://mp.weixin.qq.com/s?__biz=MzI1MzA4MjQyMg==&mid=2247487583&idx=1&sn=8e49c54dc1de560bd7f0c97facec65e0

Makiror Ouyang

Per Aspera Ad Astra.

最新文章

我又被网络卖课佬找上了

[微分方程] 拉普拉斯方程引论

[数学分析] Lp空间的基本性质及定理

[线代] 浅写奇异值分解（SVD）

[自然语言处理] 教你做个语言分析工具 I

[数学分析] 泛函分析不泛寒 I

[自我介绍] 我是猫

阶乘这玩意儿可太神奇了

[点集拓扑] 拓扑学的基础概念

“中专学生打阿赛”一事，我们应该学会什么？

浅析插值法与泰勒公式

[数学分析] 复积分与留数理论

[数学分析] 解析函数与级数展开

[微积分学] 二重积分计算简要

[数学分析] 友好的复分析导读 I

【编译原理/龙书】用Rust写一个SQL Parser【1】

这两个月...

【Crystal入门与实践】LA、FA - 有穷自动机与正则引擎实现

【Erlang/OTP入门】基于进程的并发编程和分布式

用Rust写一个极简的KV数据库【2-3】

用Rust写一个极简的KV数据库【1】

一些John Backus的图灵奖论文的学习笔记

【Kali Linux】ARP欺骗断网

Linux的IO多路复用和Epoll

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉