如何理解矩阵的特征值问题?,何为矩阵的特征值

在人工智能与大数据飞速发展的今天,线性代数已成为理工科领域的“重器”。继上一篇关于矩阵秩的探讨之后,本文将视线转向了矩阵理论中应用极为广泛的另一核心领域——特征值问题。

撰文 | 朱慧坚(广州南方学院数学与统计学院副教授)、丁玖(广州南方学院数学与统计学院教授)

在此前文章中,我们已经讨论了矩阵乘法、矩阵求逆、求广义逆及其在最小二乘问题中的应用。在这篇文章里,我们继续谈论矩阵,不过将重心从算子意义下的逆运算转移到特征值问题。矩阵的特征值问题不仅用途极其广泛,而且其思想的光芒也在其他数学学科内到处闪现,无论是同样有具体内容的常微分方程论,还是比矩阵概念更加抽象的泛函分析,都能看到它的身影。特征值问题对矩阵形状只有一个限制条件:它必须是个方阵,即行数

如果将𝑥和𝑦都写成列向量的形式,上面从𝑥到𝑦的对应关系即为𝑦 = 𝐴𝑥。

从现在起我们只考虑方阵,即假设𝐴为一个𝑛行𝑛列矩阵,或言之,𝐴是一个𝑛阶方阵(也称𝑛阶矩阵)。如此,𝑦 = 𝐴𝑥和𝑥都属于同一个空间𝑅^𝑛,这样我们就可以对它们进行比较。而在任何学科的特征值问题中,这种比较是通过相等关系来刻画的。通常规定,两个向量相等是指它们的分量个数(也叫做它们的维数)相等,且对应的分量都相等。

复数域上的特征值

现在定义矩阵特征值问题:对于给定的𝑛阶方阵𝐴,如果存在数𝜆和非零向量𝑥 ∈ 𝑅^𝑛,使得等式

𝐴𝑥=λ𝑥

成立,则称𝜆为𝐴的一个特征值,𝑥为𝐴的对应于特征值𝜆的一个特征向量。请读者注意,特征值𝜆可以是0,也可以不是0,然而特征向量𝑥绝不能是零向量。道理很简单,因为当𝑥 = 0时,等式两端恒等于零向量,所有的数𝜆都满足特征值方程,就没有“特征”可言了。因此,为了避免这种平凡的情况,满足特征值问题等式的那个向量𝑥不应该是零向量。

但是这里的定义好像隐藏了一个问题。上面的叙述继承了我们之前文章中的一个约定做法,只假定矩阵𝐴的所有元素都是实数,因而它定义了线性算子𝐴: 𝑅^𝑛 → 𝑅^𝑛,也就是说对所有的向量𝑢, 𝑣 ∈ 𝑅^𝑛及所有的实数𝑎和𝑏,都有

𝐴(𝑎𝑢 + 𝑏𝑣) = 𝑎𝐴𝑢 + 𝑏𝐴𝑣。

现在问题来了,既然矩阵𝐴和向量𝑥都是定义在实数域𝑅上,似乎很自然地希望特征值也应该属于同一个实数域。读者可能要问,在这个看似合理的要求下,矩阵是否总存在至少一个特征值。我们先来看一个直观易懂的例子。

设想我们把𝑥𝑦 −平面上的每个向量都围绕坐标原点按逆时针方向旋转90度。这是将𝑅^2映到𝑅^2上的一个线性算子。因为每个非零向量都旋转了一个直角,故它们当中不可能有向量旋转成同一方向或相反方向的向量,所以这个实域上的旋转算子不存在实特征值,在几何上看是显而易见的。若用代数的方法解释这个现象,不用高中平面解析几何的坐标旋转公式,而用我们一直提倡的算子思想,很容易写出该旋转所对应的2阶方阵:这个90度的旋转将向量(1, 0)旋转到向量(0, 1),而把向量(0, 1) 旋转到向量(−1, 0)。因而这个旋转算子由矩阵

表示。我们来检查是否存在实数𝜆和非零实向量(𝑥, 𝑦)使得

上述方程等价于联立线性方程组−𝑦 = λ𝑥和𝑥 = 𝜆𝑦。由此得𝑥 = −𝜆^2𝑥。若𝑥 ≠ 0,则𝜆^2 + 1 = 0,它在实数范围内没有解。若𝑥 = 0,因(𝑥, 𝑦) ≠ (0, 0),则𝑦 ≠0。同样的代换逻辑用在𝑦上(𝑦 = −𝜆^2𝑦),也导出𝜆^2 + 1 = 0。所以上述旋转矩阵𝐴在实数域内不存在特征值,自然也没有对应的特征向量了。

即便是从前没有学过矩阵理论的读者,也可能已经想象出了走出困境的方法:在复数范围里求解特征值问题,理由是 1806 年被业余数学家阿尔冈(Jean-Robert Argand,1768 -1822)首次无漏洞证明的代数基本定理“非常数单变量多项式至少有一个复数根”。(在这之前多位著名数学家如欧拉和拉格朗日都给出了漏洞不一的“证明”,其中“数学王子”高斯(Carl Friedrich Gauss,1777 -1855)于 22岁时放进其博士论文的证明漏洞最小,但其中的“拓扑漏洞”要等到 121 年后才被一位 27 岁的俄罗斯数学家奥斯特罗夫斯基(Alexander Markowich Ostrowski,1893 -1986)完全填补,从中可见复数的神秘、深奥和魅力。)

所以,从现在开始,我们在复数域上研究矩阵特征值问题。令𝐴为一个𝑛阶复方阵,即𝐴的每个元素都是复数。自然每一个实矩阵也是复矩阵。将𝑛维欧几里得空间𝑅^𝑛中的实向量的每个

给定的𝑛阶复矩阵𝐴定义了线性算子𝐴: 𝐶^𝑛 → 𝐶^𝑛。如果存在一个复数𝜆和非零复向量𝑧使得𝐴𝑧 = 𝜆z,则称𝜆为𝐴的一个特征值,而𝑧为𝐴的与特征值𝜆相关的一个特征向量。

回到刚才考虑过的90度旋转矩阵𝐴,它被视为把2维酉空间𝐶^2映到自身的复域上的一个线性算子。与之前只考虑实数域情形不一样的是,此时,特征值方程𝜆^2 + 1 = 0在复数域中有两个根𝑖和−𝑖,因此这个被看成复方阵的2阶实方阵𝐴有且仅有两个特征值。此外,这两个虚数特征值还彼此共轭。通过求解对应于𝑖的线性方程组−𝑦 =i𝑥及𝑥 = 𝑖𝑦和对应于−𝑖的线性方程组−𝑦 =−𝑖𝑥及𝑥 =−𝑖𝑦,我们获得与特征值𝑖相关的一个复特征向量(1, −𝑖)及与特征值−𝑖相关的一个复特征向量(1, 𝑖)。仔细观察后,又一个现象出现了:对应于相异特征值的特征向量(1, −𝑖)和(1, 𝑖)彼此正交。我们将在下一篇文章中解释为什么。

再一次检视上段两组关于2维特征向量两分量𝑥和𝑦的方程,容易发现,它们都是齐次线性方程组,即如果将它们分别改写成“标准形式”,就是

𝑖𝑥 + 𝑦 = 0, 𝑥 − 𝑖𝑦 = 0;𝑖𝑥 − 𝑦 = 0, 𝑥 + 𝑖𝑦 = 0。

都满足该方程组。由此推出,虽然只有两个特征值,但每个特征值都率领了由无限多个士兵组成的特征向量队伍。这说明,对应于同一个特征值的所有特征向量全体,再插进零向量,这个集合将构成一个向量空间。因为如此构造的向量空间是𝐶^2的子集,它被叫做𝐶^2的子空间。

特征多项式与凯莱-哈密尔顿定理

熟悉了上面这个简单例子,我们就可以讨论一般矩阵特征值问题的基本性质。设𝐴 = (𝑎𝑖𝑗)为一𝑛阶复矩阵。根据特征值问题的定义。复数𝜆是方阵𝐴的一个特征值意味着关于未知复向量𝑥的方程𝐴𝑥 = 𝜆𝑥有非零解。将这个方程改写成与之等价的齐次方程形式

(𝜆𝐼−𝐴)𝑥=0,

其中𝐼是𝑛阶的单位矩阵,运用以前学过的矩阵是否可求逆的语言(参见我们的《返朴》文章《从反函数的观点看逆矩阵》),我们便可得知,𝜆是𝐴的特征值当且仅当矩阵𝜆𝐼 − 𝐴是无逆可求的(因为由特征值的定义,𝜆是𝐴的特征值等价于性质“算子𝜆𝐼 − 𝐴不是单射”,因而它的逆矩阵不存在)。而矩阵无逆的一个简单判别准则就是它的行列式等于零。方阵𝐵的行列式一般简洁地写成|𝐵|或 det𝐵,其中的det 是英文单词determinant(行列式)的前三个字母。这样一 来,我们获得𝜆是𝐴的特征值的一个充分必要条件:

定理 1. 复数𝜆是方阵𝐴的特征值当且仅当|𝜆𝐼 − 𝐴|= 0。

那么,若𝐴是𝑛阶的,会有多少个𝜆满足定理 1 中的等式呢?要回答这个问题,我们用𝑧取代𝜆,将上面定理中的等式变成含有未知数𝑧的方程

|𝑧𝐼−𝐴|=0。(1)

根据定理 1,方程(1)的所有解给出𝐴的所有特征值。那么到底有几个解呢?前面我们对平面上的一个2阶旋转实矩阵证实了它有两个特征值,我们再考察一般的3阶复矩阵(注意其(3, 3)元素𝑖不是虚数单位)

它所对应的特征值方程是

假定大家知道怎样计算三阶行列式,那么上述方程的左端展开后变成

其中 Tr(𝐴) = 𝑎 + 𝑒 + 𝑖是𝐴的主对角线元素之和,称为𝐴的迹。因为这个三次多项式顶多有三个相异的复数根,故𝐴顶多有三个不同的特征值。如果记入重根的重数,𝐴恰好有三个特征值。每个特征值作为多项式|𝑧𝐼 − 𝐴|之根的重数(或|𝑧𝐼 − 𝐴|在复数域上的因式分解中相应线性因子的幂指数)称为该特征值的代数重数。

上面对三阶矩阵的结论可以直接推广到𝑛阶矩阵𝐴。此时,由行列式的经典定义或等价的按行或按列拉普拉斯展开计算公式,易见行列式|𝑧𝐼 − 𝐴|展开后是变量𝑧的𝑛阶复系数多项式,故根据代数基本定理,多项式方程|𝑧𝐼 − 𝐴| = 0至多有𝑛个相异复数根,它们就是𝐴的所有相

凯莱-哈密尔顿定理:设方阵𝐴的特征多项式|𝑧𝐼 − 𝐴|为𝑝(𝑧),则𝑝(𝐴) = 0。

这个定理是深入研究矩阵特征值问题的基础,或许可以称它为“矩阵特征值问题基本定理”。凯莱(Arthur Carley,1821-1895)开创了矩阵时代,而爱尔兰数学家哈密尔顿(William Rowan Hamilton,1805 -1865)则是四元数之 父。

美国数学普及家贝尔(Eric Temple Bell,1883-1960)在巨著Men of Mathematics(《大数学家》)中描绘了哈密尔顿的晚景:

“哈密尔顿于 1865年 9月 2日因痛风去世,享年 61岁。去世后,人们发现他留下了大量杂乱无章的手稿,以及大约 60本厚重的数学手稿。目前,他的著作正在编纂成册。从他手稿的状况可以看出,他生命最后三分之一的时间里,家庭生活十分艰辛:无数盛着干瘪肉排残渣的餐盘被埋在堆积如山的纸张中,还有足够一家人使用的餐具从杂乱的纸张中被翻了出来。”

2008年,杨振宁先生提到他少年时所读到的这个凄惨故事,表示他绝不能像哈密尔顿那样在太太离世后过“相当漫长的孤独生活”。这样的坚定信念给他带来了堪称幸福的二十年晚年生活。

几何重数与代数重数的关系

现在我们转向探索,当方阵𝐴的一个特征值𝜆已知后,怎样求出它所对应的全部特征向量。根据特征向量的定义,所有满足齐次线性方程组

(𝜆𝐼−𝐴)𝑥=0

的非零向量𝑥 ∈ 𝐶^𝑛组成了矩阵𝐴与特征值𝜆相关的特征向量全体。根据线性方程组的解理论,这个集合和零向量单点集{0}的并集是𝐶^𝑛的一个子空间,称为𝐴对应于特征值𝜆的特征子空间。试问,这个向量空间到底有多大呢?或者更精确地说,它的维数等于几?

让我们回忆与矩阵相伴的几个重要概念。设𝐵为一𝑚行𝑛列复矩阵,它的𝑛个列向量所张成的𝐶^𝑚的子空间称为𝐵的值空间或列空间,记为𝑅(𝐵);它的𝑚个行向量所张成的𝐶^𝑛的子空间称为𝐵的行空间。我们在《返朴》最近推出的文章《为什么矩阵的行秩等于列秩?》中已经证明:矩阵𝐵的值空间𝑅(𝐵)的维数等于𝐵的行空间的维数,这个共同的非负整数称为𝐵的秩。在一般的线性代数教科书中,𝐵的秩被等价地定义为𝐵的非零子行列式(也叫𝐵的子式)的最大阶数。作为线性算子,矩阵𝐵的定义域𝐶^𝑛中被𝐵映射到𝐶^𝑚中零向量的那些向量的全体是𝐶𝑛的一个子空间,称为𝐵的零空间,记作𝑁(𝐵)。在前述的文章中我们已经证明:𝐵的零空间的维数加上𝐵的值空间的维数等于𝐵的列数。

零空间的概念马上让我们知晓,与方阵𝐴的特征值𝜆相关的特征子空间恰恰就是奇异矩阵𝜆I − A的零空间。我们把𝑁(𝜆I − A)的维数称为特征值𝜆的几何重数。这样,𝐴的任何特征值既有代数重数,也有几何重数,前者来自特征多项式的因式分解,显示出特征值的代数特色,后者来自特征子空间的尺寸,量化了特征向量群体的几何维度。那么,它们之间是否具有永恒的大小关系?

是的,同一个特征值的几何重数总是向上“仰视”代数重数的,即它小于或等于代数重数。下面是一个满足“小于”关系的简单例子。令

注意它是非对称的实矩阵,其特征多项式为

故𝐴仅有一个相异特征值0,其代数重数为2。为了得到0的几何重数,我们求解方程对应于特征值0的特征向量方程组(0𝐼 − 𝐴)𝑦 = 0,所得到的特征子空间𝑁(0𝐼 − 𝐴)是𝐶^2的一维子空间{(𝑥, 0): 𝑥 ∈ 𝐶}。故特征值0的几何重数等于1,它确实小于代数重数2。

由于上述结论在矩阵理论中的重要性,我们把它写成定理的形式:

定理 2.设𝜆是一个方阵的特征值,则它的代数重数大于或等于它的几何重数。

当矩阵的特征值具有相等的代数重数和几何重数时,我们称这个特征值是半单的,特别地,如果代数重数等于1(此时几何重数也必定等于1,因为特征子空间至少是一维的向量空间),则说此特征值是单的。我们在文章的后面部分将给出半单特征值在“简化”矩阵结构的行动中所起的关键作用。

矩阵可对角化的充要条件

我们继续讨论特征值的基本性质。首先我们证明,对应于给定方阵不同特征值的特征向量

与𝐵是“相似”的,有时如同中学平面几何教科书上表示两个三角形相似的符号那样写成𝐴 ∼ 𝐵。定理 4表明,所有其特征值均为半单的矩阵相似于一个对角矩阵,它的对角元素由这些特征值按各自的重数一一排列。一个特殊的情形是,𝑛阶矩阵𝐴有𝑛个相异的特征值,这时𝐴一定相似于某个对角矩阵。

如果一个矩阵与一个对角矩阵相似,我们则说它是“可对角化”的。上面的定理 4 提供了可对角化矩阵的一个充分条件。反过来,只要给定的矩阵𝐴相似于一个对角矩阵,则它的所有

特征值都是半单的。到此,我们论证出了如下的“等价性定理”:

定理 5. 一个方阵可对角化当且仅当它的所有相异特征值都是半单的。

相似矩阵的性质与埃尔米特矩阵初探

与三角形一样,矩阵之间的相似关系是个“等价关系”,即(i)每个方阵与它自己相似,这时建立相似关系的矩阵𝑈就可取为单位矩阵;(ii)若𝐴与𝐵相似,则𝐵与𝐴相似,这是因为

然而,正如前面的简单例子所显示的,并非方阵的每个特征值都是半单 的。事实上,只要有一个特征值是非半单的,矩阵就不可能对角化。在这个最一般的非半单特征值情形下,人们退而求其次,引进了所谓的“广义特征向量”的概念,犹如当矩阵无逆可求时可以寻觅“广义逆矩阵”(参看我们之前在《返朴》发表的文章《从线性算子的角度看广义逆矩阵》)。披在广义特征向量身上的外衣是世界品牌“若尔当标准型”,它比半单特征值旗帜下的对角矩阵标准型只多了一条与主对角线平行、含有非零元素的次对角线,却具有丰富多彩的数学内容。未来有机会时我们将集中讨论若尔当标准型。

不过,有好几类矩阵不会让我们担心,因为它们都可对角化,其中的一类长相最漂亮,叫埃尔米特矩阵类,其中的每个矩阵𝐴满足等式𝐴∗ = 𝐴,即 𝐴的共轭转置矩阵就是它自己。埃尔米特(Charles Hermite,1822-1901)是法国数学家,他第一个证明了自然对数的底2.71828 ⋯是超越数。在元素全是实数时,埃尔米特矩阵𝐴就是更易识别的实对称矩阵,即

故它有两个单特征值1和−1。和之前特征值为正负虚数单位的矩阵相比,这里复数被毫不留情地挤出特征值队伍之外。第一个特征值占有特征向量(1, −1),第二个特征值对应的特征向量是(1, 1)。不难发现这两个特征向量相互正交!

有了这个例子垫底,未来我们就可以深入探讨实对称矩阵、埃尔米特矩阵、正交矩阵、酉矩阵,乃至更加一般的正规矩阵的特征值问题了。

注:本文封面图片来自版权图库,转载使用可能引发版权纠纷。

特 别 提 示

1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。

2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。

版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。


nginx