torch.linalg.eigh

torch.linalg.eigh(A, UPLO='L', *, out=None)

计算复 Hermite 矩阵或实对称矩阵的特征值分解。

令 $\mathbb{K}$ 为实数集 $\mathbb{R}$ 或复数集 $\mathbb{C}$ ，则复赫米特矩阵或实对称矩阵 $A \in \mathbb{K}^{n \times n}$ 的特征值分解定义为：

A = Q \operatorname{diag}(\Lambda) Q^{\text{H}}\mathrlap{\qquad Q \in \mathbb{K}^{n \times n}, \Lambda \in \mathbb{R}^n}

其中 $Q^{\text{H}}$ 在 $$Q$$ 为复数时表示共轭转置，在 $$Q$$ 为实数值时表示普通转置。在实数情况下， $$Q$$ 是正交矩阵；而在复数情况下，则是酉矩阵。

支持浮点型、双精度型、复数浮点型和复数双精度型的数据类型作为输入。还支持矩阵的批量处理，如果A是一组矩阵，那么输出将具有相同的批处理维度。

A 被假设为厄米矩阵（或对应的对称矩阵），但不会进行内部验证，而是：

如果 UPLO = ‘L’（默认情况），则在计算中只使用矩阵的下三角部分。
如果 UPLO = 'U'，则只使用矩阵的上三角部分。

特征值以升序排列返回。

注意

当输入位于CUDA设备上时，此函数会将其与CPU进行同步。

注意

实对称矩阵和复 Hermite 矩阵的特征值总是实数。

警告

对称矩阵的特征向量不唯一，并且不相对于A是连续的。因此，不同的硬件和软件可能计算出不同的特征向量。

这种非唯一性是由以下事实引起的：在实数情况下，将特征向量乘以-1；在复数情况下，将特征向量乘以 $e^{i \phi}, \phi \in \mathbb{R}$ 会产生另一组有效的矩阵特征向量。因此，损失函数不应依赖于特征向量的相位，因为这个量是未明确定义的。在计算此函数梯度时会检查复数输入的情况。当输入为复数且位于CUDA设备上时，该函数梯度的计算会使该设备与CPU同步。

警告

使用特征向量张量计算的梯度仅在A具有不同特征值时才是有限的。此外，如果任意两个特征值之间的距离接近于零，则梯度将变得数值不稳定，因为它的计算依赖于 $\frac{1}{\min_{i \neq j} |\lambda_i - \lambda_j|}$ 。

警告

在使用 CUDA 设备运行 eigh 时，特别是在输入为大型病态矩阵且 CUDA 版本低于 12.1 更新 1 的情况下，用户可能会遇到 PyTorch 崩溃的问题。更多详情请参阅线性代数数值稳定性。如果遇到这种情况，可以尝试（1）调整输入矩阵以减少病态程度，或（2）使用 torch.backends.cuda.preferred_linalg_library() 尝试其他支持的后端。

参见

torch.linalg.eigvalsh() 只计算赫米特矩阵的特征值。与 torch.linalg.eigh() 不同，eigvalsh() 的梯度始终是数值稳定的。

torch.linalg.cholesky() 用于对赫米特矩阵进行不同的分解。虽然乔莱斯基分解提供的信息较少，但其计算速度远快于特征值分解。

torch.linalg.eig() 用于计算任意方形矩阵的特征值分解（但速度较慢，适用于不一定为赫米特矩阵的情况）。

torch.linalg.svd() 是一个计算任意形状矩阵的更通用的奇异值分解(SVD)的函数，但它的运行速度较慢。

torch.linalg.qr() 提供了一个更快的适用于通用矩阵的分解方法。

参数

A (Tensor) – 形状为(*, n, n)的张量，其中*表示零个或多个批次维度，包含对称或厄米矩阵。
UPLO ('L', 'U', 可选) – 控制在计算中使用矩阵A的上三角部分还是下三角部分。默认值：‘L’。

关键字参数

out (元组, 可选) – 由两个张量组成的输出元组。如果为None则忽略。默认值：None。

返回值

一个名为(eigenvalues, eigenvectors)的命名元组，对应于上面提到的 $\Lambda$ 和 $$Q$$ 。

特征值即使矩阵A是复数，也会始终为实数，并且按照升序排列。

特征向量将与A具有相同的数据类型，其各列包含相应的特征向量。

示例:

>>> A = torch.randn(2, 2, dtype=torch.complex128)
>>> A = A + A.T.conj()  # creates a Hermitian matrix
>>> A
tensor([[2.9228+0.0000j, 0.2029-0.0862j],
        [0.2029+0.0862j, 0.3464+0.0000j]], dtype=torch.complex128)
>>> L, Q = torch.linalg.eigh(A)
>>> L
tensor([0.3277, 2.9415], dtype=torch.float64)
>>> Q
tensor([[-0.0846+-0.0000j, -0.9964+0.0000j],
        [ 0.9170+0.3898j, -0.0779-0.0331j]], dtype=torch.complex128)
>>> torch.dist(Q @ torch.diag(L.cdouble()) @ Q.T.conj(), A)
tensor(6.1062e-16, dtype=torch.float64)

>>> A = torch.randn(3, 2, 2, dtype=torch.float64)
>>> A = A + A.mT  # creates a batch of symmetric matrices
>>> L, Q = torch.linalg.eigh(A)
>>> torch.dist(Q @ torch.diag_embed(L) @ Q.mH, A)
tensor(1.5423e-15, dtype=torch.float64)