一、问题重述与核心目标

在许多信号处理、控制理论和机器学习问题中,我们经常遇到如下形式的线性观测模型:

$$ \boldsymbol{Y} = \boldsymbol{A X B} + \boldsymbol{E} $$

其中:

  • $\boldsymbol{Y} \in \mathbb{R}^{P \times K}$ 是已知的观测矩阵(或多组观测向量组成的集合)
  • $\boldsymbol{A} \in \mathbb{R}^{P \times M}$ 和 $\boldsymbol{B} \in \mathbb{R}^{N \times K}$ 是已知的系统响应或投影矩阵
  • $\boldsymbol{X} \in \mathbb{R}^{M \times N}$ 是我们需要估计的未知参数矩阵
  • $\boldsymbol{E}$ 是加性噪声矩阵

核心目标:在最小二乘准则下,求解使得二次型目标函数 $\psi(\boldsymbol{X})$ 极小化的参数 $\boldsymbol{X}$:

$$ \hat{\boldsymbol{X}} = \arg\min_{\boldsymbol{X}} \|\boldsymbol{Y} - \boldsymbol{A X B}\|_F^2 $$

(注:$\|\cdot\|_F$ 表示矩阵的 Frobenius 范数)


二、数学理论推导:从矩阵到向量

为了使用标准的线性代数工具求解该优化问题,我们需要将矩阵方程转化为标准的线性方程组。这里引入两个核心数学工具:矩阵向量化(Vectorization)克罗内克积(Kronecker Product)

1. 向量化算子

矩阵向量化 $\mathrm{vec}(\boldsymbol{X})$ 是将矩阵的列依次堆叠,形成一个长列向量的过程。对于 $\boldsymbol{X} \in \mathbb{R}^{M \times N}$,其向量化后的维度为 $MN \times 1$。

2. Kronecker 积恒等式

向量化算子与 Kronecker 积之间存在一个至关重要的恒等式(Roth’s column lemma):

$$ \mathrm{vec}(\boldsymbol{A X B}) = (\boldsymbol{B}^\top \otimes \boldsymbol{A}) \mathrm{vec}(\boldsymbol{X}) $$

3. 目标函数的转化

利用矩阵 Frobenius 范数与向量 Euclidean 范数的等价性($\|\boldsymbol{M}\|_F = \|\mathrm{vec}(\boldsymbol{M})\|_2$),我们可以将原问题改写为标准最小二乘问题:

$$ \psi(\boldsymbol{X}) = \|\mathrm{vec}(\boldsymbol{Y}) - (\boldsymbol{B}^\top \otimes \boldsymbol{A}) \mathrm{vec}(\boldsymbol{X})\|_2^2 $$

令 $\boldsymbol{y} = \mathrm{vec}(\boldsymbol{Y})$,$\boldsymbol{x} = \mathrm{vec}(\boldsymbol{X})$,以及 $\boldsymbol{K} = \boldsymbol{B}^\top \otimes \boldsymbol{A}$,问题简化为:

$$ \hat{\boldsymbol{x}} = \arg\min_{\boldsymbol{x}} \|\boldsymbol{y} - \boldsymbol{K} \boldsymbol{x}\|_2^2 $$

4. 解析解

利用 Moore-Penrose 伪逆,该问题的解析解为:

$$ \hat{\boldsymbol{x}} = \boldsymbol{K}^\dagger \boldsymbol{y} = (\boldsymbol{B}^\top \otimes \boldsymbol{A})^\dagger \mathrm{vec}(\boldsymbol{Y}) $$

若 $\boldsymbol{K}$ 列满秩,则可化简为 $\hat{\boldsymbol{x}} = (\boldsymbol{K}^\top \boldsymbol{K})^{-1} \boldsymbol{K}^\top \boldsymbol{y}$。最后通过 reshape 操作将 $\hat{\boldsymbol{x}}$ 还原为矩阵 $\hat{\boldsymbol{X}}$。


三、解的存在唯一性与维度分析

为什么我们在早期实验中(仅用单向量 $\boldsymbol{b}$ 时)得不到真实的唯一解?这需要从维度和秩(Rank)的严密逻辑来剖析。

1. 维度盘点

  • 未知数 $\boldsymbol{x}$ 的维度:$M \times N$(共 $MN$ 个自由度)
  • 等式(约束)数量 $\boldsymbol{y}$ 的维度:$P \times K$(共 $PK$ 个方程)

要使问题不欠定,必要条件是约束数量必须大于等于未知数数量:

$$ P \cdot K \ge M \cdot N $$

2. 秩的制约关系(充分条件)

方程有唯一解的充要条件是系数矩阵 $\boldsymbol{K}$ 必须是列满秩的。

根据 Kronecker 积的性质,矩阵 $\boldsymbol{K}$ 的秩由 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 的秩共同决定:

$$ \text{rank}(\boldsymbol{K}) = \text{rank}(\boldsymbol{B}^\top \otimes \boldsymbol{A}) = \text{rank}(\boldsymbol{B}) \cdot \text{rank}(\boldsymbol{A}) $$

为了让 $\boldsymbol{K}$ 列满秩,即 $\text{rank}(\boldsymbol{K}) = MN$,必须同时满足:

  1. $\text{rank}(\boldsymbol{A}) = M$(要求 $\boldsymbol{A}$ 的行数 $P \ge M$)
  2. $\text{rank}(\boldsymbol{B}) = N$(要求 $\boldsymbol{B}$ 的列数 $K \ge N$)

3. 单向量观测 $\boldsymbol{b}$ 失败的原因

如果观测端只给出一个向量 $\boldsymbol{b} \in \mathbb{R}^{N \times 1}$(此时 $K=1$):

$$ \text{rank}(\boldsymbol{K}) = \text{rank}(\boldsymbol{b}^\top) \cdot \text{rank}(\boldsymbol{A}) = 1 \cdot M = M $$

但我们的未知数有 $MN$ 个。只要 $N > 1$,$\text{rank}(\boldsymbol{K}) < MN$ 必然成立。

结论:单向量观测导致的 Kronecker 矩阵具有极大的零空间(Null Space),问题处于严重欠定状态。伪逆 $\boldsymbol{K}^\dagger$ 此时只能给出满足观测的"最小二乘最小范数解"(倾向于让解的数值尽可能小),而这极大概率不是产生数据的真实矩阵 $\boldsymbol{X}_{true}$。


四、拓展与后续思考方向

理解了上述基础形式后,真实世界中的应用往往更加复杂。以下问题可作为进一步研究和完善算法的方向:

1. 维度爆炸与计算复杂性问题 (Computational Efficiency)

痛点:当矩阵维度稍大(如 $M=100, N=100$),$\boldsymbol{K}$ 的维度将达到 $10000 \times 10000$。直接构建 Kronecker 积并在内存中求伪逆 $\mathcal{O}((MN)^3)$ 会导致内存溢出(OOM)和计算缓慢。

思考方向:如何不显式构造 $\boldsymbol{K}$ 而求解?

  • Sylvester 方程:当问题满足某些维度对称性时,可将其化归为 $\boldsymbol{A X} + \boldsymbol{X B} = \boldsymbol{C}$ 形式求解
  • 共轭梯度法 (Conjugate Gradient, CG):仅利用隐式的矩阵-向量乘法 $\boldsymbol{K}^\top \boldsymbol{K} \boldsymbol{x}$(实际上可以通过 $\boldsymbol{A}^\top(\boldsymbol{A X B})\boldsymbol{B}^\top$ 快速计算,将复杂度降至 $\mathcal{O}(P K M N)$)

2. 病态矩阵与正则化 (Regularization)

痛点:虽然数学上 $P \ge M, K \ge N$ 且矩阵满秩即可,但如果 $\boldsymbol{A}$ 或 $\boldsymbol{B}$ 是病态矩阵(条件数极大),微小的噪声 $\boldsymbol{E}$ 会被急剧放大,导致解崩溃。

思考方向:引入 Tikhonov 正则化(Ridge Regression):

$$ \hat{\boldsymbol{X}} = \arg\min_{\boldsymbol{X}} \|\boldsymbol{Y} - \boldsymbol{A X B}\|_F^2 + \lambda \|\boldsymbol{X}\|_F^2 $$

此时向量化解析解变为 $\hat{\boldsymbol{x}} = (\boldsymbol{K}^\top \boldsymbol{K} + \lambda \boldsymbol{I})^{-1} \boldsymbol{K}^\top \boldsymbol{y}$。

3. 结构化矩阵先验 (Structured Matrices)

痛点:如果我们先验知道未知的 $\boldsymbol{X}$ 具备某种物理意义约束呢?

思考方向

  • 若 $\boldsymbol{X}$ 是对角矩阵:未知数减少为 $M$ 个,向量化策略该如何调整?(引入选择矩阵/Hadamard积)
  • 若 $\boldsymbol{X}$ 是稀疏矩阵(Sparse):需引入 $L_1$ 范数正则化,此时失去解析解,需要使用 ADMM 或 FISTA 等近端梯度算法
  • 若 $\boldsymbol{X}$ 是低秩矩阵(Low-Rank):涉及到核范数(Nuclear Norm)极小化,广泛应用于矩阵补全(Matrix Completion)和推荐系统中