Sparsity Extended Information Filter SLAM

M. R. Walter, R. M. Eustice, and J. J. Leonard, “Exactly Sparse Extended Information Filters for Feature-based SLAM,” The International Journal of Robotics Research, vol. 26, no. 4, pp. 335–359, Apr. 2007, doi: 10.1177/0278364906075026.

EKF 通过均值和协方差矩阵估计机器人状态和地图，但协方差矩阵的计算和更新复杂度为 $O (n^{2})$ ，限制了其在小规模环境中的应用。子图方法通过划分环境降低计算负担，但可能牺牲全局地图的实时性和收敛速度。

EIF 使用信息矩阵（逆协方差矩阵）和信息向量描述高斯分布，更新步骤复杂度为 $O (m^{2})$ ，优于 EKF。然而，时间预测步骤仍为 $O (n^{2})$ ，且均值恢复需要 $O (n^{3})$ 的矩阵求逆，限制了其在大规模环境中的应用。

SEIF 利用信息矩阵的稀疏性，将非对角元素近似为零，显著降低了更新和时间预测的计算成本，接近常数复杂度。但这种近似往往造成滤波器的过分自信，同时它依赖稀疏性和均值估计的近似求解，使得在实际应用中仍面临挑战。

Gaussian Probability

Duality of Covariance and Information

对服从高斯分布的多元随机变量 $ξ_{t} \sim N (μ_{t}, Σ_{t})$ 可以通过均值向量 $μ_{t}$ 和协方差矩阵 $Σ_{t}$ 参数化，同时也可以被规范形式 $N^{- 1} (η_{t}, Λ_{t})$ 所表示，其中 $Λ_{t} = Σ_{t}^{- 1}, η_{t} = Σ_{t}^{- 1} μ_{t}$ .

\begin{aligned} p (ξ_{t}) & = N (μ_{t}, Σ_{t}) \\ \propto \exp {- \frac{1}{2} (ξ_{t} - μ_{t})^{⊤} Σ_{t}^{- 1} (ξ_{t} - μ_{t})} \\ = \exp {- \frac{1}{2} (ξ_{t}^{⊤} Σ_{t}^{- 1} ξ_{t} - 2 μ_{t}^{⊤} Σ_{t}^{- 1} ξ_{t} + μ_{t}^{⊤} Σ_{t}^{- 1} μ_{t})} \\ \propto \exp {- \frac{1}{2} ξ_{t}^{⊤} Σ_{t}^{- 1} ξ_{t} + μ_{t}^{⊤} Σ_{t}^{- 1} ξ_{t}} \\ = \exp {- \frac{1}{2} ξ_{t}^{⊤} Λ_{t} ξ_{t} + η_{t}^{⊤} ξ_{t}} \propto N^{- 1} (η_{t}, Λ_{t}) \end{aligned}

在标准形式中，边缘化操作只需从均值向量和协方差矩阵中移除相应的元素。然而在规范形式中，边缘化操作需要计算舒尔补，计算复杂度较高。条件化则相反，在标准形式中操作较为复杂，在规范形式下则相对简单。

Implied Conditional Independence

\begin{aligned} p (ξ) & \propto \exp {- \frac{1}{2} ξ^{T} Λ ξ + η^{T} ξ} \\ = \exp {\sum_{i} (η_{i} ξ_{i} - \frac{1}{2} \sum_{j} ξ_{i} λ_{i j} ξ_{j})} \\ = \prod_{i} \exp {- \frac{1}{2} λ_{i i} ξ_{i}^{2} + η_{i} ξ_{i}} \cdot \prod_{i \neq j} \exp {- \frac{1}{2} ξ_{i} λ_{i j} ξ_{j}} \\ = \prod_{i} Ψ_{i} (ξ_{i}) \cdot \prod_{i \neq j} Ψ_{i j} (ξ_{i}, ξ_{j}) \end{aligned}

其中

\begin{aligned} Ψ_{i} (ξ_{i}) & = \exp {- \frac{1}{2} λ_{i i} ξ_{i}^{2} + η_{i} ξ_{i}} \\ Ψ_{i j} (ξ_{i}, ξ_{j}) & = \exp {- \frac{1}{2} ξ_{i} λ_{i j} ξ_{j}} \end{aligned}

“The meaning of a zero in an inverse covariance matrix (at location $i, j$ ) is conditional on all the other variables, these two variables $i$ and $j$ are independent. ... So positive off-diagonal terms in the covariance matrix always describe positive correlation; but the off-diagonal terms in the inverse covariance matrix can’t be interpreted that way. The sign of an element $(i, j)$ in the inverse covariance matrix does not tell you about the correlation between those two variables.” (MacKay and Cb, 2006, p. 4)

如果信息矩阵中的非对角元素为零，即 $λ_{i j} = 0 \Leftrightarrow Ψ_{i j} (ξ_{i}, ξ_{j}) = 1$ ，这意味着两个节点之间没有边约束，表明 $ξ_{i}$ 和 $ξ_{j}$ 条件独立。相反，如果非对角元素不为零，则表明 $ξ_{i}$ 和 $ξ_{j}$ 之间存在一条边约束，其强度正比于 $λ_{i j}$ 。这种关系很好地体现在无向图中，直观地反映了变量之间的条件独立性。使用规范形式的一个主要好处是，信息矩阵 $Λ$ 提供了马尔可夫场的显式结构表示，清晰地揭示了变量之间的依赖关系。关于协方差矩阵和信息矩阵的更多深入理解，可以参考 David J.C. MacKay 2006 年的手稿 The Humble Gaussian Distribution.

Extended Information Filter

p (ξ_{t} | z^{t}, u^{t}) = N (μ_{t}, Σ_{t}) = N^{- 1} (η_{t}, Λ_{t})

记状态 $ξ_{t} = [x_{t}^{T} M_{t}^{T}]^{T}$ 为机器人位姿为 $x_{t}$ 和地图特征 $M = {m_{1}, \dots, m_{n}}$ 的组合， $z^{1 : t}$ 和 $u^{1 : t}$ 表示观测数据和输入的历史。地图基于信息矩阵的结构被划分为两个集合， $M = (m^{+}, m^{-})$ ，其中 $m^{+}$ 包含那些与机器人存在非零非对角项连接的地图元素，而 $m^{-}$ 则表示与车辆位姿条件独立的特征。

Measurement Update Step

观测对减小机器位姿和地图的估计的不确定性有重要影响，在均值处对非线性观测模型做一阶近似

\begin{aligned} z_{t} & = h (ξ_{t}) + v_{t} \\ \approx h ({\bar{μ}}_{t}) + H (ξ_{t} - {\bar{μ}}_{t}) + v_{t}, v_{t} \sim N (0, R) \end{aligned}

根据马尔科夫假设 $p (z_{t} | ξ_{t}, z_{1 : t - 1}, u_{1 : t}) = p (z_{t} | ξ_{t})$ 和 $\forall ξ_{t}, p (z_{t} | z_{1 : t - 1} u_{1 : t}) = \frac{1}{η}$ ，贝叶斯定理给出

\begin{aligned} p (ξ_{t} | z_{1 : t}, u_{1 : t}) & = p (ξ_{t} | z_{t}, z_{1 : t - 1}, u_{1 : t}) \\ = \frac{p (z_{t} | ξ_{t}, z_{1 : t - 1}, u_{1 : t}) \cdot p (ξ_{t} | z_{1 : t - 1}, u_{1 : t})}{p (z_{t} | z_{1 : t - 1}, u_{1 : t})} \\ = η \cdot p (z_{t} | ξ_{t}) \cdot p (ξ_{t} | z_{1 : t - 1}, u_{1 : t}) \\ = N^{- 1} (η_{t}, Λ_{t}) \end{aligned}

在更新时，EIF 估计规范形式的新的后验概率

\begin{aligned} Λ_{t} & = {\bar{Λ}}_{t} + H^{T} R^{- 1} H \\ η_{t} & = {\bar{η}}_{t} + H^{T} R^{- 1} (z_{t} - h ({\bar{μ}}_{t}) + H {\bar{μ}}_{t}) \end{aligned}

其中测量模型是一个只包含机器当前位姿以及现在观测到的地标的函数，在雅可比中表现为极度稀疏（没观测到的地标的梯度为 $0$ ）

H = [\begin{matrix} \frac{\partial h_{1}}{\partial ξ_{t}} & \dots & 0 & \dots & \frac{\partial h_{1}}{\partial m_{i}} & \dots & 0 \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial h_{m}}{\partial ξ_{t}} & \dots & \frac{\partial h_{m}}{\partial m_{j}} & \dots & 0 & \dots & 0 \end{matrix}]

信息矩阵通过稀疏矩阵 $H^{T} R^{- 1} H$ 进行更新，仅修改与机器人位姿和观测地标相关的项，从而加强或建立新的约束；由于 $H$ 的稀疏性和机器人视野的限制，更新时间与观测数量 $m$ 相关，复杂度为 $O (m^{2})$ ，且不随地图规模增长；在非线性情况下，计算均值需要 $O (n^{3})$ 的矩阵求逆，而在线性情况下，更新可以在常数时间内完成，无需均值计算。

Time Projection Step

时间预测包括状态扩展和边缘化。首先参考观测模型，对于运动学模型我们同样给出一阶近似

\begin{aligned} x_{t + 1} & = f (x_{t}, u_{t + 1}) + w_{t} \\ \approx f (μ_{x_{t}}, u_{t + 1}) + F (x_{t} - μ_{x_{t}}) + w_{t}, w_{t} \sim N (0, Q) \end{aligned}

首先将新的机器人位姿加入状态向量，并同步扩展信息矩阵和信息向量。其中状态向量 ${\hat{ξ}}_{t + 1} = [x_{t}^{T}, x_{t + 1}^{T}, M^{T}]^{T}$ 遵循后验分布 $p (ξ_{t} | z_{1 : t}, u_{1 : t}) = N^{- 1} (η_{t}, Λ_{t})$ . 如图所示，根据马尔科夫性质，新的位姿只和上一步位姿相关而与地图无关。

\begin{aligned} p ({\hat{ξ}}_{t + 1} | z_{1 : t}, u_{1 : t + 1}) & = p (x_{t + 1}, ξ_{t} | z_{1 : t}, u_{1 : t + 1}) \\ = p (x_{t + 1} | x_{t}, u_{t + 1}) \cdot p (ξ_{t} | z_{1 : t}, u_{1 : t}) \end{aligned}

新的状态估计服从更新后的高斯分布

p (x_{t}, x_{t + 1}, M | z_{1 : t}, u_{1 : t + 1}) = N ({\hat{μ}}_{t + 1}, {\hat{Σ}}_{t + 1}) = N^{- 1} ({\hat{η}}_{t + 1}, {\hat{Λ}}_{t + 1})

\begin{aligned} {\hat{Σ}}_{t + 1} & = [\begin{array}{ccc} Σ_{x_{t} x_{t}} & F Σ_{x_{t} x_{t}} & F Σ_{x_{t} M} \\ Σ_{x_{t} x_{t}} F^{T} & F Σ_{x_{t} x_{t}} F^{T} + Q & Σ_{x_{t} M} \\ Σ_{M x_{t}} F^{T} & Σ_{M x_{t}} & Σ_{M M} \end{array}] = [\begin{array}{cc} {\hat{Σ}}_{t + 1}^{11} & {\hat{Σ}}_{t + 1}^{12} \\ {\hat{Σ}}_{t + 1}^{21} & {\hat{Σ}}_{t + 1}^{22} \end{array}] \\ {\hat{μ}}_{t + 1} & = [\begin{array}{c} μ_{x_{t}} \\ f (μ_{x_{t}, u_{t + 1}}) \\ μ_{M} \end{array}] = [\begin{array}{c} {\hat{μ}}_{t + 1}^{1} \\ {\hat{μ}}_{t + 1}^{2} \end{array}] \end{aligned}

由协方差矩阵和信息矩阵的对偶性得到

\begin{aligned} {\hat{Λ}}_{t + 1} & = [\begin{array}{ccc} Λ_{x_{t} x_{t}} + F Q^{- 1} F & - F^{T} Q^{- 1} & Λ_{x_{t} M} \\ - Q^{- 1} F & Q^{- 1} & 0 \\ Λ_{M x_{t}} & 0 & Λ_{M M} \end{array}] = [\begin{array}{cc} {\hat{Λ}}_{t + 1}^{11} & {\hat{Λ}}_{t + 1}^{12} \\ {\hat{Λ}}_{t + 1}^{21} & {\hat{Λ}}_{t + 1}^{22} \end{array}] \\ {\hat{η}}_{t + 1} & = [\begin{array}{c} η_{x_{t}} - F^{T} Q^{- 1} [f (μ_{x_{t}, u_{t + 1}}) - F μ_{x_{t}}] \\ Q^{- 1} [f (μ_{x_{t}, u_{t + 1}}) - F μ_{x_{t}}] \\ η_{M} \end{array}] = [\begin{array}{c} {\hat{η}}_{t + 1}^{1} \\ {\hat{η}}_{t + 1}^{2} \end{array}] \end{aligned}

第二步是边缘化 $x_{t}$ , 使状态向量变为 $ξ_{t + 1} = [x_{t + 1}^{T}, M^{T}]^{T}$ .

\begin{aligned} p (x_{t + 1}, M | z_{1 : t}, u_{1 : t + 1}) & = \int_{x_{t}} p (x_{t}, x_{t + 1}, M | z_{1 : t}, u_{1 : t + 1}) d x_{t} \\ p (ξ_{t + 1} | z_{1 : t}, u_{1 : t + 1}) & = N^{- 1} ({\bar{η}}_{t + 1}, {\bar{Λ}}_{t + 1}) \end{aligned}

${\bar{η}}_{t + 1}$ 和 ${\bar{Λ}}_{t + 1}$ 由前面表中给出的边缘化公式得到

\begin{aligned} {\bar{Λ}}_{t + 1} & = {\hat{Λ}}_{t + 1}^{22} - {\hat{Λ}}_{t + 1}^{21} ({\hat{Λ}}_{t + 1}^{11})^{- 1} {\hat{Λ}}_{t + 1}^{12} \\ {\bar{η}}_{t + 1} & = {\hat{η}}_{t + 1}^{2} - {\hat{Λ}}_{t + 1}^{21} ({\hat{Λ}}_{t + 1}^{11})^{- 1} {\hat{η}}_{t + 1}^{1} \end{aligned}

虽然 EIF 能高效处理新观测的增量更新，但通过边缘化旧位姿时产生的全连接问题会导致信息矩阵迅速稠密化，使得运动预测的计算复杂度达到 $O (n^{2})$ 量级。边缘化过程会在新位姿与被移除旧位姿关联的所有特征 $m^{+}$ 之间建立新的信息连接，导致信息矩阵稠密化。但由于这些新连接通常具有较弱的关联强度，这为通过稀疏化近似来维持计算效率提供了可能，即保留强连接舍弃弱连接。

Sparse Extended Information Filter

Active Sparsity Maintenance

记原先激活后续变为被动的特征为 $m^{0}$ ，则地图被划分为 $M = {m^{0}, m^{+}, m^{-}}$ 三部分。下图表明通过主动控制激活特征断开，可以有效控制信息矩阵的稀疏性。而对与机器无关联的地标 $m^{-}$ ，我们可以任意给出估计 $ϕ$ ，但实际上如果用了非均值的估计会使 SEIF 失准。

SEIF 给出去除 $m^{0}$ 后的近似后验估计

\begin{aligned} {\tilde{p}}_{SEIF} (ξ_{t} | z_{1 : t}, u_{1 : t}) & = {\tilde{p}}_{SEIF} (x_{t}, m^{0}, m^{+}, m^{-} | z_{1 : t}, u_{1 : t}) \\ = p (x_{t} | m^{+}, m^{-} = ϕ, z_{1 : t}, u_{1 : t}) \cdot p (m^{0}, m^{+}, m^{-}, z_{1 : t}, u_{1 : t}) \end{aligned}

Discussion on Overconfidence

假设三元变量 $[a, b, c]$ 服从高斯分布

\begin{aligned} p (a, b, c) & = N ([\begin{array}{c} μ_{a} \\ μ_{b} \\ μ_{c} \end{array}], [\begin{array}{c} σ_{a}^{2} & ρ_{a b} σ_{a} σ_{b} & ρ_{a c} σ_{a} σ_{c} \\ ρ_{a b} σ_{a} σ_{b} & σ_{b}^{2} & ρ_{b c} σ_{b} σ_{c} \\ ρ_{a c} σ_{a} σ_{c} & ρ_{b c} ρ_{b} ρ_{c} & σ_{c}^{2} \end{array}]) \\ = N^{- 1} ([\begin{array}{c} η_{a} \\ η_{b} \\ η_{c} \end{array}], [\begin{array}{c} λ_{a a} & λ_{a b} & λ_{a c} \\ λ_{a b} & λ_{b b} & λ_{b c} \\ λ_{a c} & λ_{b c} & λ_{c c} \end{array}]) \end{aligned}

并且变量 $a, b$ 在条件 $c$ 下独立，将近似结果记为 $\tilde{p} (a, b, c)$

p (a, b, c) = p (a, b | c) \cdot p (c) \approx p (a | c) \cdot p (b | c) \cdot p (c) = \tilde{p} (a, b, c)

对于在 $c$ 条件下条件独立的 $a$ 和 $b$ , 前面讨论过合适的做法是把信息矩阵的 $λ_{a b}$ 设为 $0$ , 这等价于协方差矩阵变为

\tilde{p} (a, b, c) = N ([\begin{matrix} μ_{a} \\ μ_{b} \\ μ_{c} \end{matrix}], [\begin{matrix} σ_{a}^{2} & ρ_{a c} ρ_{b c} σ_{a} σ_{b} & ρ_{a c} σ_{a} σ_{c} \\ ρ_{a c} ρ_{b c} σ_{a} σ_{b} & σ_{b}^{2} & ρ_{b c} σ_{b} σ_{c} \\ ρ_{a c} σ_{a} σ_{c} & ρ_{b c} ρ_{b} ρ_{c} & σ_{c}^{2} \end{matrix}])

为了保证近似后的一致性，一个充要条件是 $\bar{Σ} - Σ$ 半正定

\bar{Σ} - Σ = [\begin{matrix} 0 & (ρ_{a c} ρ_{b c} - ρ_{a b}) σ_{a} σ_{b} & 0 \\ (ρ_{a c} ρ_{b c} - ρ_{a b}) σ_{a} σ_{b} & 0 & 0 \\ 0 & 0 & 0 \end{matrix}] ⪰ 0

其中，一个使 $\bar{Σ} - Σ$ 半正定的必要条件是左上的 $2 \times 2$ 子矩阵非负。

det ([\begin{matrix} 0 & (ρ_{a c} ρ_{b c} - ρ_{a b}) σ_{a} σ_{b} \\ (ρ_{a c} ρ_{b c} - ρ_{a b}) σ_{a} σ_{b} & 0 \end{matrix}]) = - [(ρ_{a c} ρ_{b c} - ρ_{a c}) σ_{a} σ_{b}]^{2} \leq 0

只有在 $ρ_{a b} = ρ_{a c} ρ_{b c}$ 时 $\bar{Σ} - Σ$ 半正定，否则强制稀疏化会导致信息矩阵过于自信，即信息矩阵被过度强化，导致估计的协方差比实际小。

Sparsity Extended Information Filter SLAM ​

Gaussian Probability ​

Duality of Covariance and Information ​

Implied Conditional Independence ​

Extended Information Filter ​

Measurement Update Step ​

Time Projection Step ​

Sparse Extended Information Filter ​

Active Sparsity Maintenance ​

Discussion on Overconfidence ​