投影方差分割

作者在这里要介绍一种点集的分割算法（源自作者读《图像局部不变性特征与描述》时的一点灵感）。其起源来自于Kd树算法，但比Kd树算法更具有一般性。有关Kd树算法，会在文章开头做个简单介绍，并指出其中的起源点和关键点。

知乎：点集分割算法——基于投影方差分割

Kd树算法

在图形特征点匹配算法中，Kd树是一种常用的特征匹配算子。Kd树是英文K-dimension tree的缩写，是对数据点在\(k\)维空间中划分的一种数据结构。这里先以一个简单直观的示例来介绍Kd树算法，并找出其中的起源点和关键点。

假设有6个二维数据点：\( \{ (2,3),(5,4),(9,6),(4,7),(8,1),(7,2)\} \) 。数据点位于二维空间内，如图1所示。为了能有效地找到最近邻，Kd树采用分而治之的思想，即将空间划分成几个小部分。首先粗直线将空间一分为二，然后在两个子空间中，细直线又将整个空间划分为四个部分，最后虚直线将这四部分进一步划分。

Kd树构建的关键点就在于区间划分的标准：统计数据点在每个维度上的数据方差。挑选出方差中的最大值，对应的维就是分割域的值。还是以上面的实际例子为例：数据点是平面数据点，因此有两个维度。可以分别统计这些数据点在\(x\)轴和\(y\)轴上的数据方差。如果\(x\)轴方差较大，那么就以垂直于\(x\)轴方向划一条竖直线将空间一分为二；如果\(y\)轴方差较大，那么就以垂直于 \(y\)轴方向划一条水平线将空间一分为二。

Kd树中的两个维度是确定为\(x\)轴和\(y\)轴。从纯数学角度来看，这个平面点集的方差最大值未必就在\(x\)轴或\(y\)轴上。以此思路为核心进一步扩展：对于任一的多维度点集，求一条多维度直线，使得这些多维度点在这条直线上的投影点方差达到最大值。那么分割域的分割平面，就是垂直于该直线的平面。这条直线和这个平面是否存在且唯一在呢？

按照不同维度可以逐步推导出投影方差的数学含义。

AlgMain : 一维投影方差分割
AlgMain : 二维投影方差分割
AlgMain : 三维投影方差分割
AlgMain : 多维投影方差分割

形象一点的解释就是：用一个“紧凑”的椭球（或者椭圆）去容纳（或覆盖）这些点，那么这个椭球（或椭圆）的最长轴所指方向就是使得距离方差达到最大值的方向，垂直于该方向且过椭球（或椭圆）中心的平面（或直线）就是分割平面（或直线）。