中文

真聚类匹配

人工智能 2007-05-31 v1

摘要

通过置换聚类标签进行聚类匹配在许多聚类场景中都很重要,例如聚类验证和聚类集成技术。经典方法是使两个聚类解之间的欧氏距离最小化,这在某些情形下会导致不恰当的稳定性。因此,我们提出 truematch 算法,该算法引入了两个改进,在清晰聚类情形下最易解释。首先,我们不是最大化聚类交叉表的迹,而是建议最大化该交叉表的一个卡方变换。这样,迹将不再由计数最大的单元格主导,而是由考虑边际后最偏离随机的单元格主导。其次,我们建议引入一个概率成分,以打破平局并使匹配算法在随机数据上真正随机。truematch 算法被设计为 truecluster 框架的一个构件,并可在多项式时间内完成计算。初步的模拟结果证实,truematch 算法对不等大小的聚类给出了更为一致的 truecluster 结果。提供免费的 R 软件。

关键词

引用

@article{arxiv.0705.4302,
  title  = {Truecluster matching},
  author = {Jens Oehlschlägel},
  journal= {arXiv preprint arXiv:0705.4302},
  year   = {2007}
}

评论

15 pages, 2 figures. Details the matching needed for "Truecluster: robust scalable clustering with model selection" but can also be used in different contexts

R2 v1 2026-06-29T00:50:24.538Z