中文

多类间隔分类的泛化误差

统计理论 2011-11-10 v1 统计理论

摘要

本文研究了多类间隔分类器泛化误差的收敛速率。特别是,我们发展了一套上界理论,用于量化各种大间隔分类器的泛化误差。该理论允许处理一般间隔损失(凸或非凸),无论是否存在主导类。我们确立了三个主要结果。首先,对于任何固定的间隔损失,相对于候选决策函数类的选择,理想泛化性能与实际泛化性能之间可能存在权衡,这由逼近误差与估计误差之间的权衡所支配。事实上,在不同的具体情况下,不同的间隔损失会导致不同的理想或实际性能。其次,我们在一个线性学习问题中证明,收敛速率可以任意快于样本量nn的倒数,具体取决于输入/输出对的联合分布。这超出了预期的O(n1)O(n^{-1})速率。第三,我们确立了若干间隔分类器在特征选择中的收敛速率,其中候选变量数pp允许远远超过样本量nn,但不快于exp(n)\exp(n)

关键词

引用

@article{arxiv.0708.3556,
  title  = {Generalization error for multi-class margin classification},
  author = {Xiaotong Shen and Lifeng Wang},
  journal= {arXiv preprint arXiv:0708.3556},
  year   = {2011}
}

评论

Published at http://dx.doi.org/10.1214/07-EJS069 in the Electronic Journal of Statistics (http://www.i-journals.org/ejs/) by the Institute of Mathematical Statistics (http://www.imstat.org)

R2 v1 2026-06-29T02:45:47.320Z