多类间隔分类的泛化误差
统计理论
2011-11-10 v1 统计理论
摘要
本文研究了多类间隔分类器泛化误差的收敛速率。特别是,我们发展了一套上界理论,用于量化各种大间隔分类器的泛化误差。该理论允许处理一般间隔损失(凸或非凸),无论是否存在主导类。我们确立了三个主要结果。首先,对于任何固定的间隔损失,相对于候选决策函数类的选择,理想泛化性能与实际泛化性能之间可能存在权衡,这由逼近误差与估计误差之间的权衡所支配。事实上,在不同的具体情况下,不同的间隔损失会导致不同的理想或实际性能。其次,我们在一个线性学习问题中证明,收敛速率可以任意快于样本量的倒数,具体取决于输入/输出对的联合分布。这超出了预期的速率。第三,我们确立了若干间隔分类器在特征选择中的收敛速率,其中候选变量数允许远远超过样本量,但不快于。
引用
@article{arxiv.0708.3556,
title = {Generalization error for multi-class margin classification},
author = {Xiaotong Shen and Lifeng Wang},
journal= {arXiv preprint arXiv:0708.3556},
year = {2011}
}
评论
Published at http://dx.doi.org/10.1214/07-EJS069 in the Electronic Journal of Statistics (http://www.i-journals.org/ejs/) by the Institute of Mathematical Statistics (http://www.imstat.org)