中文

压缩回归

机器学习 2012-01-11 v2 信息论 math.IT

摘要

近期研究考察了稀疏性在高维回归与信号重建中的作用,确立了从稀疏数据中恢复稀疏模型的理论上界。此类工作表明,即使 pp 远大于 nn,1\ell_1 正则化最小二乘回归也能从 pp 维含噪的 nn 个样本中精确估计稀疏线性模型。本文研究该问题的一个变体:原始 nn 个输入变量经随机线性变换压缩为 mnm \ll npp 维样本,并给出在何种条件下可从压缩数据中成功恢复稀疏线性模型。该压缩过程的一个主要动机在于匿名化数据并通过尽量少地泄露原始数据信息来保护隐私。我们刻画了使 1\ell_1 正则化压缩回归以概率趋近于 1 识别真实模型中非零系数所需的随机投影数量,这一性质称为 "sparsistence"。此外,我们证明 1\ell_1 正则化压缩回归在渐近意义下具有与 oracle 线性模型相当的预测能力,这一性质称为 "persistence"。最后,我们以信息论刻画了该压缩过程的隐私性质,给出了压缩数据与未压缩数据之间互信息的上界,该上界随压缩衰减至零。

关键词

引用

@article{arxiv.0706.0534,
  title  = {Compressed Regression},
  author = {Shuheng Zhou and John Lafferty and Larry Wasserman},
  journal= {arXiv preprint arXiv:0706.0534},
  year   = {2012}
}

评论

59 pages, 5 figure, Submitted for review

R2 v1 2026-06-29T00:59:17.620Z