中文

无重采样的噪声排序

数据结构与算法 2007-07-10 v1

摘要

本文研究了无重采样的噪声排序问题。在该问题中,存在一个未知顺序 aπ(1)<...<aπ(n)a_{\pi(1)} < ... < a_{\pi(n)},其中 π\pinn 个元素上的排列。输入是 (n2)n \choose 2 个形式为 q(ai,xj)q(a_i,x_j) 的查询状态,其中若对于所有 iji \neq j 的对都有 π(i)>π(j)\pi(i) > \pi(j),则 q(ai,aj)=+q(a_i,a_j) = + 的概率至少为 1/2+\ga1/2+\ga,这里 \ga>0\ga > 0 是常数,且对于所有 iijjq(ai,aj)=q(aj,ai)q(a_i,a_j) = -q(a_j,a_i)。假设误差是独立的。给定查询状态,目标是找到最大似然顺序。换言之,目标是找到一个排列 σ\sigma,使得满足 q(σ(i),σ(j))=q(\sigma(i),\sigma(j)) = -σ(i)>σ(j)\sigma(i) > \sigma(j) 的对数最小化。如此定义的问题是输入分布上的反馈弧集问题,每个输入都是一个由线性顺序的噪声扰动获得的竞赛图。注意,当 \ga<1/2\ga < 1/2nn 很大时,不可能恢复原始顺序 π\pi。已知竞赛图上的加权反馈弧集问题通常是 NP-hard 的。在此,我们提出了一种运行时间为 nO(γ4)n^{O(\gamma^{-4})} 且采样复杂度为 Oγ(nlogn)O_{\gamma}(n \log n) 的算法,该算法以高概率解决无重采样的噪声排序问题。我们还表明,如果 aσ(1),aσ(2),...,aσ(n)a_{\sigma(1)},a_{\sigma(2)},...,a_{\sigma(n)} 是问题的最优解,那么它与原始顺序“接近”。更正式地说,以高概率成立 iσ(i)π(i)=Θ(n)\sum_i |\sigma(i) - \pi(i)| = \Theta(n)maxiσ(i)π(i)=Θ(logn)\max_i |\sigma(i) - \pi(i)| = \Theta(\log n)。我们的结果在排名应用中具有意义,例如体育排名或基于专家比较的搜索项目排名。

关键词

引用

@article{arxiv.0707.1051,
  title  = {Noisy Sorting Without Resampling},
  author = {Mark Braverman and Elchanan Mossel},
  journal= {arXiv preprint arXiv:0707.1051},
  year   = {2007}
}
R2 v1 2026-06-29T01:41:45.872Z