无重采样的噪声排序

Mark Braverman; Elchanan Mossel

无重采样的噪声排序

数据结构与算法 2007-07-10 v1

作者: Mark Braverman , Elchanan Mossel

摘要

本文研究了无重采样的噪声排序问题。在该问题中，存在一个未知顺序 $a_{\pi(1)} < ... < a_{\pi(n)}$ ，其中 $\pi$ 是 $n$ 个元素上的排列。输入是 $n \choose 2$ 个形式为 $q(a_i,x_j)$ 的查询状态，其中若对于所有 $i \neq j$ 的对都有 $\pi(i) > \pi(j)$ ，则 $q(a_i,a_j) = +$ 的概率至少为 $1/2+\ga$ ，这里 $\ga > 0$ 是常数，且对于所有 $i$ 和 $j$ 有 $q(a_i,a_j) = -q(a_j,a_i)$ 。假设误差是独立的。给定查询状态，目标是找到最大似然顺序。换言之，目标是找到一个排列 $\sigma$ ，使得满足 $q(\sigma(i),\sigma(j)) = -$ 且 $\sigma(i) > \sigma(j)$ 的对数最小化。如此定义的问题是输入分布上的反馈弧集问题，每个输入都是一个由线性顺序的噪声扰动获得的竞赛图。注意，当 $\ga < 1/2$ 且 $n$ 很大时，不可能恢复原始顺序 $\pi$ 。已知竞赛图上的加权反馈弧集问题通常是 NP-hard 的。在此，我们提出了一种运行时间为 $n^{O(\gamma^{-4})}$ 且采样复杂度为 $O_{\gamma}(n \log n)$ 的算法，该算法以高概率解决无重采样的噪声排序问题。我们还表明，如果 $a_{\sigma(1)},a_{\sigma(2)},...,a_{\sigma(n)}$ 是问题的最优解，那么它与原始顺序“接近”。更正式地说，以高概率成立 $\sum_i |\sigma(i) - \pi(i)| = \Theta(n)$ 且 $\max_i |\sigma(i) - \pi(i)| = \Theta(\log n)$ 。我们的结果在排名应用中具有意义，例如体育排名或基于专家比较的搜索项目排名。

关键词

signal estimation approximation algorithm string algorithms

引用

@article{arxiv.0707.1051,
  title  = {Noisy Sorting Without Resampling},
  author = {Mark Braverman and Elchanan Mossel},
  journal= {arXiv preprint arXiv:0707.1051},
  year   = {2007}
}

无重采样的噪声排序

摘要

关键词

引用

相关论文