中文

通用强化学习

信息论 2009-07-22 v3 机器学习 math.IT

摘要

我们考虑一个智能体与未建模环境进行交互的情形。在每个时刻,智能体进行观测、采取行动并产生代价。其行动会影响未来的观测和代价。目标是最小化长期平均代价。我们提出了一种称为 active LZ 算法的新颖算法,该算法基于来自用于通用数据压缩和预测的 Lempel-Ziv 方案的思想来进行最优控制。我们证明,在 active LZ 算法下,如果存在一个整数 KK,使得给定连续 KK 个行动和观测的窗口时未来与过去条件独立,则平均代价收敛至最优值。涉及石头 - 剪刀 - 布游戏的实验结果说明了该算法的优点。

关键词

引用

@article{arxiv.0707.3087,
  title  = {Universal Reinforcement Learning},
  author = {Vivek F. Farias and Ciamac C. Moallemi and Tsachy Weissman and Benjamin Van Roy},
  journal= {arXiv preprint arXiv:0707.3087},
  year   = {2009}
}
R2 v1 2026-06-29T01:59:12.546Z