通用强化学习

Vivek F. Farias; Ciamac C. Moallemi; Tsachy Weissman; Benjamin Van Roy

通用强化学习

信息论 2009-07-22 v3 机器学习 math.IT

作者: Vivek F. Farias , Ciamac C. Moallemi , Tsachy Weissman , Benjamin Van Roy

摘要

我们考虑一个智能体与未建模环境进行交互的情形。在每个时刻，智能体进行观测、采取行动并产生代价。其行动会影响未来的观测和代价。目标是最小化长期平均代价。我们提出了一种称为 active LZ 算法的新颖算法，该算法基于来自用于通用数据压缩和预测的 Lempel-Ziv 方案的思想来进行最优控制。我们证明，在 active LZ 算法下，如果存在一个整数 $K$ ，使得给定连续 $K$ 个行动和观测的窗口时未来与过去条件独立，则平均代价收敛至最优值。涉及石头 - 剪刀 - 布游戏的实验结果说明了该算法的优点。

关键词

reinforcement learning multi-agent reinforcement learning game theory

引用

@article{arxiv.0707.3087,
  title  = {Universal Reinforcement Learning},
  author = {Vivek F. Farias and Ciamac C. Moallemi and Tsachy Weissman and Benjamin Van Roy},
  journal= {arXiv preprint arXiv:0707.3087},
  year   = {2009}
}

通用强化学习

摘要

关键词

引用

相关论文