通用强化学习
信息论
2009-07-22 v3 机器学习
math.IT
摘要
我们考虑一个智能体与未建模环境进行交互的情形。在每个时刻,智能体进行观测、采取行动并产生代价。其行动会影响未来的观测和代价。目标是最小化长期平均代价。我们提出了一种称为 active LZ 算法的新颖算法,该算法基于来自用于通用数据压缩和预测的 Lempel-Ziv 方案的思想来进行最优控制。我们证明,在 active LZ 算法下,如果存在一个整数 ,使得给定连续 个行动和观测的窗口时未来与过去条件独立,则平均代价收敛至最优值。涉及石头 - 剪刀 - 布游戏的实验结果说明了该算法的优点。
引用
@article{arxiv.0707.3087,
title = {Universal Reinforcement Learning},
author = {Vivek F. Farias and Ciamac C. Moallemi and Tsachy Weissman and Benjamin Van Roy},
journal= {arXiv preprint arXiv:0707.3087},
year = {2009}
}