学会虚张声势

Evan Hurwitz; Tshilidzi Marwala

学会虚张声势

人工智能 2007-05-23 v1

作者: Evan Hurwitz , Tshilidzi Marwala

摘要

虚张声势（bluffing）的行为至今仍令游戏设计者感到困惑。虚张声势的本质甚至尚存争议，这进一步增加了创建能够虚张声势从而逼真地进行游戏的智能虚拟玩家的难度。通过利用智能学习代理和精心设计的代理视角，代理实际上可以不仅基于自身的牌，还能基于周围其他参与者的行动来预测对手的反应。凭借这种更广泛的理解范围，代理能够学会对对手虚张声势；该行为并非如通常所见那般是非理性的，而是一种通过有效统计优化来实现收益最大化的行为。通过使用 TD( $\lambda$ ) 学习算法持续调整神经网络代理的智能，研究表明代理能够在无外部提示的情况下学会虚张声势，甚至在自由的竞争性对局中学会识破彼此的虚张声势。

关键词

bayesian persuasion multi-agent reinforcement learning game theory

引用

@article{arxiv.0705.0693,
  title  = {Learning to Bluff},
  author = {Evan Hurwitz and Tshilidzi Marwala},
  journal= {arXiv preprint arXiv:0705.0693},
  year   = {2007}
}

学会虚张声势

摘要

关键词

引用

评论

相关论文