Related papers: Efficient Preference-based Reinforcement Learning …

Advances in Preference-based Reinforcement Learning: A Review

Reinforcement Learning (RL) algorithms suffer from the dependency on accurately engineered reward functions to properly guide the learning agents to do the required tasks. Preference-based reinforcement learning (PbRL) addresses that by…

Artificial Intelligence · Computer Science 2024-08-23 Youssef Abdelkareem , Shady Shehata , Fakhri Karray

STRAPPER: Preference-based Reinforcement Learning via Self-training Augmentation and Peer Regularization

Preference-based reinforcement learning (PbRL) promises to learn a complex reward function with binary human preference. However, such human-in-the-loop formulation requires considerable human effort to assign preference labels to segment…

Machine Learning · Computer Science 2023-07-20 Yachen Kang , Li He , Jinxin Liu , Zifeng Zhuang , Donglin Wang

Query-Policy Misalignment in Preference-Based Reinforcement Learning

Preference-based reinforcement learning (PbRL) provides a natural way to align RL agents' behavior with human desired outcomes, but is often restrained by costly human feedback. To improve feedback efficiency, most existing PbRL methods…

Machine Learning · Computer Science 2024-07-08 Xiao Hu , Jianxiong Li , Xianyuan Zhan , Qing-Shan Jia , Ya-Qin Zhang

LEASE: Offline Preference-based Reinforcement Learning with High Sample Efficiency

Offline preference-based reinforcement learning (PbRL) provides an effective way to overcome the challenges of designing reward and the high costs of online interaction. However, since labeling preference needs real-time human feedback,…

Machine Learning · Computer Science 2026-02-10 Xiao-Yin Liu , Guotao Li , Xiao-Hu Zhou , Zeng-Guang Hou

SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning

Preference-based reinforcement learning (RL) has shown potential for teaching agents to perform the target tasks without a costly, pre-defined reward function by learning the reward with a supervisor's preference between the two agent…

Machine Learning · Computer Science 2022-03-21 Jongjin Park , Younggyo Seo , Jinwoo Shin , Honglak Lee , Pieter Abbeel , Kimin Lee

Preference-based Reinforcement Learning (PbRL) entails a variety of approaches for aligning models with human intent to alleviate the burden of reward engineering. However, most previous PbRL work has not investigated the robustness to…

Machine Learning · Computer Science 2025-06-17 Sara Rajaram , R. James Cotton , Fabian H. Sinz

Sample-Efficient Preference-based Reinforcement Learning with Dynamics Aware Rewards

Preference-based reinforcement learning (PbRL) aligns a robot behavior with human preferences via a reward function learned from binary feedback over agent behaviors. We show that dynamics-aware reward functions improve the sample…

Artificial Intelligence · Computer Science 2024-02-29 Katherine Metcalf , Miguel Sarabia , Natalie Mackraz , Barry-John Theobald

Direct Preference-based Policy Optimization without Reward Modeling

Preference-based reinforcement learning (PbRL) is an approach that enables RL agents to learn from preference, which is particularly useful when formulating a reward function is challenging. Existing PbRL methods generally involve a…

Machine Learning · Computer Science 2023-10-30 Gaon An , Junhyeok Lee , Xingdong Zuo , Norio Kosaka , Kyung-Min Kim , Hyun Oh Song

SENIOR: Efficient Query Selection and Preference-Guided Exploration in Preference-based Reinforcement Learning

Preference-based Reinforcement Learning (PbRL) methods provide a solution to avoid reward engineering by learning reward models based on human preferences. However, poor feedback- and sample- efficiency still remain the problems that hinder…

Robotics · Computer Science 2026-05-22 Hexian Ni , Tao Lu , Haoyuan Hu , Yinghao Cai , Shuo Wang

Online Preference-based Reinforcement Learning with Self-augmented Feedback from Large Language Model

Preference-based reinforcement learning (PbRL) provides a powerful paradigm to avoid meticulous reward engineering by learning rewards based on human preferences. However, real-time human feedback is hard to obtain in online tasks. Most…

Machine Learning · Computer Science 2024-12-24 Songjun Tu , Jingbo Sun , Qichao Zhang , Xiangyuan Lan , Dongbin Zhao

Provable Reward-Agnostic Preference-Based Reinforcement Learning

Preference-based Reinforcement Learning (PbRL) is a paradigm in which an RL agent learns to optimize a task using pair-wise preference-based feedback over trajectories, rather than explicit reward signals. While PbRL has demonstrated…

Machine Learning · Computer Science 2024-04-18 Wenhao Zhan , Masatoshi Uehara , Wen Sun , Jason D. Lee

PB$^2$: Preference Space Exploration via Population-Based Methods in Preference-Based Reinforcement Learning

Preference-based reinforcement learning (PbRL) has emerged as a promising approach for learning behaviors from human feedback without predefined reward functions. However, current PbRL methods face a critical challenge in effectively…

Artificial Intelligence · Computer Science 2025-06-17 Brahim Driss , Alex Davey , Riad Akrour

Personalization in Human-Robot Interaction through Preference-based Action Representation Learning

Preference-based reinforcement learning (PbRL) has shown significant promise for personalization in human-robot interaction (HRI) by explicitly integrating human preferences into the robot learning process. However, existing practices often…

Robotics · Computer Science 2025-03-12 Ruiqi Wang , Dezhong Zhao , Dayoon Suh , Ziqin Yuan , Guohua Chen , Byung-Cheol Min

Efficient Preference-Based Reinforcement Learning Using Learned Dynamics Models

Preference-based reinforcement learning (PbRL) can enable robots to learn to perform tasks based on an individual's preferences without requiring a hand-crafted reward function. However, existing approaches either assume access to a…

Machine Learning · Computer Science 2024-02-13 Yi Liu , Gaurav Datta , Ellen Novoseller , Daniel S. Brown

Symbol Guided Hindsight Priors for Reward Learning from Human Preferences

Specifying rewards for reinforcement learned (RL) agents is challenging. Preference-based RL (PbRL) mitigates these challenges by inferring a reward from feedback over sets of trajectories. However, the effectiveness of PbRL is limited by…

Machine Learning · Computer Science 2022-10-20 Mudit Verma , Katherine Metcalf

Preference-Guided Reinforcement Learning for Efficient Exploration

In this paper, we investigate preference-based reinforcement learning (PbRL), which enables reinforcement learning (RL) agents to learn from human feedback. This is particularly valuable when defining a fine-grain reward function is not…

Machine Learning · Computer Science 2025-11-11 Guojian Wang , Jianxiang Liu , Xinyuan Li , Faguo Wu , Xiao Zhang , Tianyuan Chen , Xuyang Chen

Preference-based Reinforcement Learning with Finite-Time Guarantees

Preference-based Reinforcement Learning (PbRL) replaces reward values in traditional reinforcement learning by preferences to better elicit human opinion on the target objective, especially when numerical reward values are hard to design or…

Machine Learning · Computer Science 2020-10-27 Yichong Xu , Ruosong Wang , Lin F. Yang , Aarti Singh , Artur Dubrawski

RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences

Preference-based Reinforcement Learning (PbRL) circumvents the need for reward engineering by harnessing human preferences as the reward signal. However, current PbRL methods excessively depend on high-quality feedback from domain experts,…

Machine Learning · Computer Science 2024-10-29 Jie Cheng , Gang Xiong , Xingyuan Dai , Qinghai Miao , Yisheng Lv , Fei-Yue Wang

Safe Reinforcement Learning with Preference-based Constraint Inference

Safe reinforcement learning (RL) is a standard paradigm for safety-critical decision making. However, real-world safety constraints can be complex, subjective, and even hard to explicitly specify. Existing works on constraint inference rely…

Machine Learning · Computer Science 2026-05-25 Chenglin Li , Grant Ruan , Hua Geng

Data Driven Reward Initialization for Preference based Reinforcement Learning

Preference-based Reinforcement Learning (PbRL) methods utilize binary feedback from the human in the loop (HiL) over queried trajectory pairs to learn a reward model in an attempt to approximate the human's underlying reward function…

Machine Learning · Computer Science 2023-02-20 Mudit Verma , Subbarao Kambhampati