Related papers: Diffusion-SDPO: Safeguarded Direct Preference Opti…

Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences

Direct Preference Optimization (DPO) aligns text-to-image (T2I) generation models with human preferences using pairwise preference data. Although substantial resources are expended in collecting and labeling datasets, a critical aspect is…

Computer Vision and Pattern Recognition · Computer Science 2025-06-09 Yunhong Lu , Qichao Wang , Hengyuan Cao , Xiaoyin Xu , Min Zhang

Preference-Based Alignment of Discrete Diffusion Models

Diffusion models have achieved state-of-the-art performance across multiple domains, with recent advancements extending their applicability to discrete data. However, aligning discrete diffusion models with task-specific preferences remains…

Machine Learning · Computer Science 2025-04-10 Umberto Borso , Davide Paglieri , Jude Wells , Tim Rocktäschel

Diffusion Model Alignment Using Direct Preference Optimization

Large language models (LLMs) are fine-tuned using human comparison data with Reinforcement Learning from Human Feedback (RLHF) methods to make them better aligned with users' preferences. In contrast to LLMs, human preference learning has…

Computer Vision and Pattern Recognition · Computer Science 2023-11-23 Bram Wallace , Meihua Dang , Rafael Rafailov , Linqi Zhou , Aaron Lou , Senthil Purushwalkam , Stefano Ermon , Caiming Xiong , Shafiq Joty , Nikhil Naik

Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization

Generating visually appealing images is fundamental to modern text-to-image generation models. A potential solution to better aesthetics is direct preference optimization (DPO), which has been applied to diffusion models to improve general…

Computer Vision and Pattern Recognition · Computer Science 2025-03-26 Zhanhao Liang , Yuhui Yuan , Shuyang Gu , Bohan Chen , Tiankai Hang , Mingxi Cheng , Ji Li , Liang Zheng

Beyond Reward Margin: Rethinking and Resolving Likelihood Displacement in Diffusion Models via Video Generation

Direct Preference Optimization (DPO) has shown promising results in aligning generative outputs with human preferences by distinguishing between chosen and rejected samples. However, a critical limitation of DPO is likelihood displacement,…

Computer Vision and Pattern Recognition · Computer Science 2025-11-25 Ruojun Xu , Yu Kai , Xuhua Ren , Jiaxiang Cheng , Bing Ma , Tianxiang Zheng , Qinhlin Lu

Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization

Aligning large language models with human preferences has emerged as a critical focus in language modeling research. Yet, integrating preference learning into Text-to-Image (T2I) generative models is still relatively uncharted territory.…

Computer Vision and Pattern Recognition · Computer Science 2024-06-11 Yi Gu , Zhendong Wang , Yueqin Yin , Yujia Xie , Mingyuan Zhou

Ranking-based Preference Optimization for Diffusion Models from Implicit User Feedback

Direct preference optimization (DPO) methods have shown strong potential in aligning text-to-image diffusion models with human preferences by training on paired comparisons. These methods improve training stability by avoiding the REINFORCE…

Computer Vision and Pattern Recognition · Computer Science 2025-10-22 Yi-Lun Wu , Bo-Kai Ruan , Chiang Tseng , Hong-Han Shuai

PC-Diffusion: Aligning Diffusion Models with Human Preferences via Preference Classifier

Diffusion models have achieved remarkable success in conditional image generation, yet their outputs often remain misaligned with human preferences. To address this, recent work has applied Direct Preference Optimization (DPO) to diffusion…

Computer Vision and Pattern Recognition · Computer Science 2025-11-12 Shaomeng Wang , He Wang , Xiaolu Wei , Longquan Dai , Jinhui Tang

Towards Self-Improvement of Diffusion Models via Group Preference Optimization

Aligning text-to-image (T2I) diffusion models with Direct Preference Optimization (DPO) has shown notable improvements in generation quality. However, applying DPO to T2I faces two challenges: the sensitivity of DPO to preference pairs and…

Computer Vision and Pattern Recognition · Computer Science 2025-05-19 Renjie Chen , Wenfeng Lin , Yichen Zhang , Jiangchuan Wei , Boyuan Liu , Chao Feng , Jiao Ran , Mingyu Guo

Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking

Direct preference optimization (DPO) has shown success in aligning diffusion models with human preference. Previous approaches typically assume a consistent preference label between final generations and noisy samples at intermediate steps,…

Machine Learning · Computer Science 2025-02-05 Jie Ren , Yuhang Zhang , Dongrui Liu , Xiaopeng Zhang , Qi Tian

Divergence Minimization Preference Optimization for Diffusion Model Alignment

Diffusion models have achieved remarkable success in generating realistic and versatile images from text prompts. Inspired by the recent advancements of language models, there is an increasing interest in further improving the models by…

Computer Vision and Pattern Recognition · Computer Science 2025-10-07 Binxu Li , Minkai Xu , Jiaqi Han , Meihua Dang , Stefano Ermon

D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples

The practical applications of diffusion models have been limited by the misalignment between generated images and corresponding text prompts. Recent studies have introduced direct preference optimization (DPO) to enhance the alignment of…

Computer Vision and Pattern Recognition · Computer Science 2025-05-29 Zijing Hu , Fengda Zhang , Kun Kuang

SIPO: Stabilized and Improved Preference Optimization for Aligning Diffusion Models

Preference learning has garnered extensive attention as an effective technique for aligning diffusion models with human preferences in visual generation. However, existing alignment approaches such as Diffusion-DPO suffer from two…

Machine Learning · Computer Science 2026-05-19 Xiaomeng Yang , Mengping Yang , Junyan Wang , Zhijian Zhou , Zhiyu Tan , Hao Li

DeDPO: Debiased Direct Preference Optimization for Diffusion Models

Direct Preference Optimization (DPO) has emerged as a predominant alignment method for diffusion models, facilitating off-policy training without explicit reward modeling. However, its reliance on large-scale, high-quality human preference…

Computer Vision and Pattern Recognition · Computer Science 2026-02-09 Khiem Pham , Quang Nguyen , Tung Nguyen , Jingsen Zhu , Michele Santacatterina , Dimitris Metaxas , Ramin Zabih

Direct Diffusion Score Preference Optimization via Stepwise Contrastive Policy-Pair Supervision

Diffusion models have achieved impressive results in generative tasks such as text-to-image synthesis, yet they often struggle to fully align outputs with nuanced user intent and maintain consistent aesthetic quality. Existing…

Computer Vision and Pattern Recognition · Computer Science 2025-12-30 Dohyun Kim , Seungwoo Lyu , Seung Wook Kim , Paul Hongsuck Seo

Linear-DPO: Linear Direct Preference Optimization for Diffusion and Flow-Matching Generative Models

Direct Preference Optimization (DPO) is successful for alignment in LLMs but still faces challenges in text-to-image generation. Existing studies are confined to denoising diffusion models while overlooking flow-matching, and suffer from an…

Computer Vision and Pattern Recognition · Computer Science 2026-05-21 Kesong Li , Yixuan Xu , Kuo-kun Tseng , Weiyi Lu , Kan Liu , Tao Lan

BalancedDPO: Adaptive Multi-Metric Alignment

Diffusion models have achieved remarkable progress in text-to-image generation, yet aligning them with human preference remains challenging due to the presence of multiple, sometimes conflicting, evaluation metrics (e.g., semantic…

Computer Vision and Pattern Recognition · Computer Science 2026-04-07 Dipesh Tamboli , Souradip Chakraborty , Aditya Malusare , Biplab Banerjee , Amrit Singh Bedi , Vaneet Aggarwal

Personalized Image Editing in Text-to-Image Diffusion Models via Collaborative Direct Preference Optimization

Text-to-image (T2I) diffusion models have made remarkable strides in generating and editing high-fidelity images from text. Yet, these models remain fundamentally generic, failing to adapt to the nuanced aesthetic preferences of individual…

Computer Vision and Pattern Recognition · Computer Science 2025-11-11 Connor Dunlop , Matthew Zheng , Kavana Venkatesh , Pinar Yanardag

Rethinking Direct Preference Optimization in Diffusion Models

Aligning text-to-image (T2I) diffusion models with human preferences has emerged as a critical research challenge. While recent advances in this area have extended preference optimization techniques from large language models (LLMs) to the…

Computer Vision and Pattern Recognition · Computer Science 2025-12-25 Junyong Kang , Seohyun Lim , Kyungjune Baek , Hyunjung Shim

MoDiPO: text-to-motion alignment via AI-feedback-driven Direct Preference Optimization

Diffusion Models have revolutionized the field of human motion generation by offering exceptional generation quality and fine-grained controllability through natural language conditioning. Their inherent stochasticity, that is the ability…

Computer Vision and Pattern Recognition · Computer Science 2024-05-08 Massimiliano Pappa , Luca Collorone , Giovanni Ficarra , Indro Spinelli , Fabio Galasso