Related papers: D-Fusion: Direct Preference Optimization for Align…

Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization

Aligning large language models with human preferences has emerged as a critical focus in language modeling research. Yet, integrating preference learning into Text-to-Image (T2I) generative models is still relatively uncharted territory.…

Computer Vision and Pattern Recognition · Computer Science 2024-06-11 Yi Gu , Zhendong Wang , Yueqin Yin , Yujia Xie , Mingyuan Zhou

Diffusion Model Alignment Using Direct Preference Optimization

Large language models (LLMs) are fine-tuned using human comparison data with Reinforcement Learning from Human Feedback (RLHF) methods to make them better aligned with users' preferences. In contrast to LLMs, human preference learning has…

Computer Vision and Pattern Recognition · Computer Science 2023-11-23 Bram Wallace , Meihua Dang , Rafael Rafailov , Linqi Zhou , Aaron Lou , Senthil Purushwalkam , Stefano Ermon , Caiming Xiong , Shafiq Joty , Nikhil Naik

Preference-Based Alignment of Discrete Diffusion Models

Diffusion models have achieved state-of-the-art performance across multiple domains, with recent advancements extending their applicability to discrete data. However, aligning discrete diffusion models with task-specific preferences remains…

Machine Learning · Computer Science 2025-04-10 Umberto Borso , Davide Paglieri , Jude Wells , Tim Rocktäschel

Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

Text-to-image diffusion models deliver high-quality images, yet aligning them with human preferences remains challenging. We revisit diffusion-based Direct Preference Optimization (DPO) for these models and identify a critical pathology:…

Computer Vision and Pattern Recognition · Computer Science 2025-12-03 Minghao Fu , Guo-Hua Wang , Tianyu Cui , Qing-Guo Chen , Zhao Xu , Weihua Luo , Kaifu Zhang

PC-Diffusion: Aligning Diffusion Models with Human Preferences via Preference Classifier

Diffusion models have achieved remarkable success in conditional image generation, yet their outputs often remain misaligned with human preferences. To address this, recent work has applied Direct Preference Optimization (DPO) to diffusion…

Computer Vision and Pattern Recognition · Computer Science 2025-11-12 Shaomeng Wang , He Wang , Xiaolu Wei , Longquan Dai , Jinhui Tang

Divergence Minimization Preference Optimization for Diffusion Model Alignment

Diffusion models have achieved remarkable success in generating realistic and versatile images from text prompts. Inspired by the recent advancements of language models, there is an increasing interest in further improving the models by…

Computer Vision and Pattern Recognition · Computer Science 2025-10-07 Binxu Li , Minkai Xu , Jiaqi Han , Meihua Dang , Stefano Ermon

Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization

Generating visually appealing images is fundamental to modern text-to-image generation models. A potential solution to better aesthetics is direct preference optimization (DPO), which has been applied to diffusion models to improve general…

Computer Vision and Pattern Recognition · Computer Science 2025-03-26 Zhanhao Liang , Yuhui Yuan , Shuyang Gu , Bohan Chen , Tiankai Hang , Mingxi Cheng , Ji Li , Liang Zheng

Inversion-DPO: Precise and Efficient Post-Training for Diffusion Models

Recent advancements in diffusion models (DMs) have been propelled by alignment methods that post-train models to better conform to human preferences. However, these approaches typically require computation-intensive training of a base model…

Computer Vision and Pattern Recognition · Computer Science 2025-08-05 Zejian Li , Yize Li , Chenye Meng , Zhongni Liu , Yang Ling , Shengyuan Zhang , Guang Yang , Changyuan Yang , Zhiyuan Yang , Lingyun Sun

Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking

Direct preference optimization (DPO) has shown success in aligning diffusion models with human preference. Previous approaches typically assume a consistent preference label between final generations and noisy samples at intermediate steps,…

Machine Learning · Computer Science 2025-02-05 Jie Ren , Yuhang Zhang , Dongrui Liu , Xiaopeng Zhang , Qi Tian

Direct Diffusion Score Preference Optimization via Stepwise Contrastive Policy-Pair Supervision

Diffusion models have achieved impressive results in generative tasks such as text-to-image synthesis, yet they often struggle to fully align outputs with nuanced user intent and maintain consistent aesthetic quality. Existing…

Computer Vision and Pattern Recognition · Computer Science 2025-12-30 Dohyun Kim , Seungwoo Lyu , Seung Wook Kim , Paul Hongsuck Seo

Preference Alignment on Diffusion Model: A Comprehensive Survey for Image Generation and Editing

The integration of preference alignment with diffusion models (DMs) has emerged as a transformative approach to enhance image generation and editing capabilities. Although integrating diffusion models with preference alignment strategies…

Computer Vision and Pattern Recognition · Computer Science 2025-02-13 Sihao Wu , Xiaonan Si , Chi Xing , Jianhong Wang , Gaojie Jin , Guangliang Cheng , Lijun Zhang , Xiaowei Huang

Fusion in Your Way: Aligning Image Fusion with Heterogeneous Demands via Direct Preference Optimization

As a key technique in multi-modal processing, infrared and visible image fusion (IVIF) plays a crucial role in integrating complementary spectral information for visual enhancement and downstream vision tasks. Despite remarkable progress,…

Computer Vision and Pattern Recognition · Computer Science 2026-05-08 Weijian Su , Songqian Zhang , Yuqi Han , Jian Zhuang , Yongdong Huang , Qiang Zhang

Towards Self-Improvement of Diffusion Models via Group Preference Optimization

Aligning text-to-image (T2I) diffusion models with Direct Preference Optimization (DPO) has shown notable improvements in generation quality. However, applying DPO to T2I faces two challenges: the sensitivity of DPO to preference pairs and…

Computer Vision and Pattern Recognition · Computer Science 2025-05-19 Renjie Chen , Wenfeng Lin , Yichen Zhang , Jiangchuan Wei , Boyuan Liu , Chao Feng , Jiao Ran , Mingyu Guo

Curriculum Direct Preference Optimization for Diffusion and Consistency Models

Direct Preference Optimization (DPO) has been proposed as an effective and efficient alternative to reinforcement learning from human feedback (RLHF). In this paper, we propose a novel and enhanced version of DPO based on curriculum…

Computer Vision and Pattern Recognition · Computer Science 2025-05-12 Florinel-Alin Croitoru , Vlad Hondru , Radu Tudor Ionescu , Nicu Sebe , Mubarak Shah

MoDiPO: text-to-motion alignment via AI-feedback-driven Direct Preference Optimization

Diffusion Models have revolutionized the field of human motion generation by offering exceptional generation quality and fine-grained controllability through natural language conditioning. Their inherent stochasticity, that is the ability…

Computer Vision and Pattern Recognition · Computer Science 2024-05-08 Massimiliano Pappa , Luca Collorone , Giovanni Ficarra , Indro Spinelli , Fabio Galasso

DeDPO: Debiased Direct Preference Optimization for Diffusion Models

Direct Preference Optimization (DPO) has emerged as a predominant alignment method for diffusion models, facilitating off-policy training without explicit reward modeling. However, its reliance on large-scale, high-quality human preference…

Computer Vision and Pattern Recognition · Computer Science 2026-02-09 Khiem Pham , Quang Nguyen , Tung Nguyen , Jingsen Zhu , Michele Santacatterina , Dimitris Metaxas , Ramin Zabih

Self-NPO: Data-Free Diffusion Model Enhancement via Truncated Diffusion Fine-Tuning

Diffusion models have demonstrated remarkable success in various visual generation tasks, including image, video, and 3D content generation. Preference optimization (PO) is a prominent and growing area of research that aims to align these…

Computer Vision and Pattern Recognition · Computer Science 2025-11-18 Fu-Yun Wang , Keqiang Sun , Yao Teng , Xihui Liu , Jiale Yuan , Jiaming Song , Hongsheng Li

Aligning Diffusion Models with Noise-Conditioned Perception

Recent advancements in human preference optimization, initially developed for Language Models (LMs), have shown promise for text-to-image Diffusion Models, enhancing prompt alignment, visual appeal, and user preference. Unlike LMs,…

Computer Vision and Pattern Recognition · Computer Science 2025-12-03 Alexander Gambashidze , Anton Kulikov , Yuriy Sosnin , Ilya Makarov

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

The application of diffusion models in 3D LiDAR scene completion is limited due to diffusion's slow sampling speed. Score distillation accelerates diffusion sampling but with performance degradation, while post-training with direct policy…

Computer Vision and Pattern Recognition · Computer Science 2025-04-17 An Zhao , Shengyuan Zhang , Ling Yang , Zejian Li , Jiale Wu , Haoran Xu , AnYang Wei , Perry Pengyun GU , Lingyun Sun

Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences

Direct Preference Optimization (DPO) aligns text-to-image (T2I) generation models with human preferences using pairwise preference data. Although substantial resources are expended in collecting and labeling datasets, a critical aspect is…

Computer Vision and Pattern Recognition · Computer Science 2025-06-09 Yunhong Lu , Qichao Wang , Hengyuan Cao , Xiaoyin Xu , Min Zhang