ReasonEdit: Editing Vision-Language Models using Human Reasoning

Jiaxing Qiu; Kaihua Hou; Roxana Daneshjou; Ahmed Alaa; Thomas Hartvigsen

ReasonEdit: Editing Vision-Language Models using Human Reasoning

Computer Vision and Pattern Recognition 2026-05-13 v4 Artificial Intelligence

Authors: Jiaxing Qiu , Kaihua Hou , Roxana Daneshjou , Ahmed Alaa , Thomas Hartvigsen

Abstract

Model editing aims to correct errors in large, pretrained models without altering unrelated behaviors. While some recent works have edited vision-language models (VLMs), no existing editors tackle reasoning-heavy tasks, which typically require humans and models to reason about images. We therefore propose ReasonEdit, the first VLM editor to let users explain their reasoning during editing, introducing a new, practical model editing setup. ReasonEdit continuously stores human reasoning in a codebook, and retrieves only relevant facts during inference using a novel topology-balanced multimodal embedding method inspired by network science. Across four VLMs on multiple rationale-based visual question answering datasets, ReasonEdit achieves state-of-the-art editing performance, ultimately showing that using human reasoning during editing greatly improves edit generalization.

Keywords

visual reasoning vision-language model image editing

Cite

@article{arxiv.2602.02408,
  title  = {ReasonEdit: Editing Vision-Language Models using Human Reasoning},
  author = {Jiaxing Qiu and Kaihua Hou and Roxana Daneshjou and Ahmed Alaa and Thomas Hartvigsen},
  journal= {arXiv preprint arXiv:2602.02408},
  year   = {2026}
}

ReasonEdit: Editing Vision-Language Models using Human Reasoning

Abstract

Keywords

Cite

Related papers