Puneet Mathur — Scifaro

DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA

Diagram question answering (Diagram QA) requires reasoning-level attribution that links each question-answer pair to all visual regions needed to derive the answer, rather than only the region containing the final response. Creating such…

Computation and Language · Computer Science 2026-05-05 Anirudh Iyengar Kaniyar Narayana Iyengar , Tampu Ravi Kumar , Manan Suri , Raviteja Bommireddy , Dinesh Manocha , Puneet Mathur , Vivek Gupta

DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams

Diagram question answering (DQA) requires models to interpret structured visual representations such as charts, maps, infographics, circuit schematics, and scientific diagrams. Recent vision-language models (VLMs) often achieve high answer…

Computer Vision and Pattern Recognition · Computer Science 2026-04-29 Anirudh Iyengar Kaniyar Narayana Iyengar , Tampu Ravi Kumar , Gaurav Najpande , Manan Suri , Dinesh Manocha , Puneet Mathur , Vivek Gupta

Sparse Personalized Text Generation with Multi-Trajectory Reasoning

As Large Language Models (LLMs) advance, personalization has become a key mechanism for tailoring outputs to individual user needs. However, most existing methods rely heavily on dense interaction histories, making them ineffective in…

Artificial Intelligence · Computer Science 2026-04-29 Bo Ni , Haowei Fu , Qinwen Ge , Franck Dernoncourt , Samyadeep Basu , Nedim Lipka , Seunghyun Yoon , Yu Wang , Nesreen K. Ahmed , Subhojyoti Mukherjee , Puneet Mathur , Ryan A. Rossi , Tyler Derr

A Survey on LLM-based Conversational User Simulation

User simulation has long played a vital role in computer science due to its potential to support a wide range of applications. Language, as the primary medium of human communication, forms the foundation of social interaction and behavior.…

Computation and Language · Computer Science 2026-04-29 Bo Ni , Leyao Wang , Yu Wang , Branislav Kveton , Franck Dernoncourt , Yu Xia , Hongjie Chen , Reuben Leura , Samyadeep Basu , Subhojyoti Mukherjee , Puneet Mathur , Nesreen Ahmed , Junda Wu , Li Li , Huixin Zhang , Ruiyi Zhang , Tong Yu , Sungchul Kim , Jiuxiang Gu , Zhengzhong Tu , Alexa Siu , Zichao Wang , David Seunghyun Yoon , Nedim Lipka , Namyong Park , Zihao Lin , Trung Bui , Yue Zhao , Tyler Derr , Ryan A. Rossi

Lizard: An Efficient Linearization Framework for Large Language Models

We propose Lizard, a linearization framework that transforms pretrained Transformer-based Large Language Models (LLMs) into subquadratic architectures. Transformers faces severe computational and memory bottlenecks with long sequences due…

Computation and Language · Computer Science 2026-04-21 Chien Van Nguyen , Huy Nguyen , Ruiyi Zhang , Hanieh Deilamsalehy , Puneet Mathur , Viet Dac Lai , Haoliang Wang , Jayakumar Subramanian , Ryan A. Rossi , Trung Bui , Nikos Vlassis , Franck Dernoncourt , Thien Huu Nguyen

Structured Uncertainty guided Clarification for LLM Agents

LLM agents with tool-calling capabilities often fail when user instructions are ambiguous or incomplete, leading to incorrect invocations and task failures. Existing approaches operate in unstructured language spaces, generating clarifying…

Computation and Language · Computer Science 2026-04-13 Manan Suri , Puneet Mathur , Nedim Lipka , Franck Dernoncourt , Ryan A. Rossi , Dinesh Manocha

Cluster-R1: Large Reasoning Models Are Instruction-following Clustering Agents

General-purpose embedding models excel at recognizing semantic similarities but fail to capture the characteristics of texts specified by user instructions. In contrast, instruction-tuned embedders can align embeddings with textual…

Computation and Language · Computer Science 2026-03-26 Peijun Qing , Puneet Mathur , Nedim Lipka , Varun Manjunatha , Ryan Rossi , Franck Dernoncourt , Saeed Hassanpour , Soroush Vosoughi

Test-Time Strategies for More Efficient and Accurate Agentic RAG

Retrieval-Augmented Generation (RAG) systems face challenges with complex, multihop questions, and agentic frameworks such as Search-R1 (Jin et al., 2025), which operates iteratively, have been proposed to address these complexities.…

Information Retrieval · Computer Science 2026-03-16 Brian Zhang , Deepti Guntur , Zhiyang Zuo , Abhinav Sharma , Shreyas Chaudhari , Wenlong Zhao , Franck Dernoncourt , Puneet Mathur , Ryan Rossi , Nedim Lipka

Partial Policy Gradients for RL in LLMs

Reinforcement learning is a framework for learning to act sequentially in an unknown environment. We propose a natural approach for modeling policy structure in policy gradients. The key idea is to optimize for a subset of future rewards:…

Machine Learning · Computer Science 2026-03-09 Puneet Mathur , Branislav Kveton , Subhojyoti Mukherjee , Viet Dac Lai

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

Generating long-form storytelling videos with consistent visual narratives remains a significant challenge in video synthesis. We present a novel framework, dataset, and a model that address three critical limitations: background…

Computer Vision and Pattern Recognition · Computer Science 2026-03-05 Mohamed Elmoghany , Liangbing Zhao , Xiaoqian Shen , Subhojyoti Mukherjee , Yang Zhou , Gang Wu , Viet Dac Lai , Seunghyun Yoon , Ryan Rossi , Abdullah Rashwan , Puneet Mathur , Varun Manjunatha , Daksh Dangi , Chien Nguyen , Nedim Lipka , Trung Bui , Krishna Kumar Singh , Ruiyi Zhang , Xiaolei Huang , Jaemin Cho , Yu Wang , Namyong Park , Zhengzhong Tu , Hongjie Chen , Hoda Eldardiry , Nesreen Ahmed , Thien Nguyen , Dinesh Manocha , Mohamed Elhoseiny , Franck Dernoncourt

Reasoning-Based Personalized Generation for Users with Sparse Data

Large Language Model (LLM) personalization holds great promise for tailoring responses by leveraging personal context and history. However, real-world users usually possess sparse interaction histories with limited personal context, such as…

Computation and Language · Computer Science 2026-02-26 Bo Ni , Branislav Kveton , Samyadeep Basu , Subhojyoti Mukherjee , Leyao Wang , Franck Dernoncourt , Sungchul Kim , Seunghyun Yoon , Zichao Wang , Ruiyi Zhang , Puneet Mathur , Jihyung Kil , Jiuxiang Gu , Nedim Lipka , Yu Wang , Ryan A. Rossi , Tyler Derr

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Evaluating image editing models remains challenging due to the coarse granularity and limited interpretability of traditional metrics, which often fail to capture aspects important to human perception and intent. Such metrics frequently…

Computer Vision and Pattern Recognition · Computer Science 2026-02-16 Runzhou Liu , Hailey Weingord , Sejal Mittal , Prakhar Dungarwal , Anusha Nandula , Bo Ni , Samyadeep Basu , Hongjie Chen , Nesreen K. Ahmed , Li Li , Jiayi Zhang , Koustava Goswami , Subhojyoti Mukherjee , Branislav Kveton , Puneet Mathur , Franck Dernoncourt , Yue Zhao , Yu Wang , Ryan A. Rossi , Zhengzhong Tu , Hongru Du

Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

Large language model (LLM) judges have often been used alongside traditional, algorithm-based metrics for tasks like summarization because they better capture semantic information, are better at reasoning, and are more robust to…

Computation and Language · Computer Science 2026-02-10 Jiangnan Fang , Cheng-Tse Liu , Hanieh Deilamsalehy , Nesreen K. Ahmed , Puneet Mathur , Nedim Lipka , Franck Dernoncourt , Ryan A. Rossi

Charts Are Not Images: On the Challenges of Scientific Chart Editing

Generative models, such as diffusion and autoregressive approaches, have demonstrated impressive capabilities in editing natural images. However, applying these tools to scientific charts rests on a flawed assumption: a chart is not merely…

Computer Vision and Pattern Recognition · Computer Science 2025-12-02 Shawn Li , Ryan Rossi , Sungchul Kim , Sunav Choudhary , Franck Dernoncourt , Puneet Mathur , Zhengzhong Tu , Yue Zhao

SQLSpace: A Representation Space for Text-to-SQL to Discover and Mitigate Robustness Gaps

We introduce SQLSpace, a human-interpretable, generalizable, compact representation for text-to-SQL examples derived with minimal human intervention. We demonstrate the utility of these representations in evaluation with three use cases:…

Computation and Language · Computer Science 2025-11-03 Neha Srikanth , Victor Bursztyn , Puneet Mathur , Ani Nenkova

MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces

In an ideal design pipeline, user interface (UI) design is intertwined with user research to validate decisions, yet studies are often resource-constrained during early exploration. Recent advances in multimodal large language models…

Human-Computer Interaction · Computer Science 2025-10-13 Reuben A. Luera , Ryan Rossi , Franck Dernoncourt , Samyadeep Basu , Sungchul Kim , Subhojyoti Mukherjee , Puneet Mathur , Ruiyi Zhang , Jihyung Kil , Nedim Lipka , Seunghyun Yoon , Jiuxiang Gu , Zichao Wang , Cindy Xiong Bearfield , Branislav Kveton

GUI Agents: A Survey

Graphical User Interface (GUI) agents, powered by Large Foundation Models, have emerged as a transformative approach to automating human-computer interaction. These agents autonomously interact with digital systems or software applications…

Artificial Intelligence · Computer Science 2025-09-30 Dang Nguyen , Jian Chen , Yu Wang , Gang Wu , Namyong Park , Zhengmian Hu , Hanjia Lyu , Junda Wu , Ryan Aponte , Yu Xia , Xintong Li , Jing Shi , Hongjie Chen , Viet Dac Lai , Zhouhang Xie , Sungchul Kim , Ruiyi Zhang , Tong Yu , Mehrab Tanjim , Nesreen K. Ahmed , Puneet Mathur , Seunghyun Yoon , Lina Yao , Branislav Kveton , Jihyung Kil , Thien Huu Nguyen , Trung Bui , Tianyi Zhou , Ryan A. Rossi , Franck Dernoncourt

DynaSaur: Large Language Agents Beyond Predefined Actions

Existing LLM agent systems typically select actions from a fixed and predefined set at every step. While this approach is effective in closed, narrowly scoped environments, it presents two major challenges for real-world, open-ended…

Computation and Language · Computer Science 2025-09-05 Dang Nguyen , Viet Dac Lai , Seunghyun Yoon , Ryan A. Rossi , Handong Zhao , Ruiyi Zhang , Puneet Mathur , Nedim Lipka , Yu Wang , Trung Bui , Franck Dernoncourt , Tianyi Zhou

A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

Despite the significant progress that has been made in video generative models, existing state-of-the-art methods can only produce videos lasting 5-16 seconds, often labeled "long-form videos". Furthermore, videos exceeding 16 seconds…

Computer Vision and Pattern Recognition · Computer Science 2025-07-11 Mohamed Elmoghany , Ryan Rossi , Seunghyun Yoon , Subhojyoti Mukherjee , Eslam Bakr , Puneet Mathur , Gang Wu , Viet Dac Lai , Nedim Lipka , Ruiyi Zhang , Varun Manjunatha , Chien Nguyen , Daksh Dangi , Abel Salinas , Mohammad Taesiri , Hongjie Chen , Xiaolei Huang , Joe Barrow , Nesreen Ahmed , Hoda Eldardiry , Namyong Park , Yu Wang , Jaemin Cho , Anh Totti Nguyen , Zhengzhong Tu , Thien Nguyen , Dinesh Manocha , Mohamed Elhoseiny , Franck Dernoncourt

FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback

Captions are crucial for understanding scientific visualizations and documents. Existing captioning methods for scientific figures rely on figure-caption pairs extracted from documents for training, many of which fall short with respect to…

Computation and Language · Computer Science 2025-06-18 Ashish Singh , Ashutosh Singh , Prateek Agarwal , Zixuan Huang , Arpita Singh , Tong Yu , Sungchul Kim , Victor Bursztyn , Nesreen K. Ahmed , Puneet Mathur , Erik Learned-Miller , Franck Dernoncourt , Ryan A. Rossi