Related papers: Referring Multi-Object Tracking

Bootstrapping Referring Multi-Object Tracking

Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the…

Computer Vision and Pattern Recognition · Computer Science 2025-10-28 Yani Zhang , Dongming Wu , Wencheng Han , Xingping Dong

Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation

Referring multi-object tracking (RMOT) is an emerging cross-modal task that aims to locate an arbitrary number of target objects and maintain their identities referred by a language expression in a video. This intricate task involves the…

Computer Vision and Pattern Recognition · Computer Science 2024-10-18 Changcheng Xiao , Qiong Cao , Yujie Zhong , Xiang Zhang , Tao Wang , Canqun Yang , Long Lan

Cross-View Referring Multi-Object Tracking

Referring Multi-Object Tracking (RMOT) is an important topic in the current tracking field. Its task form is to guide the tracker to track objects that match the language description. Current research mainly focuses on referring…

Computer Vision and Pattern Recognition · Computer Science 2024-12-24 Sijia Chen , En Yu , Wenbing Tao

Tell Me What to Track: Infusing Robust Language Guidance for Enhanced Referring Multi-Object Tracking

Referring multi-object tracking (RMOT) is an emerging cross-modal task that aims to localize an arbitrary number of targets based on a language expression and continuously track them in a video. This intricate task involves reasoning on…

Computer Vision and Pattern Recognition · Computer Science 2025-07-28 Wenjun Huang , Yang Ni , Hanning Chen , Yirui He , Ian Bryant , Yezi Liu , Mohsen Imani

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Multi-Object Tracking (MOT) is a fundamental task in computer vision, aiming to track targets across video frames. Existing MOT methods perform well in general visual scenes, but face significant challenges and limitations when extended to…

Computer Vision and Pattern Recognition · Computer Science 2026-03-06 Sijia Chen , Zihan Zhou , Yanqiu Yu , En Yu , Wenbing Tao

Cognitive Disentanglement for Referring Multi-Object Tracking

As a significant application of multi-source information fusion in intelligent transportation perception systems, Referring Multi-Object Tracking (RMOT) involves localizing and tracking specific objects in video sequences based on language…

Computer Vision and Pattern Recognition · Computer Science 2025-05-28 Shaofeng Liang , Runwei Guan , Wangwang Lian , Daizong Liu , Xiaolou Sun , Dongming Wu , Yutao Yue , Weiping Ding , Hui Xiong

STORM: End-to-End Referring Multi-Object Tracking in Videos

Referring multi-object tracking (RMOT) is a task of associating all the objects in a video that semantically match with given textual queries or referring expressions. Existing RMOT approaches decompose object grounding and tracking into…

Computer Vision and Pattern Recognition · Computer Science 2026-04-14 Zijia Lu , Jingru Yi , Jue Wang , Yuxiao Chen , Junwen Chen , Xinyu Li , Davide Modolo

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Referring Multi-Object Tracking has attracted increasing attention due to its human-friendly interactive characteristics, yet it exhibits limitations in low-visibility conditions, such as nighttime, smoke, and other challenging scenarios.…

Computer Vision and Pattern Recognition · Computer Science 2026-02-26 Yanqiu Yu , Zhifan Jin , Sijia Chen , Tongfei Chu , En Yu , Liman Liu , Wenbing Tao

MEX: Memory-efficient Approach to Referring Multi-Object Tracking

Referring Multi-Object Tracking (RMOT) is a relatively new concept that has rapidly gained traction as a promising research direction at the intersection of computer vision and natural language processing. Unlike traditional multi-object…

Computer Vision and Pattern Recognition · Computer Science 2025-06-02 Huu-Thien Tran , Phuoc-Sang Pham , Thai-Son Tran , Khoa Luu

ReferGPT: Towards Zero-Shot Referring Multi-Object Tracking

Tracking multiple objects based on textual queries is a challenging task that requires linking language understanding with object association across frames. Previous works typically train the whole process end-to-end or integrate an…

Computer Vision and Pattern Recognition · Computer Science 2025-04-15 Tzoulio Chamiti , Leandro Di Bella , Adrian Munteanu , Nikos Deligiannis

Vision-Motion-Reference Alignment for Referring Multi-Object Tracking via Multi-Modal Large Language Models

Referring Multi-Object Tracking (RMOT) extends conventional multi-object tracking (MOT) by introducing natural language references for multi-modal fusion tracking. RMOT benchmarks only describe the object's appearance, relative positions,…

Computer Vision and Pattern Recognition · Computer Science 2025-11-25 Weiyi Lv , Ning Zhang , Hanyang Sun , Haoran Jiang , Kai Zhao , Jing Xiao , Dan Zeng

iKUN: Speak to Trackers without Retraining

Referring multi-object tracking (RMOT) aims to track multiple objects based on input textual descriptions. Previous works realize it by simply integrating an extra textual module into the multi-object tracker. However, they typically need…

Computer Vision and Pattern Recognition · Computer Science 2024-03-12 Yunhao Du , Cheng Lei , Zhicheng Zhao , Fei Su

Rethinking Two-Stage Referring-by-Tracking in Referring Multi-Object Tracking: Make it Strong Again

Referring Multi-Object Tracking (RMOT) aims to track multiple objects specified by natural language expressions in videos. With the recent significant progress of one-stage methods, the two-stage Referring-by-Tracking (RBT) paradigm has…

Computer Vision and Pattern Recognition · Computer Science 2026-03-12 Weize Li , Yunhao Du , Qixiang Yin , Zhicheng Zhao , Fei Su

MLS-Track: Multilevel Semantic Interaction in RMOT

The new trend in multi-object tracking task is to track objects of interest using natural language. However, the scarcity of paired prompt-instance data hinders its progress. To address this challenge, we propose a high-quality yet low-cost…

Computer Vision and Pattern Recognition · Computer Science 2024-04-19 Zeliang Ma , Song Yang , Zhe Cui , Zhicheng Zhao , Fei Su , Delong Liu , Jingyu Wang

ReaMOT: A Benchmark and Framework for Reasoning-based Multi-Object Tracking

Referring Multi-Object Tracking (RMOT) aims to track targets specified by language instructions. However, existing RMOT paradigms heavily rely on explicit visual-textual matching and consequently fail to generalize to complex instructions…

Computer Vision and Pattern Recognition · Computer Science 2026-05-12 Sijia Chen , Yanqiu Yu , En Yu , Wenbing Tao

DRMOT: A Dataset and Framework for RGBD Referring Multi-Object Tracking

Referring Multi-Object Tracking (RMOT) aims to track specific targets based on language descriptions and is vital for interactive AI systems such as robotics and autonomous driving. However, existing RMOT models rely solely on 2D RGB data,…

Computer Vision and Pattern Recognition · Computer Science 2026-02-09 Sijia Chen , Lijuan Ma , Yanqiu Yu , En Yu , Liman Liu , Wenbing Tao

QTrack: Query-Driven Reasoning for Multi-modal MOT

Multi-object tracking (MOT) has traditionally focused on estimating trajectories of all objects in a video, without selectively reasoning about user-specified targets under semantic instructions. In this work, we introduce a query-driven…

Computer Vision and Pattern Recognition · Computer Science 2026-03-17 Tajamul Ashraf , Tavaheed Tariq , Sonia Yadav , Abrar Ul Riyaz , Wasif Tak , Moloud Abdar , Janibul Bashir

MeMOT: Multi-Object Tracking with Memory

We propose an online tracking algorithm that performs the object detection and data association under a common framework, capable of linking objects after a long time span. This is realized by preserving a large spatio-temporal memory to…

Computer Vision and Pattern Recognition · Computer Science 2022-04-01 Jiarui Cai , Mingze Xu , Wei Li , Yuanjun Xiong , Wei Xia , Zhuowen Tu , Stefano Soatto

Beyond MOT: Semantic Multi-Object Tracking

Current multi-object tracking (MOT) aims to predict trajectories of targets (i.e., ''where'') in videos. Yet, knowing merely ''where'' is insufficient in many crucial applications. In comparison, semantic understanding such as fine-grained…

Computer Vision and Pattern Recognition · Computer Science 2024-07-30 Yunhao Li , Qin Li , Hao Wang , Xue Ma , Jiali Yao , Shaohua Dong , Heng Fan , Libo Zhang

Transformer Network for Multi-Person Tracking and Re-Identification in Unconstrained Environment

Multi-object tracking (MOT) has profound applications in a variety of fields, including surveillance, sports analytics, self-driving, and cooperative robotics. Despite considerable advancements, existing MOT methodologies tend to falter…

Computer Vision and Pattern Recognition · Computer Science 2023-12-20 Hamza Mukhtar , Muhammad Usman Ghani Khan