Related papers: SiMO: Single-Modality-Operable Multimodal Collabor…

BM2CP: Efficient Collaborative Perception with LiDAR-Camera Modalities

Collaborative perception enables agents to share complementary perceptual information with nearby agents. This would improve the perception performance and alleviate the issues of single-view perception, such as occlusion and sparsity. Most…

Computer Vision and Pattern Recognition · Computer Science 2023-12-08 Binyu Zhao , Wei Zhang , Zhaonian Zou

Balancing Multi-modal Sensor Learning via Multi-objective Optimization

Learning-enabled control systems increasingly rely on multiple sensing modalities (e.g., vision, audio, language, etc.) for perception and decision support. A key challenge is that multi-modal sensor training dynamics are often imbalanced:…

Machine Learning · Computer Science 2026-04-01 Heshan Fernando , Quan Xiao , Parikshit Ram , Yi Zhou , Horst Samulowitz , Nathalie Baracaldo , Tianyi Chen

SIMAC: A Semantic-Driven Integrated Multimodal Sensing And Communication Framework

Traditional single-modality sensing faces limitations in accuracy and capability, and its decoupled implementation with communication systems increases latency in bandwidth-constrained environments. Additionally, single-task-oriented…

Machine Learning · Computer Science 2025-03-13 Yubo Peng , Luping Xiang , Kun Yang , Feibo Jiang , Kezhi Wang , Dapeng Oliver Wu

GRAM-MAMBA: Holistic Feature Alignment for Wireless Perception with Adaptive Low-Rank Compensation

Multi-modal fusion is crucial for Internet of Things (IoT) perception, widely deployed in smart homes, intelligent transport, industrial automation, and healthcare. However, existing systems often face challenges: high model complexity…

Computer Vision and Pattern Recognition · Computer Science 2025-07-21 Weiqi Yang , Xu Zhou , Jingfu Guan , Hao Du , Tianyu Bai

RoCo:Robust Collaborative Perception By Iterative Object Matching and Pose Adjustment

Collaborative autonomous driving with multiple vehicles usually requires the data fusion from multiple modalities. To ensure effective fusion, the data from each individual modality shall maintain a reasonably high quality. However, in…

Artificial Intelligence · Computer Science 2024-08-02 Zhe Huang , Shuo Wang , Yongcai Wang , Wanting Li , Deying Li , Lei Wang

Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

Multi-modal fusion is a fundamental task for the perception of an autonomous driving system, which has recently intrigued many researchers. However, achieving a rather good performance is not an easy task due to the noisy raw data,…

Computer Vision and Pattern Recognition · Computer Science 2024-12-18 Keli Huang , Botian Shi , Xiang Li , Xin Li , Siyuan Huang , Yikang Li

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

Vision-Language Models (VLMs) have achieved substantial progress across a wide range of understanding and reasoning tasks, driven by large-scale image-text training aimed at multimodal fusion. Ideally, replacing a textual question with its…

Computer Vision and Pattern Recognition · Computer Science 2026-05-29 Feng Han , Zhixiong Zhang , Zheming Liang , Yibin Wang , Jiaqi Wang

Multimodal Representation Learning by Alternating Unimodal Adaptation

Multimodal learning, which integrates data from diverse sensory modes, plays a pivotal role in artificial intelligence. However, existing multimodal learning methods often struggle with challenges where some modalities appear more dominant…

Machine Learning · Computer Science 2024-04-02 Xiaohui Zhang , Jaehong Yoon , Mohit Bansal , Huaxiu Yao

FusionSAM: Visual Multi-Modal Learning with Segment Anything

Multimodal image fusion and semantic segmentation are critical for autonomous driving. Despite advancements, current models often struggle with segmenting densely packed elements due to a lack of comprehensive fusion features for guidance…

Computer Vision and Pattern Recognition · Computer Science 2025-06-25 Daixun Li , Weiying Xie , Mingxiang Cao , Yunke Wang , Yusi Zhang , Leyuan Fang , Yunsong Li , Chang Xu

Incomplete Multimodal Learning for Remote Sensing Data Fusion

The mechanism of connecting multimodal signals through self-attention operation is a key factor in the success of multimodal Transformer networks in remote sensing data fusion tasks. However, traditional approaches assume access to all…

Computer Vision and Pattern Recognition · Computer Science 2023-04-25 Yuxing Chen , Maofan Zhao , Lorenzo Bruzzone

SAMOFT: Robust Multi-Object Tracking via Region and Flow

Multi-object tracking (MOT) is a fundamental task in computer vision that requires continuously tracking multiple targets while maintaining consistent identities across frames. However, most existing approaches primarily rely on…

Computer Vision and Pattern Recognition · Computer Science 2026-05-12 Yanchao Wang , Dawei Zhang , Chengzhuan Yang , Wei Liu , Minglu Li , Hua Wang , Zhonglong Zheng , Ming-Hsuan Yang

Segment Anything with Multiple Modalities

Robust and accurate segmentation of scenes has become one core functionality in various visual recognition and navigation tasks. This has inspired the recent development of Segment Anything Model (SAM), a foundation model for general mask…

Computer Vision and Pattern Recognition · Computer Science 2024-08-20 Aoran Xiao , Weihao Xuan , Heli Qi , Yun Xing , Naoto Yokoya , Shijian Lu

COMO: Cross-Mamba Interaction and Offset-Guided Fusion for Multimodal Object Detection

Single-modal object detection tasks often experience performance degradation when encountering diverse scenarios. In contrast, multimodal object detection tasks can offer more comprehensive information about object features by integrating…

Computer Vision and Pattern Recognition · Computer Science 2024-12-25 Chang Liu , Xin Ma , Xiaochen Yang , Yuxiang Zhang , Yanni Dong

DGFusion: Depth-Guided Sensor Fusion for Robust Semantic Perception

Robust semantic perception for autonomous vehicles relies on effectively combining multiple sensors with complementary strengths and weaknesses. State-of-the-art sensor fusion approaches to semantic perception often treat sensor data…

Computer Vision and Pattern Recognition · Computer Science 2026-01-27 Tim Broedermannn , Christos Sakaridis , Luigi Piccinelli , Wim Abbeloos , Luc Van Gool

Jointly Optimizing Sensing Pipelines for Multimodal Mixed Reality Interaction

Natural human interactions for Mixed Reality Applications are overwhelmingly multimodal: humans communicate intent and instructions via a combination of visual, aural and gestural cues. However, supporting low-latency and accurate…

Human-Computer Interaction · Computer Science 2020-12-21 Darshana Rathnayake , Ashen de Silva , Dasun Puwakdandawa , Lakmal Meegahapola , Archan Misra , Indika Perera

Multimodal SAM-adapter for Semantic Segmentation

Semantic segmentation, a key task in computer vision with broad applications in autonomous driving, medical imaging, and robotics, has advanced substantially with deep learning. Nevertheless, current approaches remain vulnerable to…

Computer Vision and Pattern Recognition · Computer Science 2025-09-15 Iacopo Curti , Pierluigi Zama Ramirez , Alioscia Petrelli , Luigi Di Stefano

Robust Multi-Modal Sensor Fusion: An Adversarial Approach

In recent years, multi-modal fusion has attracted a lot of research interest, both in academia, and in industry. Multimodal fusion entails the combination of information from a set of different types of sensors. Exploiting complementary…

Machine Learning · Computer Science 2020-08-27 Siddharth Roheda , Hamid Krim , Benjamin S. Riggan

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

Multimodal semantic segmentation integrates complementary information from diverse sensors for remote sensing Earth observation. However, practical systems often encounter missing modalities due to sensor failures or incomplete coverage,…

Computer Vision and Pattern Recognition · Computer Science 2026-03-04 Lekang Wen , Liang Liao , Jing Xiao , Mi Wang

Multi-Modality Collaborative Learning for Sentiment Analysis

Multimodal sentiment analysis (MSA) identifies individuals' sentiment states in videos by integrating visual, audio, and text modalities. Despite progress in existing methods, the inherent modality heterogeneity limits the effective capture…

Machine Learning · Computer Science 2025-12-19 Shanmin Wang , Chengguang Liu , Qingshan Liu

Rethinking Efficient Mixture-of-Experts for Remote Sensing Modality-Missing Classification

Multimodal remote sensing classification often suffers from missing modalities caused by sensor failures and environmental interference, leading to severe performance degradation. In this work, we rethink missing-modality learning from a…

Computer Vision and Pattern Recognition · Computer Science 2026-02-04 Qinghao Gao , Jiahui Qu , Wenqian Dong