Davide Modolo — Scifaro

Visual Reasoning through Tool-supervised Reinforcement Learning

In this paper, we investigate the problem of how to effectively master tool-use to solve complex visual reasoning tasks for Multimodal Large Language Models. To achieve that, we propose a novel Tool-supervised Reinforcement Learning…

Computer Vision and Pattern Recognition · Computer Science 2026-04-23 Qihua Dong , Gozde Sahin , Pei Wang , Zhaowei Cai , Robik Shrestha , Hao Yang , Davide Modolo

STORM: End-to-End Referring Multi-Object Tracking in Videos

Referring multi-object tracking (RMOT) is a task of associating all the objects in a video that semantically match with given textual queries or referring expressions. Existing RMOT approaches decompose object grounding and tracking into…

Computer Vision and Pattern Recognition · Computer Science 2026-04-14 Zijia Lu , Jingru Yi , Jue Wang , Yuxiao Chen , Junwen Chen , Xinyu Li , Davide Modolo

MM-ReCoder: Advancing Chart-to-Code Generation with Reinforcement Learning and Self-Correction

Multimodal Large Language Models (MLLMs) have recently demonstrated promising capabilities in multimodal coding tasks such as chart-to-code generation. However, existing methods primarily rely on supervised fine-tuning (SFT), which requires…

Artificial Intelligence · Computer Science 2026-04-03 Zitian Tang , Xu Zhang , Jianbo Yuan , Yang Zou , Varad Gunjal , Songyao Jiang , Davide Modolo

Learning Compact Video Representations for Efficient Long-form Video Understanding in Large Multimodal Models

With recent advancements in video backbone architectures, combined with the remarkable achievements of large language models (LLMs), the analysis of long-form videos spanning tens of minutes has become both feasible and increasingly…

Computer Vision and Pattern Recognition · Computer Science 2026-02-23 Yuxiao Chen , Jue Wang , Zhikang Zhang , Jingru Yi , Xu Zhang , Yang Zou , Zhaowei Cai , Jianbo Yuan , Xinyu Li , Hao Yang , Davide Modolo

The Amazon Nova Family of Models: Technical Report and Model Card

We present Amazon Nova, a new generation of state-of-the-art foundation models that deliver frontier intelligence and industry-leading price performance. Amazon Nova Pro is a highly-capable multimodal model with the best combination of…

Artificial Intelligence · Computer Science 2025-06-17 Amazon AGI , Aaron Langford , Aayush Shah , Abhanshu Gupta , Abhimanyu Bhatter , Abhinav Goyal , Abhinav Mathur , Abhinav Mohanty , Abhishek Kumar , Abhishek Sethi , Abi Komma , Abner Pena , Achin Jain , Adam Kunysz , Adam Opyrchal , Adarsh Singh , Aditya Rawal , Adok Achar Budihal Prasad , Adrià de Gispert , Agnika Kumar , Aishwarya Aryamane , Ajay Nair , Akilan M , Akshaya Iyengar , Akshaya Vishnu Kudlu Shanbhogue , Alan He , Alessandra Cervone , Alex Loeb , Alex Zhang , Alexander Fu , Alexander Lisnichenko , Alexander Zhipa , Alexandros Potamianos , Ali Kebarighotbi , Aliakbar Daronkolaei , Alok Parmesh , Amanjot Kaur Samra , Ameen Khan , Amer Rez , Amir Saffari , Amit Agarwalla , Amit Jhindal , Amith Mamidala , Ammar Asmro , Amulya Ballakur , Anand Mishra , Anand Sridharan , Anastasiia Dubinina , Andre Lenz , Andreas Doerr , Andrew Keating , Andrew Leaver , Andrew Smith , Andrew Wirth , Andy Davey , Andy Rosenbaum , Andy Sohn , Angela Chan , Aniket Chakrabarti , Anil Ramakrishna , Anirban Roy , Anita Iyer , Anjali Narayan-Chen , Ankith Yennu , Anna Dabrowska , Anna Gawlowska , Anna Rumshisky , Anna Turek , Anoop Deoras , Anton Bezruchkin , Anup Prasad , Anupam Dewan , Anwith Kiran , Apoorv Gupta , Aram Galstyan , Aravind Manoharan , Arijit Biswas , Arindam Mandal , Arpit Gupta , Arsamkhan Pathan , Arun Nagarajan , Arushan Rajasekaram , Arvind Sundararajan , Ashwin Ganesan , Ashwin Swaminathan , Athanasios Mouchtaris , Audrey Champeau , Avik Ray , Ayush Jaiswal , Ayush Sharma , Bailey Keefer , Balamurugan Muthiah , Beatriz Leon-Millan , Ben Koopman , Ben Li , Benjamin Biggs , Benjamin Ott , Bhanu Vinzamuri , Bharath Venkatesh , Bhavana Ganesh , Bhoomit Vasani , Bill Byrne , Bill Hsu , Bincheng Wang , Blake King , Blazej Gorny , Bo Feng , Bo Zheng , Bodhisattwa Paul , Bofan Sun , Bofeng Luo , Bowen Chen , Bowen Xie , Boya Yu , Brendan Jugan , Brett Panosh , Brian Collins , Brian Thompson , Can Karakus , Can Liu , Carl Lambrecht , Carly Lin , Carolyn Wang , Carrie Yuan , Casey Loyda , Cezary Walczak , Chalapathi Choppa , Chandana Satya Prakash , Chankrisna Richy Meas , Charith Peris , Charles Recaido , Charlie Xu , Charul Sharma , Chase Kernan , Chayut Thanapirom , Chengwei Su , Chenhao Xu , Chenhao Yin , Chentao Ye , Chenyang Tao , Chethan Parameshwara , Ching-Yun Chang , Chong Li , Chris Hench , Chris Tran , Christophe Dupuy , Christopher Davis , Christopher DiPersio , Christos Christodoulopoulos , Christy Li , Chun Chen , Claudio Delli Bovi , Clement Chung , Cole Hawkins , Connor Harris , Corey Ropell , Cynthia He , DK Joo , Dae Yon Hwang , Dan Rosen , Daniel Elkind , Daniel Pressel , Daniel Zhang , Danielle Kimball , Daniil Sorokin , Dave Goodell , Davide Modolo , Dawei Zhu , Deepikaa Suresh , Deepti Ragha , Denis Filimonov , Denis Foo Kune , Denis Romasanta Rodriguez , Devamanyu Hazarika , Dhananjay Ram , Dhawal Parkar , Dhawal Patel , Dhwanil Desai , Dinesh Singh Rajput , Disha Sule , Diwakar Singh , Dmitriy Genzel , Dolly Goldenberg , Dongyi He , Dumitru Hanciu , Dushan Tharmal , Dzmitry Siankovich , Edi Cikovic , Edwin Abraham , Ekraam Sabir , Elliott Olson , Emmett Steven , Emre Barut , Eric Jackson , Ethan Wu , Evelyn Chen , Ezhilan Mahalingam , Fabian Triefenbach , Fan Yang , Fangyu Liu , Fanzi Wu , Faraz Tavakoli , Farhad Khozeimeh , Feiyang Niu , Felix Hieber , Feng Li , Firat Elbey , Florian Krebs , Florian Saupe , Florian Sprünken , Frank Fan , Furqan Khan , Gabriela De Vincenzo , Gagandeep Kang , George Ding , George He , George Yeung , Ghada Qaddoumi , Giannis Karamanolakis , Goeric Huybrechts , Gokul Maddali , Gonzalo Iglesias , Gordon McShane , Gozde Sahin , Guangtai Huang , Gukyeong Kwon , Gunnar A. Sigurdsson , Gurpreet Chadha , Gururaj Kosuru , Hagen Fuerstenau , Hah Hah , Haja Maideen , Hajime Hosokawa , Han Liu , Han-Kai Hsu , Hann Wang , Hao Li , Hao Yang , Haofeng Zhu , Haozheng Fan , Harman Singh , Harshavardhan Kaluvala , Hashim Saeed , He Xie , Helian Feng , Hendrix Luo , Hengzhi Pei , Henrik Nielsen , Hesam Ilati , Himanshu Patel , Hongshan Li , Hongzhou Lin , Hussain Raza , Ian Cullinan , Imre Kiss , Inbarasan Thangamani , Indrayani Fadnavis , Ionut Teodor Sorodoc , Irem Ertuerk , Iryna Yemialyanava , Ishan Soni , Ismail Jelal , Ivan Tse , Jack FitzGerald , Jack Zhao , Jackson Rothgeb , Jacky Lee , Jake Jung , Jakub Debski , Jakub Tomczak , James Jeun , James Sanders , Jason Crowley , Jay Lee , Jayakrishna Anvesh Paidy , Jayant Tiwari , Jean Farmer , Jeff Solinsky , Jenna Lau , Jeremy Savareese , Jerzy Zagorski , Ji Dai , Jiacheng , Gu , Jiahui Li , Jian , Zheng , Jianhua Lu , Jianhua Wang , Jiawei Dai , Jiawei Mo , Jiaxi Xu , Jie Liang , Jie Yang , Jim Logan , Jimit Majmudar , Jing Liu , Jinghong Miao , Jingru Yi , Jingyang Jin , Jiun-Yu Kao , Jixuan Wang , Jiyang Wang , Joe Pemberton , Joel Carlson , Joey Blundell , John Chin-Jew , John He , Jonathan Ho , Jonathan Hueser , Jonathan Lunt , Jooyoung Lee , Joshua Tan , Joyjit Chatterjee , Judith Gaspers , Jue Wang , Jun Fang , Jun Tang , Jun Wan , Jun Wu , Junlei Wang , Junyi Shi , Justin Chiu , Justin Satriano , Justin Yee , Jwala Dhamala , Jyoti Bansal , Kai Zhen , Kai-Wei Chang , Kaixiang Lin , Kalyan Raman , Kanthashree Mysore Sathyendra , Karabo Moroe , Karan Bhandarkar , Karan Kothari , Karolina Owczarzak , Karthick Gopalswamy , Karthick Ravi , Karthik Ramakrishnan , Karthika Arumugam , Kartik Mehta , Katarzyna Konczalska , Kavya Ravikumar , Ke Tran , Kechen Qin , Kelin Li , Kelvin Li , Ketan Kulkarni , Kevin Angelo Rodrigues , Keyur Patel , Khadige Abboud , Kiana Hajebi , Klaus Reiter , Kris Schultz , Krishna Anisetty , Krishna Kotnana , Kristen Li , Kruthi Channamallikarjuna , Krzysztof Jakubczyk , Kuba Pierewoj , Kunal Pal , Kunwar Srivastav , Kyle Bannerman , Lahari Poddar , Lakshmi Prasad , Larry Tseng , Laxmikant Naik , Leena Chennuru Vankadara , Lenon Minorics , Leo Liu , Leonard Lausen , Leonardo F. R. Ribeiro , Li Zhang , Lili Gehorsam , Ling Qi , Lisa Bauer , Lori Knapp , Lu Zeng , Lucas Tong , Lulu Wong , Luoxin Chen , Maciej Rudnicki , Mahdi Namazifar , Mahesh Jaliminche , Maira Ladeira Tanke , Manasi Gupta , Mandeep Ahlawat , Mani Khanuja , Mani Sundaram , Marcin Leyk , Mariusz Momotko , Markus Boese , Markus Dreyer , Markus Mueller , Mason Fu , Mateusz Górski , Mateusz Mastalerczyk , Matias Mora , Matt Johnson , Matt Scott , Matthew Wen , Max Barysau , Maya Boumerdassi , Maya Krishnan , Mayank Gupta , Mayank Hirani , Mayank Kulkarni , Meganathan Narayanasamy , Melanie Bradford , Melanie Gens , Melissa Burke , Meng Jin , Miao Chen , Michael Denkowski , Michael Heymel , Michael Krestyaninov , Michal Obirek , Michalina Wichorowska , Michał Miotk , Milosz Watroba , Mingyi Hong , Mingzhi Yu , Miranda Liu , Mohamed Gouda , Mohammad El-Shabani , Mohammad Ghavamzadeh , Mohit Bansal , Morteza Ziyadi , Nan Xia , Nathan Susanj , Nav Bhasin , Neha Goswami , Nehal Belgamwar , Nicolas Anastassacos , Nicolas Bergeron , Nidhi Jain , Nihal Jain , Niharika Chopparapu , Nik Xu , Nikko Strom , Nikolaos Malandrakis , Nimisha Mishra , Ninad Parkhi , Ninareh Mehrabi , Nishita Sant , Nishtha Gupta , Nitesh Sekhar , Nithin Rajeev , Nithish Raja Chidambaram , Nitish Dhar , Noor Bhagwagar , Noy Konforty , Omar Babu , Omid Razavi , Orchid Majumder , Osama Dar , Oscar Hsu , Pablo Kvitca , Pallavi Pandey , Parker Seegmiller , Patrick Lange , Paul Ferraro , Payal Motwani , Pegah Kharazmi , Pei Wang , Pengfei Liu , Peter Bradtke , Peter Götz , Peter Zhou , Pichao Wang , Piotr Poskart , Pooja Sonawane , Pradeep Natarajan , Pradyun Ramadorai , Pralam Shah , Prasad Nirantar , Prasanthi Chavali , Prashan Wanigasekara , Prashant Saraf , Prashun Dey , Pratyush Pant , Prerak Pradhan , Preyaa Patel , Priyanka Dadlani , Prudhvee Narasimha Sadha , Qi Dong , Qian Hu , Qiaozi , Gao , Qing Liu , Quinn Lam , Quynh Do , R. Manmatha , Rachel Willis , Rafael Liu , Rafal Ellert , Rafal Kalinski , Rafi Al Attrach , Ragha Prasad , Ragini Prasad , Raguvir Kunani , Rahul Gupta , Rahul Sharma , Rahul Tewari , Rajaganesh Baskaran , Rajan Singh , Rajiv Gupta , Rajiv Reddy , Rajshekhar Das , Rakesh Chada , Rakesh Vaideeswaran Mahesh , Ram Chandrasekaran , Ramesh Nallapati , Ran Xue , Rashmi Gangadharaiah , Ravi Rachakonda , Renxian Zhang , Rexhina Blloshmi , Rishabh Agrawal , Robert Enyedi , Robert Lowe , Robik Shrestha , Robinson Piramuthu , Rohail Asad , Rohan Khanna , Rohan Mukherjee , Rohit Mittal , Rohit Prasad , Rohith Mysore Vijaya Kumar , Ron Diamant , Ruchita Gupta , Ruiwen Li , Ruoying Li , Rushabh Fegade , Ruxu Zhang , Ryan Arbow , Ryan Chen , Ryan Gabbard , Ryan Hoium , Ryan King , Sabarishkumar Iyer , Sachal Malick , Sahar Movaghati , Sai Balakavi , Sai Jakka , Sai Kashyap Paruvelli , Sai Muralidhar Jayanthi , Saicharan Shriram Mujumdar , Sainyam Kapoor , Sajjad Beygi , Saket Dingliwal , Saleh Soltan , Sam Ricklin , Sam Tucker , Sameer Sinha , Samridhi Choudhary , Samson Tan , Samuel Broscheit , Samuel Schulter , Sanchit Agarwal , Sandeep Atluri , Sander Valstar , Sanjana Shankar , Sanyukta Sanyukta , Sarthak Khanna , Sarvpriye Khetrapal , Satish Janakiraman , Saumil Shah , Saurabh Akolkar , Saurabh Giri , Saurabh Khandelwal , Saurabh Pawar , Saurabh Sahu , Sean Huang , Sejun Ra , Senthilkumar Gopal , Sergei Dobroshinsky , Shadi Saba , Shamik Roy , Shamit Lal , Shankar Ananthakrishnan , Sharon Li , Shashwat Srijan , Shekhar Bhide , Sheng Long Tang , Sheng Zha , Shereen Oraby , Sherif Mostafa , Shiqi Li , Shishir Bharathi , Shivam Prakash , Shiyuan Huang , Shreya Yembarwar , Shreyas Pansare , Shreyas Subramanian , Shrijeet Joshi , Shuai Liu , Shuai Tang , Shubham Chandak , Shubham Garg , Shubham Katiyar , Shubham Mehta , Shubham Srivastav , Shuo Yang , Siddalingesha D S , Siddharth Choudhary , Siddharth Singh Senger , Simon Babb , Sina Moeini , Siqi Deng , Siva Loganathan , Slawomir Domagala , Sneha Narkar , Sneha Wadhwa , Songyang Zhang , Songyao Jiang , Sony Trenous , Soumajyoti Sarkar , Soumya Saha , Sourabh Reddy , Sourav Dokania , Spurthideepika Sandiri , Spyros Matsoukas , Sravan Bodapati , Sri Harsha Reddy Wdaru , Sridevi Yagati Venkateshdatta , Srikanth Ronanki , Srinivasan R Veeravanallur , Sriram Venkatapathy , Sriramprabhu Sankaraguru , Sruthi Gorantla , Sruthi Karuturi , Stefan Schroedl , Subendhu Rongali , Subhasis Kundu , Suhaila Shakiah , Sukriti Tiwari , Sumit Bharti , Sumita Sami , Sumith Mathew , Sunny Yu , Sunwoo Kim , Suraj Bajirao Malode , Susana Cumplido Riel , Swapnil Palod , Swastik Roy , Syed Furqhan , Tagyoung Chung , Takuma Yoshitani , Taojiannan Yang , Tejaswi Chillakura , Tejwant Bajwa , Temi Lajumoke , Thanh Tran , Thomas Gueudre , Thomas Jung , Tianhui Li , Tim Seemman , Timothy Leffel , Tingting Xiang , Tirth Patel , Tobias Domhan , Tobias Falke , Toby Guo , Tom Li , Tomasz Horszczaruk , Tomasz Jedynak , Tushar Kulkarni , Tyst Marin , Tytus Metrycki , Tzu-Yen Wang , Umang Jain , Upendra Singh , Utkarsh Chirimar , Vaibhav Gupta , Vanshil Shah , Varad Deshpande , Varad Gunjal , Varsha Srikeshava , Varsha Vivek , Varun Bharadwaj , Varun Gangal , Varun Kumar , Venkatesh Elango , Vicente Ordonez , Victor Soto , Vignesh Radhakrishnan , Vihang Patel , Vikram Singh , Vinay Varma Kolanuvada , Vinayshekhar Bannihatti Kumar , Vincent Auvray , Vincent Cartillier , Vincent Ponzo , Violet Peng , Vishal Khandelwal , Vishal Naik , Vishvesh Sahasrabudhe , Vitaliy Korolev , Vivek Gokuladas , Vivek Madan , Vivek Subramanian , Volkan Cevher , Vrinda Gupta , Wael Hamza , Wei Zhang , Weitong Ruan , Weiwei Cheng , Wen Zhang , Wenbo Zhao , Wenyan Yao , Wenzhuo Ouyang , Wesley Dashner , William Campbell , William Lin , Willian Martin , Wyatt Pearson , Xiang Jiang , Xiangxing Lu , Xiangyang Shi , Xianwen Peng , Xiaofeng Gao , Xiaoge Jiang , Xiaohan Fei , Xiaohui Wang , Xiaozhou Joey Zhou , Xin Feng , Xinyan Zhao , Xinyao Wang , Xinyu Li , Xu Zhang , Xuan Wang , Xuandi Fu , Xueling Yuan , Xuning Wang , Yadunandana Rao , Yair Tavizon , Yan Rossiytsev , Yanbei Chen , Yang Liu , Yang Zou , Yangsook Park , Yannick Versley , Yanyan Zhang , Yash Patel , Yen-Cheng Lu , Yi Pan , Yi-Hsiang , Lai , Yichen Hu , Yida Wang , Yiheng Zhou , Yilin Xiang , Ying Shi , Ying Wang , Yishai Galatzer , Yongxin Wang , Yorick Shen , Yuchen Sun , Yudi Purwatama , Yue , Wu , Yue Gu , Yuechun Wang , Yujun Zeng , Yuncong Chen , Yunke Zhou , Yusheng Xie , Yvon Guy , Zbigniew Ambrozinski , Zhaowei Cai , Zhen Zhang , Zheng Wang , Zhenghui Jin , Zhewei Zhao , Zhiheng Li , Zhiheng Luo , Zhikang Zhang , Zhilin Fang , Zhiqi Bu , Zhiyuan Wang , Zhizhong Li , Zijian Wang , Zimeng , Qiu , Zishi Li

Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity

This paper presents novel benchmarks for evaluating vision-language models (VLMs) in zero-shot recognition, focusing on granularity and specificity. Although VLMs excel in tasks like image captioning, they face challenges in open-world…

Computer Vision and Pattern Recognition · Computer Science 2024-06-19 Zhenlin Xu , Yi Zhu , Tiffany Deng , Abhay Mittal , Yanbei Chen , Manchen Wang , Paolo Favaro , Joseph Tighe , Davide Modolo

Self-Supervised Multi-Object Tracking with Path Consistency

In this paper, we propose a novel concept of path consistency to learn robust object matching without using manual object identity supervision. Our key idea is that, to track a object through frames, we can obtain multiple different…

Computer Vision and Pattern Recognition · Computer Science 2024-04-09 Zijia Lu , Bing Shuai , Yanbei Chen , Zhenlin Xu , Davide Modolo

Hyperbolic Learning with Synthetic Captions for Open-World Detection

Open-world detection poses significant challenges, as it requires the detection of any object using either object class labels or free-form texts. Existing related works often use large-scale manual annotated caption datasets for training,…

Computer Vision and Pattern Recognition · Computer Science 2024-04-09 Fanjie Kong , Yanbei Chen , Jiarui Cai , Davide Modolo

Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts

We present a vision-language model whose parameters are jointly trained on all tasks and fully shared among multiple heterogeneous tasks which may interfere with each other, resulting in a single model which we named Musketeer. The…

Computer Vision and Pattern Recognition · Computer Science 2024-03-18 Zhaoyang Zhang , Yantao Shen , Kunyu Shi , Zhaowei Cai , Jun Fang , Siqi Deng , Hao Yang , Davide Modolo , Zhuowen Tu , Stefano Soatto

Early Action Recognition with Action Prototypes

Early action recognition is an important and challenging problem that enables the recognition of an action from a partially observed video stream where the activity is potentially unfinished or even not started. In this work, we propose a…

Computer Vision and Pattern Recognition · Computer Science 2023-12-12 Guglielmo Camporese , Alessandro Bergamo , Xunyu Lin , Joseph Tighe , Davide Modolo

SemiGPC: Distribution-Aware Label Refinement for Imbalanced Semi-Supervised Learning Using Gaussian Processes

In this paper we introduce SemiGPC, a distribution-aware label refinement strategy based on Gaussian Processes where the predictions of the model are derived from the labels posterior distribution. Differently from other buffer-based…

Computer Vision and Pattern Recognition · Computer Science 2023-11-06 Abdelhak Lemkhenter , Manchen Wang , Luca Zancato , Gurumurthy Swaminathan , Paolo Favaro , Davide Modolo

Denoising and Selecting Pseudo-Heatmaps for Semi-Supervised Human Pose Estimation

We propose a new semi-supervised learning design for human pose estimation that revisits the popular dual-student framework and enhances it two ways. First, we introduce a denoising scheme to generate reliable pseudo-heatmaps as targets for…

Computer Vision and Pattern Recognition · Computer Science 2023-10-03 Zhuoran Yu , Manchen Wang , Yanbei Chen , Paolo Favaro , Davide Modolo

SkeleTR: Towrads Skeleton-based Action Recognition in the Wild

We present SkeleTR, a new framework for skeleton-based action recognition. In contrast to prior work, which focuses mainly on controlled environments, we target more general scenarios that typically involve a variable number of people and…

Computer Vision and Pattern Recognition · Computer Science 2023-09-21 Haodong Duan , Mingze Xu , Bing Shuai , Davide Modolo , Zhuowen Tu , Joseph Tighe , Alessandro Bergamo

ScaleDet: A Scalable Multi-Dataset Object Detector

Multi-dataset training provides a viable solution for exploiting heterogeneous large-scale datasets without extra annotation cost. In this work, we propose a scalable multi-dataset detector (ScaleDet) that can scale up its generalization…

Computer Vision and Pattern Recognition · Computer Science 2023-06-09 Yanbei Chen , Manchen Wang , Abhay Mittal , Zhenlin Xu , Paolo Favaro , Joseph Tighe , Davide Modolo

Semi-supervised Vision Transformers at Scale

We study semi-supervised learning (SSL) for vision transformers (ViT), an under-explored topic despite the wide adoption of the ViT architectures to different tasks. To tackle this problem, we propose a new SSL pipeline, consisting of first…

Computer Vision and Pattern Recognition · Computer Science 2022-08-12 Zhaowei Cai , Avinash Ravichandran , Paolo Favaro , Manchen Wang , Davide Modolo , Rahul Bhotika , Zhuowen Tu , Stefano Soatto

MaCLR: Motion-aware Contrastive Learning of Representations for Videos

We present MaCLR, a novel method to explicitly perform cross-modal self-supervised video representations learning from visual and motion modalities. Compared to previous video representation learning methods that mostly focus on learning…

Computer Vision and Pattern Recognition · Computer Science 2022-07-21 Fanyi Xiao , Joseph Tighe , Davide Modolo

What to look at and where: Semantic and Spatial Refined Transformer for detecting human-object interactions

We propose a novel one-stage Transformer-based semantic and spatial refined transformer (SSRT) to solve the Human-Object Interaction detection task, which requires to localize humans and objects, and predicts their interactions. Differently…

Computer Vision and Pattern Recognition · Computer Science 2022-05-27 A S M Iftekhar , Hao Chen , Kaustav Kundu , Xinyu Li , Joseph Tighe , Davide Modolo

SCVRL: Shuffled Contrastive Video Representation Learning

We propose SCVRL, a novel contrastive-based framework for self-supervised learning for videos. Differently from previous contrast learning based methods that mostly focus on learning visual semantics (e.g., CVRL), SCVRL is capable of…

Computer Vision and Pattern Recognition · Computer Science 2022-05-25 Michael Dorkenwald , Fanyi Xiao , Biagio Brattoli , Joseph Tighe , Davide Modolo

TubeR: Tubelet Transformer for Video Action Detection

We propose TubeR: a simple solution for spatio-temporal video action detection. Different from existing methods that depend on either an off-line actor detector or hand-designed actor-positional hypotheses like proposals or anchors, we…

Computer Vision and Pattern Recognition · Computer Science 2022-05-11 Jiaojiao Zhao , Yanyi Zhang , Xinyu Li , Hao Chen , Shuai Bing , Mingze Xu , Chunhui Liu , Kaustav Kundu , Yuanjun Xiong , Davide Modolo , Ivan Marsic , Cees G. M. Snoek , Joseph Tighe

Hierarchical Self-supervised Representation Learning for Movie Understanding

Most self-supervised video representation learning approaches focus on action recognition. In contrast, in this paper we focus on self-supervised video learning for movie understanding and propose a novel hierarchical self-supervised…

Computer Vision and Pattern Recognition · Computer Science 2022-04-08 Fanyi Xiao , Kaustav Kundu , Joseph Tighe , Davide Modolo