Related papers: Exploring Vision Transformers for Fine-grained Cla…

Conviformers: Convolutionally guided Vision Transformer

Vision transformers are nowadays the de-facto choice for image classification tasks. There are two broad categories of classification tasks, fine-grained and coarse-grained. In fine-grained classification, the necessity is to discover…

Computer Vision and Pattern Recognition · Computer Science 2022-08-31 Mohit Vaishnav , Thomas Fel , Ivań Felipe Rodríguez , Thomas Serre

ViT-FOD: A Vision Transformer based Fine-grained Object Discriminator

Recently, several Vision Transformer (ViT) based methods have been proposed for Fine-Grained Visual Classification (FGVC).These methods significantly surpass existing CNN-based ones, demonstrating the effectiveness of ViT in FGVC…

Computer Vision and Pattern Recognition · Computer Science 2022-03-25 Zi-Chao Zhang , Zhen-Duo Chen , Yongxin Wang , Xin Luo , Xin-Shun Xu

Feature Fusion Vision Transformer for Fine-Grained Visual Categorization

The core for tackling the fine-grained visual categorization (FGVC) is to learn subtle yet discriminative features. Most previous works achieve this by explicitly selecting the discriminative parts or integrating the attention mechanism via…

Computer Vision and Pattern Recognition · Computer Science 2022-03-02 Jun Wang , Xiaohan Yu , Yongsheng Gao

Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers

Fine-grained classification is a challenging task that involves identifying subtle differences between objects within the same category. This task is particularly challenging in scenarios where data is scarce. Visual transformers (ViT) have…

Computer Vision and Pattern Recognition · Computer Science 2023-05-18 Manuel Lagunas , Brayan Impata , Victor Martinez , Virginia Fernandez , Christos Georgakis , Sofia Braun , Felipe Bertrand

Vision Transformers are Robust Learners

Transformers, composed of multiple self-attention layers, hold strong promises toward a generic learning primitive applicable to different data modalities, including the recent breakthroughs in computer vision achieving state-of-the-art…

Computer Vision and Pattern Recognition · Computer Science 2021-12-07 Sayak Paul , Pin-Yu Chen

TransFG: A Transformer Architecture for Fine-grained Recognition

Fine-grained visual classification (FGVC) which aims at recognizing objects from subcategories is a very challenging task due to the inherently subtle inter-class differences. Most existing works mainly tackle this problem by reusing the…

Computer Vision and Pattern Recognition · Computer Science 2021-12-03 Ju He , Jie-Neng Chen , Shuai Liu , Adam Kortylewski , Cheng Yang , Yutong Bai , Changhu Wang

Interpretable Vision Transformers in Image Classification via SVDA

Vision Transformers (ViTs) have achieved state-of-the-art performance in image classification, yet their attention mechanisms often remain opaque and exhibit dense, non-structured behaviors. In this work, we adapt our previously proposed…

Computer Vision and Pattern Recognition · Computer Science 2026-02-12 Vasileios Arampatzakis , George Pavlidis , Nikolaos Mitianoudis , Nikos Papamarkos

Salient Mask-Guided Vision Transformer for Fine-Grained Classification

Fine-grained visual classification (FGVC) is a challenging computer vision problem, where the task is to automatically recognise objects from subordinate categories. One of its main difficulties is capturing the most discriminative…

Computer Vision and Pattern Recognition · Computer Science 2024-01-03 Dmitry Demidov , Muhammad Hamza Sharif , Aliakbar Abdurahimov , Hisham Cholakkal , Fahad Shahbaz Khan

Data Augmentation Vision Transformer for Fine-grained Image Classification

Recently, the vision transformer (ViT) has made breakthroughs in image recognition. Its self-attention mechanism (MSA) can extract discriminative labeling information of different pixel blocks to improve image classification accuracy.…

Computer Vision and Pattern Recognition · Computer Science 2022-11-28 Chao Hu , Liqiang Zhu , Weibin Qiu , Weijie Wu

GFT: Gradient Focal Transformer

Fine-Grained Image Classification (FGIC) remains a complex task in computer vision, as it requires models to distinguish between categories with subtle localized visual differences. Well-studied CNN-based models, while strong in local…

Computer Vision and Pattern Recognition · Computer Science 2025-04-15 Boris Kriuk , Simranjit Kaur Gill , Shoaib Aslam , Amir Fakhrutdinov

Attention Guided CAM: Visual Explanations of Vision Transformer Guided by Self-Attention

Vision Transformer(ViT) is one of the most widely used models in the computer vision field with its great performance on various tasks. In order to fully utilize the ViT-based architecture in various applications, proper visualization…

Computer Vision and Pattern Recognition · Computer Science 2024-02-08 Saebom Leem , Hyunseok Seo

Proximal Vision Transformer: Enhancing Feature Representation through Two-Stage Manifold Geometry

The Vision Transformer (ViT) architecture has become widely recognized in computer vision, leveraging its self-attention mechanism to achieve remarkable success across various tasks. Despite its strengths, ViT's optimization remains…

Computer Vision and Pattern Recognition · Computer Science 2025-08-26 Haoyu Yun , Hamid Krim

ViT-V-Net: Vision Transformer for Unsupervised Volumetric Medical Image Registration

In the last decade, convolutional neural networks (ConvNets) have dominated and achieved state-of-the-art performances in a variety of medical imaging applications. However, the performances of ConvNets are still limited by lacking the…

Image and Video Processing · Electrical Eng. & Systems 2021-04-15 Junyu Chen , Yufan He , Eric C. Frey , Ye Li , Yong Du

CF-ViT: A General Coarse-to-Fine Method for Vision Transformer

Vision Transformers (ViT) have made many breakthroughs in computer vision tasks. However, considerable redundancy arises in the spatial dimension of an input image, leading to massive computational costs. Therefore, We propose a…

Computer Vision and Pattern Recognition · Computer Science 2022-11-22 Mengzhao Chen , Mingbao Lin , Ke Li , Yunhang Shen , Yongjian Wu , Fei Chao , Rongrong Ji

A free lunch from ViT:Adaptive Attention Multi-scale Fusion Transformer for Fine-grained Visual Recognition

Learning subtle representation about object parts plays a vital role in fine-grained visual recognition (FGVR) field. The vision transformer (ViT) achieves promising results on computer vision due to its attention mechanism. Nonetheless,…

Computer Vision and Pattern Recognition · Computer Science 2021-10-12 Yuan Zhang , Jian Cao , Ling Zhang , Xiangcheng Liu , Zhiyi Wang , Feng Ling , Weiqian Chen

A Novel Vision Transformer with Residual in Self-attention for Biomedical Image Classification

Biomedical image classification requires capturing of bio-informatics based on specific feature distribution. In most of such applications, there are mainly challenges due to limited availability of samples for diseased cases and imbalanced…

Computer Vision and Pattern Recognition · Computer Science 2025-10-23 Arun K. Sharma , Nishchal K. Verma

A Simple Single-Scale Vision Transformer for Object Localization and Instance Segmentation

This work presents a simple vision transformer design as a strong baseline for object localization and instance segmentation tasks. Transformers recently demonstrate competitive performance in image classification tasks. To adopt ViT to…

Computer Vision and Pattern Recognition · Computer Science 2022-10-04 Wuyang Chen , Xianzhi Du , Fan Yang , Lucas Beyer , Xiaohua Zhai , Tsung-Yi Lin , Huizhong Chen , Jing Li , Xiaodan Song , Zhangyang Wang , Denny Zhou

Dynamic Granularity Matters: Rethinking Vision Transformers Beyond Fixed Patch Splitting

Vision Transformers (ViTs) have demonstrated strong capabilities in capturing global dependencies but often struggle to efficiently represent fine-grained local details. Existing multi-scale approaches alleviate this issue by integrating…

Computer Vision and Pattern Recognition · Computer Science 2025-11-25 Qiyang Yu , Yu Fang , Tianrui Li , Xuemei Cao , Yan Chen , Jianghao Li , Fan Min

A survey on efficient vision transformers: algorithms, techniques, and performance benchmarking

Vision Transformer (ViT) architectures are becoming increasingly popular and widely employed to tackle computer vision applications. Their main feature is the capacity to extract global information through the self-attention mechanism,…

Computer Vision and Pattern Recognition · Computer Science 2024-05-06 Lorenzo Papa , Paolo Russo , Irene Amerini , Luping Zhou

Sub-token ViT Embedding via Stochastic Resonance Transformers

Vision Transformer (ViT) architectures represent images as collections of high-dimensional vectorized tokens, each corresponding to a rectangular non-overlapping patch. This representation trades spatial granularity for embedding…

Computer Vision and Pattern Recognition · Computer Science 2024-05-08 Dong Lao , Yangchao Wu , Tian Yu Liu , Alex Wong , Stefano Soatto