Related papers: Accelerating Diffusion Transformer via Error-Optim…

Accelerating Diffusion Transformer via Gradient-Optimized Cache

Feature caching has emerged as an effective strategy to accelerate diffusion transformer (DiT) sampling through temporal feature reuse. It is a challenging problem since (1) Progressive error accumulation from cached blocks significantly…

Computer Vision and Pattern Recognition · Computer Science 2025-07-21 Junxiang Qiu , Lin Liu , Shuo Wang , Jinda Lu , Kezhou Chen , Yanbin Hao

FORA: Fast-Forward Caching in Diffusion Transformer Acceleration

Diffusion transformers (DiT) have become the de facto choice for generating high-quality images and videos, largely due to their scalability, which enables the construction of larger models for enhanced performance. However, the increased…

Computer Vision and Pattern Recognition · Computer Science 2024-07-02 Pratheba Selvaraju , Tianyu Ding , Tianyi Chen , Ilya Zharkov , Luming Liang

AdaCorrection: Adaptive Offset Cache Correction for Accurate Diffusion Transformers

Diffusion Transformers (DiTs) achieve state-of-the-art performance in high-fidelity image and video generation but suffer from expensive inference due to their iterative denoising structure. While prior methods accelerate sampling by…

Computer Vision and Pattern Recognition · Computer Science 2026-05-11 Dong Liu , Yanxuan Yu , Ben Lengerich , Ying Nian Wu

Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition

Diffusion transformer (DiT) models have achieved remarkable success in image generation, thanks for their exceptional generative capabilities and scalability. Nonetheless, the iterative nature of diffusion models (DMs) results in high…

Computer Vision and Pattern Recognition · Computer Science 2025-05-12 Zhiyuan Chen , Keyi Li , Yifan Jia , Le Ye , Yufei Ma

Forecast then Calibrate: Feature Caching as ODE for Efficient Diffusion Transformers

Diffusion Transformers (DiTs) have demonstrated exceptional performance in high-fidelity image and video generation. To reduce their substantial computational costs, feature caching techniques have been proposed to accelerate inference by…

Computer Vision and Pattern Recognition · Computer Science 2025-08-25 Shikang Zheng , Liang Feng , Xinyu Wang , Qinming Zhou , Peiliang Cai , Chang Zou , Jiacheng Liu , Yuqi Lin , Junjie Chen , Yue Ma , Linfeng Zhang

$\Delta$-DiT: A Training-Free Acceleration Method Tailored for Diffusion Transformers

Diffusion models are widely recognized for generating high-quality and diverse images, but their poor real-time performance has led to numerous acceleration works, primarily focusing on UNet-based structures. With the more successful…

Computer Vision and Pattern Recognition · Computer Science 2024-06-04 Pengtao Chen , Mingzhu Shen , Peng Ye , Jianjian Cao , Chongjun Tu , Christos-Savvas Bouganis , Yiren Zhao , Tao Chen

FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation

Diffusion Transformers (DiT) are powerful generative models but remain computationally intensive due to their iterative structure and deep transformer stacks. To alleviate this inefficiency, we propose \textbf{FastCache}, a…

Machine Learning · Computer Science 2026-03-30 Dong Liu , Yanxuan Yu , Jiayi Zhang , Yifan Li , Ben Lengerich , Ying Nian Wu

ProCache: Constraint-Aware Feature Caching with Selective Computation for Diffusion Transformer Acceleration

Diffusion Transformers (DiTs) have achieved state-of-the-art performance in generative modeling, yet their high computational cost hinders real-time deployment. While feature caching offers a promising training-free acceleration solution by…

Computer Vision and Pattern Recognition · Computer Science 2026-02-16 Fanpu Cao , Yaofo Chen , Zeng You , Wei Luo

Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers

Diffusion Transformers (DiTs) have emerged as the dominant architecture for high-quality image and video generation, yet their iterative denoising process incurs substantial computational cost during inference. Existing caching methods…

Computer Vision and Pattern Recognition · Computer Science 2026-03-06 Guandong Li

FEB-Cache: Frequency-Guided Exposure Bias Reduction for Enhancing Diffusion Transformer Caching

Diffusion Transformer (DiT) has exhibited impressive generation capabilities but faces great challenges due to its high computational complexity. To address this issue, various methods, notably feature caching, have been introduced.…

Computer Vision and Pattern Recognition · Computer Science 2025-10-07 Zhen Zou , Feng Zhao

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

Although Diffusion Transformer (DiT) has emerged as a predominant architecture for image and video generation, its iterative denoising process results in slow inference, which hinders broader applicability and development. Caching-based…

Computer Vision and Pattern Recognition · Computer Science 2026-03-03 Tong Shao , Yusen Fu , Guoying Sun , Jingde Kong , Zhuotao Tian , Jingyong Su

Forecasting When to Forecast: Accelerating Diffusion Models with Confidence-Gated Taylor

Diffusion Transformers (DiTs) have demonstrated remarkable performance in visual generation tasks. However, their low inference speed limits their deployment in low-resource applications. Recent training-free approaches exploit the…

Computer Vision and Pattern Recognition · Computer Science 2025-11-11 Xiaoliu Guan , Lielin Jiang , Hanqi Chen , Xu Zhang , Jiaxing Yan , Guanzhong Wang , Yi Liu , Zetao Zhang , Yu Wu

Adaptive Caching for Faster Video Generation with Diffusion Transformers

Generating temporally-consistent high-fidelity videos can be computationally expensive, especially over longer temporal spans. More-recent Diffusion Transformers (DiTs) -- despite making significant headway in this context -- have only…

Computer Vision and Pattern Recognition · Computer Science 2024-11-08 Kumara Kahatapitiya , Haozhe Liu , Sen He , Ding Liu , Menglin Jia , Chenyang Zhang , Michael S. Ryoo , Tian Xie

Dynamic Diffusion Transformer

Diffusion Transformer (DiT), an emerging diffusion model for image generation, has demonstrated superior performance but suffers from substantial computational costs. Our investigations reveal that these costs stem from the static inference…

Computer Vision and Pattern Recognition · Computer Science 2024-10-10 Wangbo Zhao , Yizeng Han , Jiasheng Tang , Kai Wang , Yibing Song , Gao Huang , Fan Wang , Yang You

Elastic Diffusion Transformer

Diffusion Transformers (DiT) have demonstrated remarkable generative capabilities but remain highly computationally expensive. Previous acceleration methods, such as pruning and distillation, typically rely on a fixed computational…

Computer Vision and Pattern Recognition · Computer Science 2026-02-17 Jiangshan Wang , Zeqiang Lai , Jiarui Chen , Jiayi Guo , Hang Guo , Xiu Li , Xiangyu Yue , Chunchao Guo

HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration

Diffusion Transformers (DiTs) excel in generative tasks but face practical deployment challenges due to high inference costs. Feature caching, which stores and retrieves redundant computations, offers the potential for acceleration.…

Computer Vision and Pattern Recognition · Computer Science 2025-06-03 Yushi Huang , Zining Wang , Ruihao Gong , Jing Liu , Xinjie Zhang , Jinyang Guo , Xianglong Liu , Jun Zhang

Adaptive Hybrid Caching for Efficient Text-to-Video Diffusion Model Acceleration

Efficient video generation models are increasingly vital for multimedia synthetic content generation. Leveraging the Transformer architecture and the diffusion process, video DiT models have emerged as a dominant approach for high-quality…

Graphics · Computer Science 2026-02-27 Yuanxin Wei , Lansong Diao , Bujiao Chen , Shenggan Cheng , Zhengping Qian , Wenyuan Yu , Nong Xiao , Wei Lin , Jiangsu Du

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

Diffusion-based image generation models excel at producing high-quality synthetic content, but suffer from slow and computationally expensive inference. Prior work has attempted to mitigate this by caching and reusing features within…

Computer Vision and Pattern Recognition · Computer Science 2026-03-04 Anirud Aggarwal , Abhinav Shrivastava , Matthew Gwilliam

OUSAC: Optimized Guidance Scheduling with Adaptive Caching for DiT Acceleration

Diffusion models have emerged as the dominant paradigm for high-quality image generation, yet their computational expense remains substantial due to iterative denoising. Classifier-Free Guidance (CFG) significantly enhances generation…

Computer Vision and Pattern Recognition · Computer Science 2025-12-17 Ruitong Sun , Tianze Yang , Wei Niu , Jin Sun

Taming Diffusion Transformer for Efficient Mobile Video Generation in Seconds

Diffusion Transformers (DiT) have shown strong performance in video generation tasks, but their high computational cost makes them impractical for resource-constrained devices like smartphones, and practical on-device generation is even…

Computer Vision and Pattern Recognition · Computer Science 2025-10-01 Yushu Wu , Yanyu Li , Anil Kag , Ivan Skorokhodov , Willi Menapace , Ke Ma , Arpit Sahni , Ju Hu , Aliaksandr Siarohin , Dhritiman Sagar , Yanzhi Wang , Sergey Tulyakov