Step-GUI Technical Report

Haolong Yan; Jia Wang; Xin Huang; Yeqing Shen; Ziyang Meng; Zhimin Fan; Kaijun Tan; Jin Gao; Lieyu Shi; Mi Yang; Shiliang Yang; Zhirui Wang; Brian Li; Kang An; Chenyang Li; Lei Lei; Mengmeng Duan; Danxun Liang; Guodong Liu; Hang Cheng; Hao Wu; Jie Dong; Junhao Huang; Mei Chen; Renjie Yu; Shunshan Li; Xu Zhou; Yiting Dai; Yineng Deng; Yingdan Liang; Zelin Chen; Wen Sun; Chengxu Yan; Chunqin Xu; Dong Li; Fengqiong Xiao; Guanghao Fan; Guopeng Li; Guozhen Peng; Hongbing Li; Hang Li; Hongming Chen; Jingjing Xie; Jianyong Li; Jingyang Zhang; Jiaju Ren; Jiayu Yuan; Jianpeng Yin; Kai Cao; Liang Zhao

Step-GUI Technical Report

Computer Vision and Pattern Recognition 2025-12-22 v2

Authors: Haolong Yan , Jia Wang , Xin Huang , Yeqing Shen , Ziyang Meng , Zhimin Fan , Kaijun Tan , Jin Gao , Lieyu Shi , Mi Yang , Shiliang Yang , Zhirui Wang , Brian Li , Kang An , Chenyang Li , Lei Lei , Mengmeng Duan , Danxun Liang , Guodong Liu , Hang Cheng , Hao Wu , Jie Dong , Junhao Huang , Mei Chen , Renjie Yu , Shunshan Li , Xu Zhou , Yiting Dai , Yineng Deng , Yingdan Liang , Zelin Chen , Wen Sun , Chengxu Yan , Chunqin Xu , Dong Li , Fengqiong Xiao , Guanghao Fan , Guopeng Li , Guozhen Peng , Hongbing Li , Hang Li , Hongming Chen , Jingjing Xie , Jianyong Li , Jingyang Zhang , Jiaju Ren , Jiayu Yuan , Jianpeng Yin , Kai Cao , Liang Zhao , Liguo Tan , Liying Shi , Mengqiang Ren , Min Xu , Manjiao Liu , Mao Luo , Mingxin Wan , Na Wang , Nan Wu , Ning Wang , Peiyao Ma , Qingzhou Zhang , Qiao Wang , Qinlin Zeng , Qiong Gao , Qiongyao Li , Shangwu Zhong , Shuli Gao , Shaofan Liu , Shisi Gao , Shuang Luo , Xingbin Liu , Xiaojia Liu , Xiaojie Hou , Xin Liu , Xuanti Feng , Xuedan Cai , Xuan Wen , Xianwei Zhu , Xin Liang , Xin Liu , Xin Zhou , Yifan Sui , Yingxiu Zhao , Yukang Shi , Yunfang Xu , Yuqing Zeng , Yixun Zhang , Zejia Weng , Zhonghao Yan , Zhiguo Huang , Zhuoyu Wang , Zihan Yan , Zheng Ge , Jing Li , Yibo Zhu , Binxing Jiao , Xiangyu Zhang , Daxin Jiang

View on arXiv ↗ PDF ↗

Abstract

Recent advances in multimodal large language models unlock unprecedented opportunities for GUI automation. However, a fundamental challenge remains: how to efficiently acquire high-quality training data while maintaining annotation reliability? We introduce a self-evolving training pipeline powered by the Calibrated Step Reward System, which converts model-generated trajectories into reliable training signals through trajectory-level calibration, achieving >90% annotation accuracy with 10-100x lower cost. Leveraging this pipeline, we introduce Step-GUI, a family of models (4B/8B) that achieves state-of-the-art GUI performance (8B: 80.2% AndroidWorld, 48.5% OSWorld, 62.6% ScreenShot-Pro) while maintaining robust general capabilities. As GUI agent capabilities improve, practical deployment demands standardized interfaces across heterogeneous devices while protecting user privacy. To this end, we propose GUI-MCP, the first Model Context Protocol for GUI automation with hierarchical architecture that combines low-level atomic operations and high-level task delegation to local specialist models, enabling high-privacy execution where sensitive data stays on-device. Finally, to assess whether agents can handle authentic everyday usage, we introduce AndroidDaily, a benchmark grounded in real-world mobile usage patterns with 3146 static actions and 235 end-to-end tasks across high-frequency daily scenarios (8B: static 89.91%, end-to-end 52.50%). Our work advances the development of practical GUI agents and demonstrates strong potential for real-world deployment in everyday digital interactions.

Keywords

graphical user interface

Cite

@article{arxiv.2512.15431,
  title  = {Step-GUI Technical Report},
  author = {Haolong Yan and Jia Wang and Xin Huang and Yeqing Shen and Ziyang Meng and Zhimin Fan and Kaijun Tan and Jin Gao and Lieyu Shi and Mi Yang and Shiliang Yang and Zhirui Wang and Brian Li and Kang An and Chenyang Li and Lei Lei and Mengmeng Duan and Danxun Liang and Guodong Liu and Hang Cheng and Hao Wu and Jie Dong and Junhao Huang and Mei Chen and Renjie Yu and Shunshan Li and Xu Zhou and Yiting Dai and Yineng Deng and Yingdan Liang and Zelin Chen and Wen Sun and Chengxu Yan and Chunqin Xu and Dong Li and Fengqiong Xiao and Guanghao Fan and Guopeng Li and Guozhen Peng and Hongbing Li and Hang Li and Hongming Chen and Jingjing Xie and Jianyong Li and Jingyang Zhang and Jiaju Ren and Jiayu Yuan and Jianpeng Yin and Kai Cao and Liang Zhao and Liguo Tan and Liying Shi and Mengqiang Ren and Min Xu and Manjiao Liu and Mao Luo and Mingxin Wan and Na Wang and Nan Wu and Ning Wang and Peiyao Ma and Qingzhou Zhang and Qiao Wang and Qinlin Zeng and Qiong Gao and Qiongyao Li and Shangwu Zhong and Shuli Gao and Shaofan Liu and Shisi Gao and Shuang Luo and Xingbin Liu and Xiaojia Liu and Xiaojie Hou and Xin Liu and Xuanti Feng and Xuedan Cai and Xuan Wen and Xianwei Zhu and Xin Liang and Xin Liu and Xin Zhou and Yifan Sui and Yingxiu Zhao and Yukang Shi and Yunfang Xu and Yuqing Zeng and Yixun Zhang and Zejia Weng and Zhonghao Yan and Zhiguo Huang and Zhuoyu Wang and Zihan Yan and Zheng Ge and Jing Li and Yibo Zhu and Binxing Jiao and Xiangyu Zhang and Daxin Jiang},
  journal= {arXiv preprint arXiv:2512.15431},
  year   = {2025}
}

Comments

41 pages, 26 figures

Step-GUI Technical Report

Abstract

Keywords

Cite

Comments

Related papers