KAT-Coder Technical Report

Zizheng Zhan; Ken Deng; Jinghui Wang; Xiaojiang Zhang; Huaixi Tang; Minglei Zhang; Zhiyi Lai; Haoyang Huang; Wen Xiang; Kun Wu; Wenhao Zhuang; Shaojie Wang; Shangpeng Yan; Kepeng Lei; Zongxian Feng; Huiming Wang; Zheng Lin; Mengtong Li; Mengfei Xie; Yinghan Cui; Xuxing Chen; Chao Wang; Weihao Li; Wenqiang Zhu; Jiarong Zhang; Jingxuan Xu; Songwei Yu; Yifan Yao; Xinping Lei; C. Zhang; Han Li; Junqi Xiong; Zuchen Gao; Dailin Li; Haimo Li; Jiaheng Liu; Yuqun Zhang; Junyi Peng; Haotian Zhang; Bin Chen

KAT-Coder Technical Report

Computation and Language 2025-11-03 v3

Authors: Zizheng Zhan , Ken Deng , Jinghui Wang , Xiaojiang Zhang , Huaixi Tang , Minglei Zhang , Zhiyi Lai , Haoyang Huang , Wen Xiang , Kun Wu , Wenhao Zhuang , Shaojie Wang , Shangpeng Yan , Kepeng Lei , Zongxian Feng , Huiming Wang , Zheng Lin , Mengtong Li , Mengfei Xie , Yinghan Cui , Xuxing Chen , Chao Wang , Weihao Li , Wenqiang Zhu , Jiarong Zhang , Jingxuan Xu , Songwei Yu , Yifan Yao , Xinping Lei , C. Zhang , Han Li , Junqi Xiong , Zuchen Gao , Dailin Li , Haimo Li , Jiaheng Liu , Yuqun Zhang , Junyi Peng , Haotian Zhang , Bin Chen

View on arXiv ↗ PDF ↗

Abstract

Recent advances in large language models (LLMs) have enabled progress in agentic coding, where models autonomously reason, plan, and act within interactive software development workflows. However, bridging the gap between static text-based training and dynamic real-world agentic execution remains a core challenge. In this technical report, we present KAT-Coder, a large-scale agentic code model trained through a multi-stage curriculum encompassing Mid-Term Training, Supervised Fine-Tuning (SFT), Reinforcement Fine-Tuning (RFT), and Reinforcement-to-Deployment Adaptation. The Mid-Term stage enhances reasoning, planning, and reflection capabilities through a corpus of real software engineering data and synthetic agentic interactions. The SFT stage constructs a million-sample dataset balancing twenty programming languages, ten development contexts, and ten task archetypes. The RFT stage introduces a novel multi-ground-truth reward formulation for stable and sample-efficient policy optimization. Finally, the Reinforcement-to-Deployment phase adapts the model to production-grade IDE environments using Error-Masked SFT and Tree-Structured Trajectory Training. In summary, these stages enable KAT-Coder to achieve robust tool-use reliability, instruction alignment, and long-context reasoning, forming a deployable foundation for real-world intelligent coding agents. Our KAT series 32B model, KAT-Dev, has been open-sourced on https://huggingface.co/Kwaipilot/KAT-Dev.

Keywords

multi-agent systems multi-agent reasoning llm agents

Cite

@article{arxiv.2510.18779,
  title  = {KAT-Coder Technical Report},
  author = {Zizheng Zhan and Ken Deng and Jinghui Wang and Xiaojiang Zhang and Huaixi Tang and Minglei Zhang and Zhiyi Lai and Haoyang Huang and Wen Xiang and Kun Wu and Wenhao Zhuang and Shaojie Wang and Shangpeng Yan and Kepeng Lei and Zongxian Feng and Huiming Wang and Zheng Lin and Mengtong Li and Mengfei Xie and Yinghan Cui and Xuxing Chen and Chao Wang and Weihao Li and Wenqiang Zhu and Jiarong Zhang and Jingxuan Xu and Songwei Yu and Yifan Yao and Xinping Lei and C. Zhang and Han Li and Junqi Xiong and Zuchen Gao and Dailin Li and Haimo Li and Jiaheng Liu and Yuqun Zhang and Junyi Peng and Haotian Zhang and Bin Chen},
  journal= {arXiv preprint arXiv:2510.18779},
  year   = {2025}
}

KAT-Coder Technical Report

Abstract

Keywords

Cite

Related papers