Related papers: INTELLECT-1 Technical Report

INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

We introduce INTELLECT-2, the first globally distributed reinforcement learning (RL) training run of a 32 billion parameter language model. Unlike traditional centralized training efforts, INTELLECT-2 trains a reasoning model using fully…

Machine Learning · Computer Science 2025-05-13 Prime Intellect Team , Sami Jaghouar , Justus Mattern , Jack Min Ong , Jannik Straube , Manveer Basra , Aaron Pazdera , Kushal Thaman , Matthew Di Ferrante , Felix Gabriel , Fares Obeid , Kemal Erdem , Michael Keiblinger , Johannes Hagemann

INTELLECT-3: Technical Report

We present INTELLECT-3, a 106B-parameter Mixture-of-Experts model (12B active) trained with large-scale reinforcement learning on our end-to-end RL infrastructure stack. INTELLECT-3 achieves state of the art performance for its size across…

Machine Learning · Computer Science 2025-12-19 Prime Intellect Team , Mika Senghaas , Fares Obeid , Sami Jaghouar , William Brown , Jack Min Ong , Daniel Auras , Matej Sirovatka , Jannik Straube , Andrew Baker , Sebastian Müller , Justus Mattern , Manveer Basra , Aiman Ismail , Dominik Scherm , Cooper Miller , Ameen Patel , Simon Kirsten , Mario Sieg , Christian Reetz , Kemal Erdem , Vincent Weisser , Johannes Hagemann

Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

We present Ring-1T, the first open-source, state-of-the-art thinking model with a trillion-scale parameter. It features 1 trillion total parameters and activates approximately 50 billion per token. Training such models at a…

Computation and Language · Computer Science 2025-10-28 Ling Team , Anqi Shen , Baihui Li , Bin Hu , Bin Jing , Cai Chen , Chao Huang , Chao Zhang , Chaokun Yang , Cheng Lin , Chengyao Wen , Congqi Li , Deng Zhao , Dingbo Yuan , Donghai You , Fagui Mao , Fanzhuang Meng , Feng Xu , Guojie Li , Guowei Wang , Hao Dai , Haonan Zheng , Hong Liu , Jia Guo , Jiaming Liu , Jian Liu , Jianhao Fu , Jiannan Shi , Jianwen Wang , Jianxin Lai , Jin Yang , Jun Mei , Jun Zhou , Junbo Zhao , Junping Zhao , Kuan Xu , Le Su , Lei Chen , Li Tang , Liang Jiang , Liangcheng Fu , Lianhao Xu , Linfeng Shi , Lisha Liao , Longfei Zheng , Meng Li , Mingchun Chen , Qi Zuo , Qiang Cheng , Qianggang Cao , Qitao Shi , Quanrui Guo , Senlin Zhu , Shaofei Wang , Shaomian Zheng , Shuaicheng Li , Shuwei Gu , Siba Chen , Tao Wu , Tao Zhang , Tianyu Zhang , Tianyu Zhou , Tiwei Bie , Tongkai Yang , Wang Hong , Wang Ren , Weihua Chen , Wenbo Yu , Wengang Zheng , Xiangchun Wang , Xiaodong Yan , Xiaopei Wan , Xin Zhao , Xinyu Kong , Xinyu Tang , Xudong Han , Xudong Wang , Xuemin Yang , Xueyu Hu , Yalin Zhang , Yan Sun , Yicheng Shan , Yilong Wang , Yingying Xu , Yongkang Liu , Yongzhen Guo , Yuanyuan Wang , Yuchen Yan , Yuefan Wang , Yuhong Guo , Zehuan Li , Zhankai Xu , Zhe Li , Zhenduo Zhang , Zhengke Gui , Zhenxuan Pan , Zhenyu Huang , Zhenzhong Lan , Zhiqiang Ding , Zhiqiang Zhang , Zhixun Li , Zhizhen Liu , Zihao Wang , Zujie Wen

Optimizing Distributed Training on Frontier for Large Language Models

Large language models (LLMs) have demonstrated remarkable success as foundational models, benefiting various downstream applications through fine-tuning. Recent studies on loss scaling have demonstrated the superior performance of larger…

Distributed, Parallel, and Cluster Computing · Computer Science 2023-12-25 Sajal Dash , Isaac Lyngaas , Junqi Yin , Xiao Wang , Romain Egele , Guojing Cong , Feiyi Wang , Prasanna Balaprakash

End-to-end Adaptive Distributed Training on PaddlePaddle

Distributed training has become a pervasive and effective approach for training a large neural network (NN) model with processing massive data. However, it is very challenging to satisfy requirements from various NN models, diverse…

Distributed, Parallel, and Cluster Computing · Computer Science 2021-12-07 Yulong Ao , Zhihua Wu , Dianhai Yu , Weibao Gong , Zhiqing Kui , Minxu Zhang , Zilingfeng Ye , Liang Shen , Yanjun Ma , Tian Wu , Haifeng Wang , Wei Zeng , Chao Yang

DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

The distributed training of foundation models, particularly large language models (LLMs), demands a high level of communication. Consequently, it is highly dependent on a centralized cluster with fast and reliable interconnects. Can we…

Machine Learning · Computer Science 2025-06-27 Ji Qi , WenPeng Zhu , Li Li , Ming Wu , YingJun Wu , Wu He , Xun Gao , Jason Zeng , Michael Heinrich

dots.llm1 Technical Report

Mixture of Experts (MoE) models have emerged as a promising paradigm for scaling language models efficiently by activating only a subset of parameters for each input token. In this report, we present dots.llm1, a large-scale MoE model that…

Computation and Language · Computer Science 2025-06-09 Bi Huo , Bin Tu , Cheng Qin , Da Zheng , Debing Zhang , Dongjie Zhang , En Li , Fu Guo , Jian Yao , Jie Lou , Junfeng Tian , Li Hu , Ran Zhu , Shengdong Chen , Shuo Liu , Su Guang , Te Wo , Weijun Zhang , Xiaoming Shi , Xinxin Peng , Xing Wu , Yawen Liu , Yuqiu Ji , Ze Wen , Zhenhai Liu , Zichao Li , Zilong Liao

Decentralized Diffusion Models

Large-scale AI model training divides work across thousands of GPUs, then synchronizes gradients across them at each step. This incurs a significant network burden that only centralized, monolithic clusters can support, driving up…

Computer Vision and Pattern Recognition · Computer Science 2025-01-13 David McAllister , Matthew Tancik , Jiaming Song , Angjoo Kanazawa

Fox-1: Open Small Language Model for Cloud and Edge

We present Fox-1, a series of small language models (SLMs) consisting of Fox-1-1.6B and Fox-1-1.6B-Instruct-v0.1. These models are pre-trained on 3 trillion tokens of web-scraped document data and fine-tuned with 5 billion tokens of…

Computation and Language · Computer Science 2025-04-09 Zijian Hu , Jipeng Zhang , Rui Pan , Zhaozhuo Xu , Shanshan Han , Han Jin , Alay Dilipbhai Shah , Dimitris Stripelis , Yuhang Yao , Salman Avestimehr , Tong Zhang , Chaoyang He

RAPID-LLM: Resilience-Aware Performance analysis of Infrastructure for Distributed LLM Training and Inference

RAPID-LLM is a unified performance modeling framework for large language model (LLM) training and inference on GPU clusters. It couples a DeepFlow-based frontend that generates hardware-aware, operator-level Chakra execution traces from an…

Performance · Computer Science 2025-12-23 George Karfakis , Faraz Tahmasebi , Binglu Chen , Lime Yao , Saptarshi Mitra , Tianyue Pan , Hyoukjun Kwon , Puneet Gupta

Memory- and Latency-Constrained Inference of Large Language Models via Adaptive Split Computing

Large language models (LLMs) have achieved near-human performance across diverse reasoning tasks, yet their deployment on resource-constrained Internet-of-Things (IoT) devices remains impractical due to massive parameter footprints and…

Machine Learning · Computer Science 2025-11-07 Mingyu Sung , Vikas Palakonda , Suhwan Im , Sunghwan Moon , Il-Min Kim , Sangseok Yun , Jae-Mo Kang

Scaling Intelligence: Designing Data Centers for Next-Gen Language Models

The explosive growth of Large Language Models (LLMs), such as GPT-4 with 1.8 trillion parameters, demands a fundamental rethinking of data center architecture to ensure scalability, efficiency, and cost-effectiveness. Our work provides a…

Hardware Architecture · Computer Science 2025-09-09 Jesmin Jahan Tithi , Hanjiang Wu , Avishaii Abuhatzera , Fabrizio Petrini

Training Report of TeleChat3-MoE

TeleChat3-MoE is the latest series of TeleChat large language models, featuring a Mixture-of-Experts (MoE) architecture with parameter counts ranging from 105 billion to over one trillion,trained end-to-end on Ascend NPU cluster. This…

Computation and Language · Computer Science 2026-01-01 Xinzhang Liu , Chao Wang , Zhihao Yang , Zhuo Jiang , Xuncheng Zhao , Haoran Wang , Lei Li , Dongdong He , Luobin Liu , Kaizhe Yuan , Han Gao , Zihan Wang , Yitong Yao , Sishi Xiong , Wenmin Deng , Haowei He , Kaidong Yu , Yu Zhao , Ruiyu Fang , Yuhao Jiang , Yingyan Li , Xiaohui Hu , Xi Yu , Jingqi Li , Yanwei Liu , Qingli Li , Xinyu Shi , Junhao Niu , Chengnuo Huang , Yao Xiao , Ruiwen Wang , Fengkai Li , Luwen Pu , Kaipeng Jia , Fubei Yao , Yuyao Huang , Xuewei He , Zhuoru Jiang , Ruiting Song , Rui Xue , Qiyi Xie , Jie Zhang , Zilu Huang , Zhaoxi Zhang , Zhilong Lu , Yanhan Zhang , Yin Zhang , Yanlei Xue , Zhu Yuan , Teng Su , Xin Jiang , Shuangyong Song , Yongxiang Li , Xuelong Li

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

We introduce MiniMax-M1, the world's first open-weight, large-scale hybrid-attention reasoning model. MiniMax-M1 is powered by a hybrid Mixture-of-Experts (MoE) architecture combined with a lightning attention mechanism. The model is…

Computation and Language · Computer Science 2025-06-17 MiniMax , : , Aili Chen , Aonian Li , Bangwei Gong , Binyang Jiang , Bo Fei , Bo Yang , Boji Shan , Changqing Yu , Chao Wang , Cheng Zhu , Chengjun Xiao , Chengyu Du , Chi Zhang , Chu Qiao , Chunhao Zhang , Chunhui Du , Congchao Guo , Da Chen , Deming Ding , Dianjun Sun , Dong Li , Enwei Jiao , Haigang Zhou , Haimo Zhang , Han Ding , Haohai Sun , Haoyu Feng , Huaiguang Cai , Haichao Zhu , Jian Sun , Jiaqi Zhuang , Jiaren Cai , Jiayuan Song , Jin Zhu , Jingyang Li , Jinhao Tian , Jinli Liu , Junhao Xu , Junjie Yan , Junteng Liu , Junxian He , Kaiyi Feng , Ke Yang , Kecheng Xiao , Le Han , Leyang Wang , Lianfei Yu , Liheng Feng , Lin Li , Lin Zheng , Linge Du , Lingyu Yang , Lunbin Zeng , Minghui Yu , Mingliang Tao , Mingyuan Chi , Mozhi Zhang , Mujie Lin , Nan Hu , Nongyu Di , Peng Gao , Pengfei Li , Pengyu Zhao , Qibing Ren , Qidi Xu , Qile Li , Qin Wang , Rong Tian , Ruitao Leng , Shaoxiang Chen , Shaoyu Chen , Shengmin Shi , Shitong Weng , Shuchang Guan , Shuqi Yu , Sichen Li , Songquan Zhu , Tengfei Li , Tianchi Cai , Tianrun Liang , Weiyu Cheng , Weize Kong , Wenkai Li , Xiancai Chen , Xiangjun Song , Xiao Luo , Xiao Su , Xiaobo Li , Xiaodong Han , Xinzhu Hou , Xuan Lu , Xun Zou , Xuyang Shen , Yan Gong , Yan Ma , Yang Wang , Yiqi Shi , Yiran Zhong , Yonghong Duan , Yongxiang Fu , Yongyi Hu , Yu Gao , Yuanxiang Fan , Yufeng Yang , Yuhao Li , Yulin Hu , Yunan Huang , Yunji Li , Yunzhi Xu , Yuxin Mao , Yuxuan Shi , Yuze Wenren , Zehan Li , Zelin Li , Zhanxu Tian , Zhengmao Zhu , Zhenhua Fan , Zhenzhen Wu , Zhichao Xu , Zhihang Yu , Zhiheng Lyu , Zhuo Jiang , Zibo Gao , Zijia Wu , Zijian Song , Zijun Sun

Instella: Fully Open Language Models with Stellar Performance

Large language models (LLMs) have demonstrated remarkable performance across a wide range of tasks, yet the majority of high-performing models remain closed-source or partially open, limiting transparency and reproducibility. In this work,…

Computation and Language · Computer Science 2025-11-17 Jiang Liu , Jialian Wu , Xiaodong Yu , Yusheng Su , Prakamya Mishra , Gowtham Ramesh , Sudhanshu Ranjan , Chaitanya Manem , Ximeng Sun , Ze Wang , Pratik Prabhanjan Brahma , Zicheng Liu , Emad Barsoum

Distributed SLIDE: Enabling Training Large Neural Networks on Low Bandwidth and Simple CPU-Clusters via Model Parallelism and Sparsity

More than 70% of cloud computing is paid for but sits idle. A large fraction of these idle compute are cheap CPUs with few cores that are not utilized during the less busy hours. This paper aims to enable those CPU cycles to train…

Distributed, Parallel, and Cluster Computing · Computer Science 2022-02-01 Minghao Yan , Nicholas Meisburger , Tharun Medini , Anshumali Shrivastava

CPM-2: Large-scale Cost-effective Pre-trained Language Models

In recent years, the size of pre-trained language models (PLMs) has grown by leaps and bounds. However, efficiency issues of these large-scale PLMs limit their utilization in real-world scenarios. We present a suite of cost-effective…

Computation and Language · Computer Science 2021-06-25 Zhengyan Zhang , Yuxian Gu , Xu Han , Shengqi Chen , Chaojun Xiao , Zhenbo Sun , Yuan Yao , Fanchao Qi , Jian Guan , Pei Ke , Yanzheng Cai , Guoyang Zeng , Zhixing Tan , Zhiyuan Liu , Minlie Huang , Wentao Han , Yang Liu , Xiaoyan Zhu , Maosong Sun

INTELLECT: Adapting Cyber Threat Detection to Heterogeneous Computing Environments

The widespread adoption of cloud computing, edge, and IoT has increased the attack surface for cyber threats. This is due to the large-scale deployment of often unsecured, heterogeneous devices with varying hardware and software…

Cryptography and Security · Computer Science 2024-07-23 Simone Magnani , Liubov Nedoshivina , Roberto Doriguzzi-Corin , Stefano Braghin , Domenico Siracusa

PanGu-{\Sigma}: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing

The scaling of large language models has greatly improved natural language understanding, generation, and reasoning. In this work, we develop a system that trained a trillion-parameter language model on a cluster of Ascend 910 AI processors…

Computation and Language · Computer Science 2023-03-21 Xiaozhe Ren , Pingyi Zhou , Xinfan Meng , Xinjing Huang , Yadao Wang , Weichao Wang , Pengfei Li , Xiaoda Zhang , Alexander Podolskiy , Grigory Arshinov , Andrey Bout , Irina Piontkovskaya , Jiansheng Wei , Xin Jiang , Teng Su , Qun Liu , Jun Yao

Distributed Training under Packet Loss

State-of-the-art language and vision models are routinely trained across thousands of GPUs, often spanning multiple data-centers, yet today's distributed frameworks still assume reliable connections (e.g., InfiniBand or RoCE). The resulting…

Distributed, Parallel, and Cluster Computing · Computer Science 2025-07-11 Erez Weintraub , Ron Banner , Ariel Orda