Junyang Lin — Scifaro

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fragmented capabilities and limited generalization across tasks, environments, and robot embodiments. In…

Robotics · Computer Science 2026-05-29 Qiuyue Wang , Mingsheng Li , Jian Guan , Jinhui Ye , Sicheng Xie , Yitao Liu , Junhao Chen , Zhixuan Liang , Jie Zhang , Xintong Hu , Xuhong Huang , Pei Lin , Junyang Lin , Dayiheng Liu , Shuai Bai , Jingren Zhou , Jiazhao Zhang , Haoqi Yuan , Gengze Zhou , Hang Yin , Ye Wang , Yiyang Huang , Zixing Lei , Wujian Peng , Delin Chen , Yingming Zheng , Jingyang Fan , Xianwei Zhuang , Xin Zhou , Haoyang Li , Anzhe Chen , Tong Zhang , Xuejing Liu , Yuchong Sun , Ruizhe Chen , Zhaohai Li , Chenxu Lü , Zhibo Yang , Tao Yu , Xionghui Chen

CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

Reinforcement learning with verifiable rewards (RLVR) has driven breakthroughs in domains such as math, tool-use, and software engineering, yet its extension to computer-use agents (CUAs) has been bottlenecked by the scarcity of scalable…

Artificial Intelligence · Computer Science 2026-05-26 Bowen Wang , Dunjie Lu , Junli Wang , Tianyi Bai , Shixuan Liu , Zhipeng Zhang , Haiquan Wang , Hao Hu , Tianbao Xie , Shuai Bai , Dayiheng Liu , Que Shen , Junyang Lin , Tao Yu

Qwen-Image-2.0 Technical Report

We present Qwen-Image-2.0, an omni-capable image generation foundation model that unifies high-fidelity generation and precise image editing within a single framework. Despite recent progress, existing models still struggle with ultra-long…

Computer Vision and Pattern Recognition · Computer Science 2026-05-12 Bing Zhao , Chenfei Wu , Deqing Li , Hao Meng , Jiahao Li , Jie Zhang , Jingren Zhou , Junyang Lin , Kaiyuan Gao , Kuan Cao , Kun Yan , Liang Peng , Lihan Jiang , Niantong Li , Ningyuan Tang , Shengming Yin , Tianhe Wu , Xiao Xu , Xiaoyue Chen , Xihua Wang , Yan Shu , Yanran Zhang , Yi Wang , Yilei Chen , Ying Ba , Yixian Xu , Yujia Wu , Yuxiang Chen , Zecheng Tang , Zekai Zhang , Zhendong Wang , Zihao Liu , Zikai Zhou , An Yang , Chen Cheng , Chenxu Lv , Dayiheng Liu , Fan Zhou , Hantian Xiong , Hongzhu Shi , Hu Wei , Huihong Zhao , Ivy Liu , Jianwei Zhang , Jiawei Zhang , Kai Chen , Kang He , Levon Xue , Lin Qu , Linhan Tang , Luwen Feng , Minggang Wu , Minmin Sun , Na Ni , Rui Men , Shuai Bai , Sishou Zheng , Tao Lan , Tianqi Zhang , Tingkun Wen , Wei Wang , Weixu Qiao , Weiyi Lu , Wenmeng Zhou , Xiaodong Deng , Xiaoxiao Xu , Xinlei Fang , Xionghui Chen , Yanan Wang , Yang Fan , Yichang Zhang , Yixuan Xu , Yu Wu , Zhiyuan Ma , Zhizhi Cai

Accelerating Compound LLM Training Workloads with Maestro

Compound LLM training workloads-such as knowledge distillation and multimodal LLM (MLLM) training-are gaining prominence. These typically comprise heterogeneous components differing in parameter scale, execution mode (forward-only or full…

Distributed, Parallel, and Cluster Computing · Computer Science 2026-05-12 Xiulong Yuan , Hongqing Chen , Jiaxuan Peng , Fan Zhou , Zhixiang Ruan , Zekun Wang , Bo Zheng , Rui Men , Haiquan Wang , Zhipeng Zhang , Langshi Chen , Man Yuan , Jiaqi Gao , Zhengping Qian , Junyang Lin , Yong Li , Wei Lin , Junhua Wang , Jingren Zhou

UNIKIE-BENCH: Benchmarking Large Multimodal Models for Key Information Extraction in Visual Documents

Key Information Extraction (KIE) from real-world documents remains challenging due to substantial variations in layout structures, visual quality, and task-specific information requirements. Recent Large Multimodal Models (LMMs) have shown…

Computer Vision and Pattern Recognition · Computer Science 2026-04-27 Yifan Ji , Zhipeng Xu , Zhenghao Liu , Zulong Chen , Qian Zhang , Zhibo Yang , Junyang Lin , Yu Gu , Ge Yu , Maosong Sun

Revisiting Multimodal Positional Encoding in Vision-Language Models

Multimodal position encoding is essential for vision-language models, yet there has been little systematic investigation into multimodal position encoding. We conduct a comprehensive analysis of multimodal Rotary Positional Embedding (RoPE)…

Computer Vision and Pattern Recognition · Computer Science 2026-04-07 Jie Huang , Xuejing Liu , Sibo Song , Ruibing Hou , Hong Chang , Junyang Lin , Shuai Bai

GenMask: Adapting DiT for Segmentation via Direct Mask Generation

Recent approaches for segmentation have leveraged pretrained generative models as feature extractors, treating segmentation as a downstream adaptation task via indirect feature retrieval. This implicit use suffers from a fundamental…

Computer Vision and Pattern Recognition · Computer Science 2026-03-27 Yuhuan Yang , Xianwei Zhuang , Yuxuan Cai , Chaofan Ma , Shuai Bai , Jiangchao Yao , Ya Zhang , Junyang Lin , Yanfeng Wang

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Vision-language models (VLMs) show strong multimodal capabilities but still struggle with fine-grained vision-language reasoning. We find that long chain-of-thought (CoT) reasoning exposes diverse failure modes, including perception,…

Computer Vision and Pattern Recognition · Computer Science 2026-03-20 Shenzhi Wang , Shixuan Liu , Jing Zhou , Chang Gao , Xiong-Hui Chen , Binghai Wang , An Yang , Shiji Song , Bowen Yu , Gao Huang , Junyang Lin

Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos

The transition from image to video understanding requires vision-language models (VLMs) to shift from recognizing static patterns to reasoning over temporal dynamics such as motion trajectories, speed changes, and state transitions. Yet…

Computer Vision and Pattern Recognition · Computer Science 2026-03-19 Songtao Jiang , Sibo Song , Chenyi Zhou , Yuan Wang , Ruizhe Chen , Tongkun Guan , Ruilin Luo , Yan Zhang , Zhihang Tang , Yuchong Sun , Hang Zhang , Zhibo Yang , Shuai Bai , Junyang Lin , Zuozhu Liu

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

Fine-grained perception of multimodal information is critical for advancing human-AI interaction. With recent progress in audio-visual technologies, Omni Language Models (OLMs), capable of processing audio and video signals in parallel,…

Computation and Language · Computer Science 2026-03-17 Ziyang Ma , Ruiyang Xu , Zhenghao Xing , Yunfei Chu , Yuxuan Wang , Jinzheng He , Jin Xu , Pheng-Ann Heng , Kai Yu , Junyang Lin , Eng Siong Chng , Xie Chen

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

When MLLMs fail at Science, Technology, Engineering, and Mathematics (STEM) visual reasoning, a fundamental question arises: is it due to perceptual deficiencies or reasoning limitations? Through systematic scaling analysis that…

Computer Vision and Pattern Recognition · Computer Science 2026-03-12 Tongkun Guan , Zhibo Yang , Jianqiang Wan , Mingkun Yang , Zhengtao Guo , Zijian Hu , Ruilin Luo , Ruize Chen , Songtao Jiang , Peng Wang , Wei Shen , Junyang Lin , Xiaokang Yang

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an…

Computer Vision and Pattern Recognition · Computer Science 2026-03-05 Ruilin Luo , Chufan Shi , Yizhen Zhang , Cheng Yang , Songtao Jiang , Tongkun Guan , Ruizhe Chen , Ruihang Chu , Peng Wang , Mingkun Yang , Yujiu Yang , Junyang Lin , Zhibo Yang

Qwen3-Coder-Next Technical Report

We present Qwen3-Coder-Next, an open-weight language model specialized for coding agents. Qwen3-Coder-Next is an 80-billion-parameter model that activates only 3 billion parameters during inference, enabling strong coding capability with…

Computation and Language · Computer Science 2026-03-03 Ruisheng Cao , Mouxiang Chen , Jiawei Chen , Zeyu Cui , Yunlong Feng , Binyuan Hui , Yuheng Jing , Kaixin Li , Mingze Li , Junyang Lin , Zeyao Ma , Kashun Shum , Xuwu Wang , Jinxi Wei , Jiaxi Yang , Jiajun Zhang , Lei Zhang , Zongmeng Zhang , Wenting Zhao , Fan Zhou

Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding

Verification is a key bottleneck in improving inference speed while maintaining distribution fidelity in Speculative Decoding. Recent work has shown that sequence-level verification leads to a higher number of accepted tokens compared to…

Artificial Intelligence · Computer Science 2026-03-03 Yuxuan Zhou , Fei Huang , Heng Li , Fengyi Wu , Tianyu Wang , Jianwei Zhang , Junyang Lin , Zhi-Qi Cheng

HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number…

Computation and Language · Computer Science 2026-03-02 Weiqi Zhai , Zhihai Wang , Jinghang Wang , Boyu Yang , Xiaogang Li , Xander Xu , Bohan Wang , Peng Wang , Xingzhe Wu , Anfeng Li , Qiyuan Feng , Yuhao Zhou , Shoulin Han , Wenjie Luo , Yiyuan Li , Yaxuan Wang , Ruixian Luo , Guojie Lin , Peiyao Xiao , Chengliang Xu , Ben Wang , Zeyu Wang , Zichao Chen , Jianan Ye , Yijie Hu , Jialong Chen , Zongwen Shen , Yuliang Xu , An Yang , Bowen Yu , Dayiheng Liu , Junyang Lin , Hu Wei , Que Shen , Bing Zhao

DeepInnovator: Triggering the Innovative Capabilities of LLMs

The application of Large Language Models (LLMs) in accelerating scientific discovery has garnered increasing attention, with a key focus on constructing research agents endowed with innovative capability, i.e., the ability to autonomously…

Computation and Language · Computer Science 2026-02-24 Tianyu Fan , Fengji Zhang , Yuxiang Zheng , Bei Chen , Xinyao Niu , Chengen Huang , Junyang Lin , Chao Huang

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge…

Artificial Intelligence · Computer Science 2026-02-20 Haiyang Xu , Xi Zhang , Haowei Liu , Junyang Wang , Zhaozai Zhu , Shengjie Zhou , Xuhao Hu , Feiyu Gao , Junjie Cao , Zihua Wang , Zhiyuan Chen , Jitong Liao , Qi Zheng , Jiahui Zeng , Ze Xu , Shuai Bai , Junyang Lin , Jingren Zhou , Ming Yan

SecCodeBench-V2 Technical Report

We introduce SecCodeBench-V2, a publicly released benchmark for evaluating Large Language Model (LLM) copilots' capabilities of generating secure code. SecCodeBench-V2 comprises 98 generation and fix scenarios derived from Alibaba Group's…

Cryptography and Security · Computer Science 2026-02-19 Longfei Chen , Ji Zhao , Lanxiao Cui , Tong Su , Xingbo Pan , Ziyang Li , Yongxing Wu , Qijiang Cao , Qiyao Cai , Jing Zhang , Yuandong Ni , Junyao He , Zeyu Zhang , Chao Ge , Xuhuai Lu , Zeyu Gao , Yuxin Cui , Weisen Chen , Yuxuan Peng , Shengping Wang , Qi Li , Yukai Huang , Yukun Liu , Tuo Zhou , Terry Yue Zhuo , Junyang Lin , Chao Zhang

WebWorld: A Large-Scale World Model for Web Agent Training

Web agents require massive trajectories to generalize, yet real-world training is constrained by network latency, rate limits, and safety risks. We introduce \textbf{WebWorld} series, the first open-web simulator trained at scale. While…

Artificial Intelligence · Computer Science 2026-02-17 Zikai Xiao , Jianhong Tu , Chuhang Zou , Yuxin Zuo , Zhi Li , Peng Wang , Bowen Yu , Fei Huang , Junyang Lin , Zuozhu Liu

Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models

Generative Reward Models (GenRMs) and LLM-as-a-Judge exhibit deceptive alignment by producing correct judgments for incorrect reasons, as they are trained and evaluated to prioritize Outcome Accuracy, which undermines their ability to…

Computation and Language · Computer Science 2026-02-05 Binghai Wang , Yantao Liu , Yuxuan Liu , Tianyi Tang , Shenzhi Wang , Chang Gao , Chujie Zheng , Yichang Zhang , Le Yu , Shixuan Liu , Tao Gui , Qi Zhang , Xuanjing Huang , Bowen Yu , Fei Huang , Junyang Lin