Large Language Models for Bioinformatics

Wei Ruan; Yanjun Lyu; Jing Zhang; Jiazhang Cai; Peng Shu; Yang Ge; Yao Lu; Shang Gao; Yue Wang; Peilong Wang; Lin Zhao; Tao Wang; Yufang Liu; Luyang Fang; Ziyu Liu; Zhengliang Liu; Yiwei Li; Zihao Wu; Junhao Chen; Hanqi Jiang; Yi Pan; Zhenyuan Yang; Jingyuan Chen; Shizhe Liang; Wei Zhang; Terry Ma; Yuan Dou; Jianli Zhang; Xinyu Gong; Qi Gan; Yusong Zou; Zebang Chen; Yuanxin Qian; Shuo Yu; Jin Lu; Kenan Song; Xianqiao Wang; Andrea Sikora; Gang Li; Xiang Li; Quanzheng Li; Yingfeng Wang; Lu Zhang; Yohannes Abate; Lifang He; Wenxuan Zhong; Rongjie Liu; Chao Huang; Wei Liu; Ye Shen

Large Language Models for Bioinformatics

Quantitative Methods 2025-01-14 v1 Artificial Intelligence Computational Engineering, Finance, and Science

Authors: Wei Ruan , Yanjun Lyu , Jing Zhang , Jiazhang Cai , Peng Shu , Yang Ge , Yao Lu , Shang Gao , Yue Wang , Peilong Wang , Lin Zhao , Tao Wang , Yufang Liu , Luyang Fang , Ziyu Liu , Zhengliang Liu , Yiwei Li , Zihao Wu , Junhao Chen , Hanqi Jiang , Yi Pan , Zhenyuan Yang , Jingyuan Chen , Shizhe Liang , Wei Zhang , Terry Ma , Yuan Dou , Jianli Zhang , Xinyu Gong , Qi Gan , Yusong Zou , Zebang Chen , Yuanxin Qian , Shuo Yu , Jin Lu , Kenan Song , Xianqiao Wang , Andrea Sikora , Gang Li , Xiang Li , Quanzheng Li , Yingfeng Wang , Lu Zhang , Yohannes Abate , Lifang He , Wenxuan Zhong , Rongjie Liu , Chao Huang , Wei Liu , Ye Shen , Ping Ma , Hongtu Zhu , Yajun Yan , Dajiang Zhu , Tianming Liu

View on arXiv ↗ PDF ↗

Abstract

With the rapid advancements in large language model (LLM) technology and the emergence of bioinformatics-specific language models (BioLMs), there is a growing need for a comprehensive analysis of the current landscape, computational characteristics, and diverse applications. This survey aims to address this need by providing a thorough review of BioLMs, focusing on their evolution, classification, and distinguishing features, alongside a detailed examination of training methodologies, datasets, and evaluation frameworks. We explore the wide-ranging applications of BioLMs in critical areas such as disease diagnosis, drug discovery, and vaccine development, highlighting their impact and transformative potential in bioinformatics. We identify key challenges and limitations inherent in BioLMs, including data privacy and security concerns, interpretability issues, biases in training data and model outputs, and domain adaptation complexities. Finally, we highlight emerging trends and future directions, offering valuable insights to guide researchers and clinicians toward advancing BioLMs for increasingly sophisticated biological and clinical applications.

Keywords

proteomics computational biology software and tools

Cite

@article{arxiv.2501.06271,
  title  = {Large Language Models for Bioinformatics},
  author = {Wei Ruan and Yanjun Lyu and Jing Zhang and Jiazhang Cai and Peng Shu and Yang Ge and Yao Lu and Shang Gao and Yue Wang and Peilong Wang and Lin Zhao and Tao Wang and Yufang Liu and Luyang Fang and Ziyu Liu and Zhengliang Liu and Yiwei Li and Zihao Wu and Junhao Chen and Hanqi Jiang and Yi Pan and Zhenyuan Yang and Jingyuan Chen and Shizhe Liang and Wei Zhang and Terry Ma and Yuan Dou and Jianli Zhang and Xinyu Gong and Qi Gan and Yusong Zou and Zebang Chen and Yuanxin Qian and Shuo Yu and Jin Lu and Kenan Song and Xianqiao Wang and Andrea Sikora and Gang Li and Xiang Li and Quanzheng Li and Yingfeng Wang and Lu Zhang and Yohannes Abate and Lifang He and Wenxuan Zhong and Rongjie Liu and Chao Huang and Wei Liu and Ye Shen and Ping Ma and Hongtu Zhu and Yajun Yan and Dajiang Zhu and Tianming Liu},
  journal= {arXiv preprint arXiv:2501.06271},
  year   = {2025}
}

Comments

64 pages, 1 figure

Large Language Models for Bioinformatics

Abstract

Keywords

Cite

Comments

Related papers