Comparing large language models and human programmers for generating programming code

Wenpin Hou; Zhicheng Ji

doi:10.1002/advs.202412279

Comparing large language models and human programmers for generating programming code

Software Engineering 2025-01-22 v2 Artificial Intelligence Computation and Language Programming Languages

Authors: Wenpin Hou , Zhicheng Ji

View on arXiv ↗ PDF ↗ DOI ↗

Abstract

We systematically evaluated the performance of seven large language models in generating programming code using various prompt strategies, programming languages, and task difficulties. GPT-4 substantially outperforms other large language models, including Gemini Ultra and Claude 2. The coding performance of GPT-4 varies considerably with different prompt strategies. In most LeetCode and GeeksforGeeks coding contests evaluated in this study, GPT-4 employing the optimal prompt strategy outperforms 85 percent of human participants. Additionally, GPT-4 demonstrates strong capabilities in translating code between different programming languages and in learning from past errors. The computational efficiency of the code generated by GPT-4 is comparable to that of human programmers. These results suggest that GPT-4 has the potential to serve as a reliable assistant in programming code generation and software development.

Keywords

code generation large language model

Cite

@article{arxiv.2403.00894,
  title  = {Comparing large language models and human programmers for generating programming code},
  author = {Wenpin Hou and Zhicheng Ji},
  journal= {arXiv preprint arXiv:2403.00894},
  year   = {2025}
}

Comparing large language models and human programmers for generating programming code

Abstract

Keywords

Cite

Related papers