中文

用于数据库整理的伪并行 Python 环境

天体物理学 2007-11-14 v1

摘要

提供像 WFCAM Science Archive (WSA) 这样的大型数据库的主要挑战之一是最小化像素/图像元数据和星表数据的入库时间。在本文中,我们描述了流水线处理的数据如何被入库到数据库中,这是构建发布数据库的第一阶段,随后将进行高级处理(源合并、拼接、检测质量标记等)。为了尽可能快地完成入库过程,我们使用了混合 Python/C++ 环境,并以简单的并行操作模式运行所需任务,其中数据被分割为每日块,然后在不同的计算机上进行处理。生成的数据文件一旦可用即可立即入库到数据库中。与顺序处理相比,这种灵活的数据处理方式允许最大限度地利用可用的 CPU。

关键词

引用

@article{arxiv.0711.2042,
  title  = {A pseudo-parallel Python environment for database curation},
  author = {Eckhard Sutorius and Johann Bryant and Ross Collins and Nicholas Cross and Nigel Hambly and Mike Read},
  journal= {arXiv preprint arXiv:0711.2042},
  year   = {2007}
}

评论

4 pages, 2 figures, ADASS XVII conference proceeding. ASP conference series

R2 v1 2026-06-29T05:36:29.648Z