用于数据库整理的伪并行 Python 环境

Eckhard Sutorius; Johann Bryant; Ross Collins; Nicholas Cross; Nigel Hambly; Mike Read

用于数据库整理的伪并行 Python 环境

天体物理学 2007-11-14 v1

作者: Eckhard Sutorius , Johann Bryant , Ross Collins , Nicholas Cross , Nigel Hambly , Mike Read

摘要

提供像 WFCAM Science Archive (WSA) 这样的大型数据库的主要挑战之一是最小化像素/图像元数据和星表数据的入库时间。在本文中，我们描述了流水线处理的数据如何被入库到数据库中，这是构建发布数据库的第一阶段，随后将进行高级处理（源合并、拼接、检测质量标记等）。为了尽可能快地完成入库过程，我们使用了混合 Python/C++ 环境，并以简单的并行操作模式运行所需任务，其中数据被分割为每日块，然后在不同的计算机上进行处理。生成的数据文件一旦可用即可立即入库到数据库中。与顺序处理相比，这种灵活的数据处理方式允许最大限度地利用可用的 CPU。

关键词

scientific software and data analysis tools computational physics software graphics processing unit computing

引用

@article{arxiv.0711.2042,
  title  = {A pseudo-parallel Python environment for database curation},
  author = {Eckhard Sutorius and Johann Bryant and Ross Collins and Nicholas Cross and Nigel Hambly and Mike Read},
  journal= {arXiv preprint arXiv:0711.2042},
  year   = {2007}
}

用于数据库整理的伪并行 Python 环境

摘要

关键词

引用

评论

相关论文