用于数据库整理的伪并行 Python 环境
天体物理学
2007-11-14 v1
摘要
提供像 WFCAM Science Archive (WSA) 这样的大型数据库的主要挑战之一是最小化像素/图像元数据和星表数据的入库时间。在本文中,我们描述了流水线处理的数据如何被入库到数据库中,这是构建发布数据库的第一阶段,随后将进行高级处理(源合并、拼接、检测质量标记等)。为了尽可能快地完成入库过程,我们使用了混合 Python/C++ 环境,并以简单的并行操作模式运行所需任务,其中数据被分割为每日块,然后在不同的计算机上进行处理。生成的数据文件一旦可用即可立即入库到数据库中。与顺序处理相比,这种灵活的数据处理方式允许最大限度地利用可用的 CPU。
关键词
引用
@article{arxiv.0711.2042,
title = {A pseudo-parallel Python environment for database curation},
author = {Eckhard Sutorius and Johann Bryant and Ross Collins and Nicholas Cross and Nigel Hambly and Mike Read},
journal= {arXiv preprint arXiv:0711.2042},
year = {2007}
}
评论
4 pages, 2 figures, ADASS XVII conference proceeding. ASP conference series