中文

Web 数据仓储

数据库 2007-05-23 v1

摘要

在数据仓储过程中,掌握数据准备阶段可以在执行多维分析或使用数据挖掘算法时,在时间和性能方面获得显著增益。此外,数据仓库可能需要外部数据,而 Web 在此背景下是一个普遍的数据源。在本文中,我们提出了一种建模过程,用于将多样且异构(即所谓多形态)的数据集成为统一格式。此外,模式定义本身在我们的数据仓储上下文中提供了优质的元数据。在概念层面,复杂对象用 UML 表示;我们的逻辑模型是一个 XML 模式,可用 DTD 或 XML-Schema 语言描述。最终,我们设计了一个 Java 原型,将多形态输入数据转换为代表我们物理模型的 XML 文档。随后,我们将获得的 XML 文档映射到一个关系数据库中,将其视为操作数据存储(ODS),其内容需以多维方式重新建模,以便存储到基于星型模式的仓库中,并进行后续分析。

关键词

引用

@article{arxiv.0705.1456,
  title  = {Warehousing Web Data},
  author = {Jérôme Darmont and Omar Boussaïd and Fadila Bentayeb},
  journal= {arXiv preprint arXiv:0705.1456},
  year   = {2007}
}
R2 v1 2026-06-29T00:26:41.203Z