当前位置 : 网站首页 > 新闻中心

2019

11-12


来源:

浏览: 12

作者:

数据仓库中数据维护方法的研究
第17届全国数据库学术会议论文集技术报告数据仓库中的数据维护方法丁峰邓西安交通大学软件学院西安永申义和饥饿与帮助。小肠l银岛灯有助于吃掉记录,即在公众眼中,数据仓库的引入,数据仓库的维护问题,但数据仓库的数据维护问题也出现了,但其需求和机制是与传统数据库不同。在介绍数据仓库的基础上,分析了数据维护问题,提出并讨论了删除过期数据和强制数据的方法。数据仓库简介数据仓库中的多学科和互穿技术是一种解决方案。它基于传统的数据库技术,通过统计分析等方法分析数据提取信息,并使用人工智能等技术发现知识并对其进行适当的可视化。对于数据仓库,来自一个或多个数据库的数据副本有许多不同的定义。数据仓库是一个分散的数据库系统,它与运营数据库不同,后者与在线事务处理系统分开。数据仓库W.之父的描述与传统操作系统分离,数据与数据库分离,由封闭的Wang Shan等人集成和处理。不可更新的时变数据收集,旨在更好地支持企业或组织的决策分析过程的决策过程。数据仓库的坟墓功能针对该主题。传统数据库主要面向数据的日常处理。数据仓库中的数据以主题组织为导向,并且抽象度很高,因此可以围绕更高级别的概念和需求来分析数据,并提取与主题相关的信息。分析的主题基于分析的需求。数据整合。由于数据源数量众多,应正确集成数据仓库数据,数据应整洁,可以更改相同的信息,可以更改模棱两可的不同表示形式,可以正确更改数据,或者错误或错误。矛盾的数据可以消除。消除冗余数据是不可修改的。修改数据是传统数据库提供的主要操作之一,但是数据仓库中的数据用于分析。它是第十七届全国数据库学术会议技术报告的历史数据。它主要用于高用户层的决策。通常不允许或修改它,而不是底层的数据处理应用程序。数据随着时间不断变化。数据仓库随着时间的推移不断增加新的内容,需要从传统数据库中捕获新数据以将其添加到数据仓库中,并且超过存储时间的数据会根据及时性从数据仓库中删除。另外,还需要时间属性的集成。随着时间的推移重新合成。数据仓库架构图是标准的数据仓库架构模型。其中,数据提取集成转换装置经过提取和清理集成处理后,对来自各种源数据库的数据进行处理,并将其放入数据仓库中。在对数据仓库中的数据进行不同程度的综合之后,对数据进行分析和挖掘以找出规律。视觉表示工具用于向最终用户表示。最终用户数据仓库图标准数据仓库体系结构模型数据维护机制开发数据仓库应用系统通常采用原型方法,即分步开发方法。数据仓库的维护主要是刷新数据仓库的当前详细数据,添加新数据,删除过期数据等。删除过期数据数据仓库中的数据有一定的存储期限,具体取决于存储范围和性质。在应用中,存储期不同,通常为5年。 (其中大多数是数十年甚至更长的商业组织,例如该国的人口或一旦超过了指定的时间段,数据就被认为太旧而对决策分析失去意义,应将其从数据仓库中删除。易于删除期间数据,我们考虑将时间属性添加到数据仓库中所有数据的代码键中,指示进入数据仓库的时间,即数据提取和集成设备将时间属性添加到代码键中用于提取数据,我们称之为人类图书馆。时间是时钟提供的当前时间,用于标记离开数据仓库的时间(对于以后添加的数据,实际上是进入辅助组织的时间)。在数据仓库管理系统(添加判断机制,使用)中,当前减去代码密钥上的数据库时间。一旦超过预定期限,就可以删除数据的年龄。需要注意的是,为了保证用户的可靠性,应该有一个数据缓冲区,过期的数据应该先放在缓冲区中,而不是立即删除,否则将无法响应当时用户的查询和决策要求。真正的删除应在使用数据仓库使用率时进行(通常是晚上或假日,其他数据随时间变化而变化,新数据不断出现,这些新数据应及时添加到数据仓库中,以满足数据仓库的及时性要求)。决策分析。数据附加的本质不是移动数据仓库中的数据,而是获取这些新数据的快照(并集成一批此类快照,然后在适当的时候将其附加到数据仓库中)。通用的数据附加方法是在用户使用期间将集成的处理后的数据传输到数据仓库,并在第17届全国数据库学术会议论文集(技术报告)中合并文章的现有数据,并检查该附件是否有效。此方法相对简单,但是还存在一个问题,即在追加操作期间用户对数据仓库的使用会中断,并且数据总是比集成后的更晚时间进入数据仓库。提出了一种通过pF压印等方法来弥补上述缺陷的方法。该方法通过非易失性随机存储器在数据仓库和数据提取与转换设备之间添加辅助设备(如图所示)。此方法的优点是消除了直接问题。不响应由于将数据附加到数据仓库并更新其基本表和视图而引起的用户查询的问题也不充分。即,该辅助设备的缓冲器大小应该适当,并且未给出如何处理溢出情况。回答。我们认为,遵循原型方法的思想,在数据仓库建立并使用一段时间后,根据经验和测试数据,将数据容量作为辅助设备添加到缓冲区的设计容量中结构体。为了解决缓冲区的潜在问题,可以考虑将缓冲区容量作为上限,设置繁殖标志,一旦标记了溢出,则在添加数据仓库后,缓冲区数据会自动传输到数据仓库,应将确认信号发送回辅助结构。接收到确认信号后,辅助结构将清除缓冲区并重置溢出标志,以等待下一轮数据添加。最终的瑞悦家庭分析与表达工具常用的方法有:时标方法如果数据包含时标属性,则可以根据时标直接进行判断。此方法既简单又容易,但是会占用大量存储空间。 。文件由应用程序生成,因此避免搜索生成文件的整个应用程序并不常见。 。上下文比较方法是在最后一次提取数据之前和添加之前获取数据快照,并比较数据快照以确定这次需要提取的新数据。该方法占用大量资源,对运行过程中的系统性能影响很大。 。固有功能f日志文件利用率是通过搜索日志文件来找出需要提取的新数据。这是更常见的方法。总结数据仓库是一个新的技术热点,其应用不是很流行,在数据仓库的设计和使用中仍然存在许多具体问题。上面提出的数据维护是使用中不可避免的实际问题。从理论上讲,有关删除过期数据和附加数据机制的讨论是可行的,但它确实是切实可行的,并且有许多细节需要解决。参考文献,二对一。 (针对第17届全国数据库学术会议论文集技术报告)在G Bar的说服下,沉坦胜过N.,王旺山等编辑,数据仓库技术和在线分析处理,科学出版社,Bibtan Dou Liu,与这位女性的压力增加了清数。切
分享到: