怎样进行数据的血缘分析?


在数据仓库中,汇集了来自多个源系统的数据,这些数据进行ETL处理后进入数据库,目标数据可能来自源系统某个对应的源字段,也可能是源数据中多个字段运算得出,还可能是来自不同源系统的数据计算得出,一旦有些源数据质量不高,导致分析结果出现偏差,就需要有手段找出这些源数据的来源。这种分析过程就是数据的血缘分析。可见,数据血缘分析是很重要的。 在医学里,有门技术,病人服下一种药物,通过定时对病人进行CT成像,可以知道药物在人体内的都到达过哪些部位,以及这些部位的反应,如果这种技术能应用在数据仓库的建设中,对检查数据来龙去脉的检查将是很有帮助的。 不知道数据仓库中的数据血缘分析是怎么做的?

本帖转载自刘士峰老师的论坛

回复列表

阿钟 2015-09-09 23:13 / 回复

数据血缘分析和数据标准化的关系是.....?

阿钟 2015-09-09 23:13 / 回复

嗯,我这2个的概念有点模糊

阿钟 2015-09-09 23:13 / 回复

eternalxj 发表于 2012-9-18 17:10 数据血缘分析如何做具体是说对元数据的质量检查应该如何做吗? 我的理解,血缘分析中的数据是具体的具有业务含义的数据,而非元数据

阿钟 2015-09-09 23:13 / 回复

数据血缘分析如何做具体是说对元数据的质量检查应该如何做吗?

阿钟 2015-09-09 23:13 / 回复

还是哪个问题,数据血缘分析是怎么做的?

阿钟 2015-09-09 23:13 / 回复

血缘分析主要是描述一个报表元素从报表到存储过程指标的处理过程和从源数据到存储过程的处理过程。会形成一个流程图。进而分析该数据的流动情况。而源数据质量不高导致出错则是在源数据质量分析就要做得吧?  

需要先登录后才可以进行回帖

登录 注册