总统的办公桌

“D”因素

告诉总统

安妮·罗宾逊

anne.robinson@stanfordalumni.org

安妮·罗宾逊

当我想到这个问题的专栏时,同事和朋友给我发来了一系列的话题,从更新INFORMS的计划到探索有趣的新领域,在这些领域中分析正在占据更普遍的地位。在所有的建议中都有一个潜在的线索——数据及其可用性、准备情况和分析过程中的角色。

几年前,我和同事Teresa Wong详细讨论了如何理解数据和数据质量是高级分析教育中缺失的部分。在研究生院,我们经常忽视检查良好数据的重要性。我们可以大胆地假设数据,假设它总是遵循良好的、众所周知的分布。残酷的现实是,数据是丑陋的,非常非常丑陋。在实践中,数据很少是行为良好的,从不在单一的位置,经常有差距,并且通常缺少解决问题所需的属性。在这个大数据时代,确保我们理解我们在模型中使用的数据的质量比以往任何时候都更加重要。

就像钻石一样,数据质量也可以通过5c来衡量——完整性、正确性、一致性、时效性和协作性。(专家小组提供了多种类型的数据质量模型,但它们本质上都指向相同的维度。)

完整性指的是包含所有预期字段的数据集(不要与完整性的数学定义混淆)。然而,数据记录的每一部分可能都不是必需的。例如,在INFORMS数据库中,虽然我们要求成员识别他们的雇主和职位,但并不要求每个人都填写这个字段。因此,这一信息将不需要考虑完整的数据集。

正确性或准确性是指数据正确反映所描述的现实世界对象或事件的程度。例如,假设您有一个数字日期代码。月份字段不能超过数字“12”。如果该字段中有高于此值的值,则表示数据中的准确性或正确性问题。

数据的一致性确保数据在任何给定时间点的状态与商定的定义同步。这包括确保储存在不同订阅系统中的数据实际上是相同的。数据的一致性对于数据的可靠性和可信赖性至关重要。定义良好的元数据管理和主数据管理(定义和管理数据定义的过程)有助于推动不同用途之间的一致性。

但是请注意,多源数据可以有不同的定义,这取决于数据的使用方式。也许您正在查看来自两个不同来源的出货数据——一个由销售部门持有,另一个由制造部门持有。这些数字可能因各种原因而不同;例如,销售部门可能只对能够产生收入的发货感兴趣,而制造部门则对需要出口的所有部件感兴趣,包括演示部件、样品部件等。但是,这两个数据集的基本源应该是相同的,并且指导变量的业务规则也应该在主数据中捕获。

当涉及到数据的时效性时,我们需要考虑两件事:这些数据有多新鲜,以及它们是否都在同一时间框架内?前者确保您使用的是模型所需的最新和相关的信息。后者确保所有数据源都来自同一时间段,处于同一阶段(例如,所有月度数据)。如果你的数据来源之一是季度数据,而你必须对月度数据进行插值,这很好,但请认识到,这是你的模型中的一个假设,可能会影响结果。

在这个社会互动的时代,确保完整、正确、一致和最新数据的最佳方式之一是协作。这推动了对定义的共识,等等,跨职能的每个人都能同意。此外,许多专家(如来自密歇根大学的Scott E. Page教授,他曾在INFORMS圆桌会议上发言)坚持认为,众源数据往往比单独由“专家”提供的数据更好。

您可以进行简单的测试来检查数据的运行状况,并且可以使用Informatica或DataFlux等工具来帮助您。事实上,对于经常使用的数据,可以使用这些技术自动修复数据问题。

只有当您拥有良好的数据质量时,建模过程才能真正开始。在实践中,建模人员经常花费高达80%的时间来检查和准备数据。

这个故事的寓意是什么?不要低估数据——因为无论你建立的模型有多好,假设有多强,如果数据不好,结果就毫无价值。引用已故的约瑟夫·m·朱兰(Joseph M. Juran)的话,他是质量和质量管理的创始人和传播者,“如果数据适合它们在操作、决策和规划中的预期用途,那么它们就是高质量的。”

Baidu