在过去的二十年中,数据已成为公司的无价资产,可以与实体基础设施、技术、知识产权和人力资本等传统资产相媲美。对于一些世界上最有价值的公司来说,数据构成了其商业模式的核心。
数据生产和传输的规模呈指数级增长。据《福布斯》报道,全球数据产量从 2010 年的 2 ZB 增加到 2020 年的 44 ZB,预计到 2025 年将超过 180 ZB,在短短 15 年内增长了 9,000%,这在一定程度上是由人工智能推动的。
然而,原始数据本身并不等于可操作的见解。未经处理的数据可能会让用户不知所措,从而可能妨碍理解。信息——经过处理、组织和使用的数据——驱动洞察,从而产生行动和价值。
本文分享了我在数据分析和数字工具实施方面的经验,重点是利用“大数据”来创建可行的见解。这些见解使用户能够利用商业机会、确定成本节约领域并获取有用的基准测试信息。我们的项目通常采用自动化,从而节省时间并提高效率。我将重点介绍我们面临的主要挑战和我们的解决方案,并强调早期项目阶段的决策具有最重大的影响。
重点关注领域包括:
- 效益量化
- 范围蔓延的风险
- 应对 PDF 数据的挑战
- 设计阶段和性能考虑
在大型组织中,数据可用性和可访问性通常会带来重大挑战,特别是在组合来自多个系统的数据时。我的大多数项目旨在创建一个统一、协调的数据集,用于自助分析和富有洞察力的仪表板。我们采用敏捷方法来保持对进度和瓶颈的清晰监督,确保每个团队成员的责任。
数据项目的典型生命周期包括范围界定、设计、开发、实施和维护阶段。在范围界定过程中,产品所有者与客户/最终用户组织密切合作,以掌握总体需求、所需的数据类型和见解、要求和功能。
效益量化
范围界定阶段的一个关键要素是效益案例,我们在其中量化解决方案的潜在价值。根据我的经验,这一步通常具有挑战性,特别是在评估分析见解的价值时。我发现,虽然计算节省时间等自动化效益相对简单,但用户很难估计见解的价值,尤其是在处理以前不可用的数据时。
在一个关键项目中,我们直面这一挑战。我们正在开发一个数据模型,以提供对物流合同的更深入的了解。在范围界定阶段,我们努力量化潜在收益。直到我们发现了最近发生的一起事件,我们才找到了答案。
几个月前,客户发现他们为特定管道支付了过高的费用。该合同的结构,不同的体积流量会触发不同的费率,导致使用不理想和成本过高。通过调整体积流量,他们成功地显着降低了单位成本。事实证明,这个现实世界的例子在我们的效益量化过程中非常有价值。
我们利用这一事件来演示我们的数据模型如何:
- 尽早发现问题,可能会节省数月的多付款
- 提供持续监控以防止将来出现类似问题
- 提供了优化所有合同流量的见解
这个具体的例子不仅帮助我们量化了收益,而且还提高了高级管理层对该项目的优先级,从而确保了我们所需的资金。这是一个重要的教训,让我们了解到利用最近发生的有形事件来说明潜在价值的力量。
然而,并非所有项目都有如此清晰的例子。在这些情况下,我开发了替代方法:
- 基准测试:我们将部门绩效与其他部门或竞争对手进行比较,确定一流绩效并量化达到该水平的价值。
- 改进百分比:我们估计该模型带来的部门整体收入或成本的保守百分比改进。在大型组织中,即使是很小的百分比也可以转化为巨大的价值。
无论采用哪种方法,我都了解到定义清晰、可衡量的成功标准的重要性。我们现在总是确定如何在实施后衡量效益。这种做法不仅有助于更轻松地重新评估,而且还确保了数字解决方案实施决策的责任。
另一个宝贵的教训来自一个意想不到的来源。在几个项目中,我们发现了“侧面客户”——可以从我们的数据模型中受益但不属于原始范围的部门或团队。在一个案例中,事实证明,专为物流团队设计的模型对于财务部门的预算和预测来说非常有价值。
这段经历教会了我在定义客户群时要撒更大的网。现在,在范围界定阶段,我们通常会超越提出请求的部门。这种方法通常会增加项目的整体效益和优先级,有时会将边缘项目变成必须的举措。
这些经验强调了一个重要的见解:在大型组织中,不同领域的多个用户经常在没有意识到的情况下解决类似的问题。通过尽早识别这些协同效应,我们可以创建更全面、更有价值的解决方案,并构建更强有力的实施案例。
范围蔓延的风险
虽然扩大客户群可以增强模型的影响力,但也增加了范围蔓延的风险。当项目试图容纳太多利益相关者、承诺过多或过于复杂的功能、可能会影响预算和时间表时,就会发生这种情况。产品负责人和团队必须在约定的时间范围内清楚地了解他们的资源和实际的交付能力。
为了减轻这种风险:
- 预计范围界定阶段的一些设计工作。
- 评估现有数据源是否可以满足新要求或是否需要获取新数据源。
- 与客户管理层就范围和可行性设定明确、现实的期望。
- 在范围界定期间创建最终产品的手动模型,以澄清数据源要求并为最终用户提供结果的切实预览。
- 在模型中使用实际数据子集而不是虚拟数据,因为用户可以更好地与熟悉的信息联系起来。
与 PDF 数据相关的挑战
多个项目强调了捕获 PDF 数据的挑战。用户经常要求我们的财务系统中不提供第三方供应商发票和报表的详细信息。虽然会计团队通常会预订汇总版本,但用户需要行项目详细信息进行分析。
从 PDF 中提取数据需要为每个数据元素建立规则和逻辑,只有对于具有相似结构的多个 PDF 来说,这项巨大的努力才值得。然而,当处理来自数千个供应商的、格式各异且可能随时间变化的文档时,开发映射规则就成为一项艰巨的任务。
在将 PDF 提取纳入项目范围之前,我现在需要彻底了解所涉及的文档,并确保最终用户组织充分应对相关挑战。这种方法通常会导致项目范围的重新定义,因为收益可能无法证明成本的合理性,并且可能存在实现所需见解的替代方法。
设计阶段和性能考虑
设计阶段包括分析范围元素、识别数据源、评估最佳数据接口方法、定义管理和计算步骤以及记录总体数据模型。它还包括数据模型托管、数据传输和可视化软件应用程序、安全模型和数据流频率的决策。关键设计要求通常包括数据粒度、可靠性、灵活性、可访问性、自动化和性能/速度。
性能至关重要,因为用户期望近乎实时的响应。缓慢的模型,无论其洞察力如何,通常用途有限。常见的性能改进方法包括具体化最终数据集以避免基于缓存的计算。可视化工具的选择也会显着影响性能。在设计阶段测试各种工具并为每个模型步骤计时有助于为工具选择提供信息。工具选择可能会影响设计,因为每种工具都有首选的数据结构,尽管公司战略和成本考虑可能最终会推动决策。
未来趋势
新兴趋势正在重塑数据分析格局。数据准备和分析工具现在允许非开发人员使用具有拖放功能的直观图形界面创建数据模型。用户可以模拟和可视化每个步骤,从而实现即时故障排除。数据建模的民主化扩展了自助分析趋势,使用户能够构建自己的数据模型。
虽然最终用户创建的数据产品的复杂性存在限制,并且组织可能仍然更喜欢集中管理的企业数据集来获取广泛使用的数据,但这些工具正在将数据建模功能扩展到 IT 专业人员之外。
个人经历说明了这一趋势的影响:在一个项目的范围界定阶段,面对开发人员的潜在流失,我们从 SQL 编程模型转向 Alteryx。产品负责人以最少的 IT 支持成功创建了数据模型,提高了他们的技术技能和工作满意度。
复杂分析工具创建的社会化提供了显着的好处。公司应考虑提供培训计划,以最大限度地发挥这些应用程序的价值。此外,人工智能助手可以建议或调试代码,进一步加速这些工具的采用。这种转变可能会将每位员工转变为数据专业人员,无需广泛的 IT 支持即可从公司数据中获取最大价值。
释放数据的价值
数据驱动的决策正在各行业快速增长。为了释放数据的价值,必须将其转换为结构化的、可操作的信息。数据分析项目旨在将来自不同来源的数据整合到一个集中、统一的数据集中,以供最终用户使用。
这些项目涵盖几个阶段——范围界定、设计、构建、实施和维护——每个阶段都有独特的挑战和机遇。范围界定阶段尤其重要,因为此处做出的决策会对整个项目生命周期产生深远影响。
随着用户友好的数据准备和分析工具的出现,以及人工智能助手的补充,依赖专门 IT 开发人员的传统模式正在不断发展。这种演变降低了构建分析模型的障碍,使更广泛的最终用户能够参与该过程。最终,数据分析的民主化将进一步扩大其对企业决策的影响,推动整个组织的创新和效率。