资讯详情

数据质量在人工智能实施中的重要性

2022-09-08 08:32:404636

人工智能和机器学习技术可以显着造福各种规模的行业。根据麦肯锡的一份报告，到2030年，采用人工智能技术的企业的现金流将翻一番。相反，不部署人工智能的企业的现金流将减少20%。然而，这些好处超越了财务。人工智能可以帮助企业应对劳动力短缺。人工智能还显着改善了客户体验和业务成果，使业务更加可靠。

既然人工智能有这么多优势，为什么不是每个人都采用人工智能呢？2019年，普华永道的一项调查显示，76%的公司计划使用AI来提高其业务价值。然而，只有微薄的15%可以访问高质量的数据来实现他们的业务目标。Refinitiv的另一项研究表明，66%的受访者表示低质量数据会损害他们有效部署和采用AI的能力。

调查发现，使用机器学习和人工智能技术的三大挑战围绕着——“关于数据的覆盖范围、历史和数量的准确信息”、“识别不完整或损坏的记录”以及“清理和规范化数据”。数据。”这表明质量差的数据是企业获得高质量人工智能分析的主要障碍。

数据质量在人工智能实施中的重要性

为什么数据如此重要？

数据质量在人工智能实施中至关重要的原因有很多。以下是一些最重要的：

1.垃圾进出

很容易理解输出在很大程度上取决于输入。在这种情况下，如果数据集充满错误或有偏差，结果也会让你走错路。大多数与数据相关的问题不一定与数据量有关，而是与您输入AI模型的数据质量有关。如果您拥有低质量的数据，那么您的AI模型将无法正常工作，无论它们有多好。

2.并非所有人工智能系统都是平等的

当我们想到数据集时，我们通常会从定量数据的角度来思考。但也有视频、个人访谈、观点、图片等形式的定性数据。在人工智能系统中，定量数据集是结构化的，而定性数据集是非结构化的。并非所有AI模型都可以处理这两种数据集。因此，为合适的模型选择正确的数据类型对于获得预期的输出至关重要。

3.质量与数量

人们认为，人工智能系统需要摄取大量数据才能从中学习。在关于质量与数量的辩论中，公司通常更喜欢后者。但是，如果数据集是高质量但本质上更短的，它将为您提供一些保证，即输出是相关且稳健的。

4.好数据集的特征

一个好的数据集的特征可能是主观的，主要取决于人工智能所服务的应用程序。但是，在分析数据集时必须寻找一些一般特征。

完整性：数据集必须完整，数据集中没有空网格或空点。每个单元格中都应该有一个数据片段。
全面性：数据集应该尽可能全面。例如，如果您正在寻找网络威胁向量，那么您必须拥有所有签名配置文件和所有必要信息。
一致性：数据集必须适合分配给它们的明确变量。例如，如果您正在对包装盒进行建模，则您选择的变量（塑料、纸张、纸板等）必须具有适当的定价数据才能属于这些明确的类别。
准确性：准确性是良好数据集的关键。您提供给AI模型的所有信息都必须可靠且完全准确。如果您的数据集的大部分不正确，您的输出也将不准确。
唯一性：这点类似于一致性。每个数据点对于它所服务的变量必须是唯一的。例如，您不希望将塑料包装的价格归入任何其他包装类别。

确保数据质量

确保数据质量高的方法有很多，例如确保数据源可信。以下是一些确保您为AI模型获得最佳质量数据的最佳技术：

1.数据分析

数据分析对于在使用数据之前理解数据至关重要。数据剖析提供对值分布、最大值、最小值、平均值和异常值的洞察。此外，它有助于格式化数据中的不一致。数据分析有助于了解数据集是否可用。

2.评估数据质量

使用预建数据质量规则的中央库，您可以使用中央库验证任何数据集。如果您有一个带有内置数据工具的数据目录，您可以简单地重复使用这些规则来验证客户姓名、电子邮件和产品代码。此外，您还可以丰富和标准化一些数据。

3.监测和评估数据质量

科学家为他们想要使用的大多数数据集预先计算了数据质量。他们可以缩小范围以查看属性具有哪些特定问题，然后决定是否使用该属性。

4.数据准备

研究人员和科学家通常需要稍微调整数据，以便为AI建模做好准备。这些研究人员需要易于使用的工具来解析属性、转置列并从数据中计算值。

人工智能的世界在不断变化。虽然每家公司都以不同的方式使用数据，但数据质量对于任何AI实施项目来说仍然是必不可少的。如果您拥有可靠、优质的数据，您就无需大量数据集并增加成功的机会。与所有其他组织一样，如果您的组织正在转向AI实施，请检查您是否拥有高质量的数据。确保您的来源值得信赖并进行尽职调查，以检查它们是否符合您的数据要求。