在上届AI大会上,我们有机会与Ainekko/AIFoundry的联合创始人Roman Shaposhnik和Tanya Dadasheva坐下来,与他们一起讨论了AI时代企业数据价值的一个模糊话题。我们首先提出的关键问题之一是:大多数公司是否都运行相同的前沿人工智能模型,整合他们的数据是他们有机会脱颖而出的唯一方式吗?数据真的是企业的护城河吗?
罗曼回忆道:“早在2009年,当他刚进入大数据界时,大家都在谈论企业如何利用数据进行转型。那时,他们甚至还不是数字化企业;而是数字化企业。数字化转型尚未发生。这些大多是模拟企业,但他们已经强调了他们收集的数据的价值——有关客户、交易、供应链等的数据。人们将数据比作石油,一种具有内在价值的东西,需要提取才能发挥其真正的潜力”。
然而,石油是一种商品。因此,如果我们将数据与石油进行比较,则表明每个人都可以访问相同的数据,尽管数量不同并且对某些人来说更容易获取。这种比较使数据感觉像是一种商品,每个人都可以使用,但处理方式不同。
当数据以其原始形式存放在企业数据仓库中时,它就像一个无定形的斑点——每个人都拥有的商品。然而,一旦开始提炼它,真正的价值就体现出来了。这不仅仅是获取数据,而是建立一个从提取到提炼所有价值的流程。
“有趣的是,这让我想起一位石油公司高管曾经告诉我的话”——罗马分享。 “这位高管将这项业务描述为重新配置碳分子,而不是开采石油。对他们来说,石油只是碳的来源。他们建立了供应链,能够将这些碳分子重新配置成适合不同地区市场需求的产品——塑料、汽油,无论什么需求。他设想软件定义的炼油厂可以根据实时市场需求调整产量。这个概念让我大吃一惊,我认为它与我们现在在数据中看到的类似——将计算引入数据,对其进行改进以在您需要的地方获得您需要的东西”——这是罗曼的洞察力。
在企业中,当您开始收集数据时,您会意识到数据是分散的,并且分布在很多地方,有时困在大型机中或分散在 Salesforce 等系统中。即使你设法收集它,也有很多孤岛,我们需要一种类似水力压裂的方法来提取有价值的部分。正如水力压裂从以前无法到达的地方提取石油一样,我们需要方法来获取否则会被锁定的企业数据。
许多企业数据仍然驻留在大型机中,将其取出具有挑战性。这是一个有趣的事实:如果您今天预订航班,后端很有可能仍然会访问大型机。这不仅仅是提取一次数据;而是提取数据。您需要持续访问它。许多公司正在通过帮助企业从旧系统中获取数据来开展业务,而 Apache Airflow 等工具正在帮助简化这些流程。
但即使数据不再停留在大型机中,它仍然分散在云 SaaS 服务或数据湖等系统中。这意味着企业无法将所有数据集中在一处,而且这些数据肯定无法满足他们所需的可访问性或及时性。您可能认为从头开始会给您带来优势,但即使是较新的系统也依赖于多个合作伙伴,而这些合作伙伴控制着您所需的部分数据。
事实证明,数据作为护城河的整个概念是具有误导性的。从概念上讲,企业拥有自己的数据,但他们往往缺乏真正的访问权限。例如,使用Salesforce的企业拥有数据,但对该数据的实际控制和访问受到Salesforce的限制。拥有数据和拥有数据之间的区别是显着的。
“当人工智能开始介入时,事情会变得更加复杂”——AInekko 和 AIFoundry.org 的另一位联合创始人 Tanya Dadasheva 说道。 “企业可能拥有数据,但这并不一定意味着像 Salesforce 这样的公司可以使用它来训练模型。关于匿名数据是否可以用于训练也存在争议——在法律上,这是一个灰色地带。一般来说,匿名数据越多,其价值就越少。在某些时候,获得明确的许可成为前进的唯一途径”。
这种所有权问题超出了企业范围。它还会影响最终用户。用户通常同意共享数据,但他们可能不同意将其用于训练模型。存在对模型数据进行逆向工程的案例,导致潜在的隐私侵犯。
在平衡数据生产者、数据消费者和数据提炼实体的早期阶段,从法律上和技术上来说,弄清楚这些关系如何运作是极其复杂的。例如,与美国相比,欧洲的隐私规则要严格得多(https://artificialintelligenceact.eu/)。在美国,法律体系通常会在行动中解决问题,而欧洲则更喜欢提前制定法律。
Tanya 在此处讨论了数据可用性:“这一切都与可用数据的价值有关。得益于公共和半公共数据,我们构建的大规模语言模型变得令人印象深刻。然而,许多新内容现在都被困在微信、Telegram 或 Discord 等“围墙花园”中,无法进行训练——真正的暗网!这意味着模型可能会过时,无法从新数据中学习或了解新趋势。
最终,我们面临着创建陷入过去的模式的风险,无法吸收新信息或适应新的对话风格。它们仍将包含较旧的数据,并且不会代表新一代的行为和文化。这就像和祖父母说话一样——很有趣,但绝对来自另一个时代。”
但企业数据的内部用户是谁? Roman回忆了企业内部数据利用理念的三个时代:“显然,它用于许多决策,这就是整个商业智能部分存在的原因。这一切实际上都始于商业智能。公司必须做出预测并向股市发出他们预计下一季度或未来几个季度会发生什么的信号。其中许多决策长期以来都是由数据驱动的。这是数据使用的第一级——非常简单且面向业务。
第二个层次始于数字化定义的企业或数字化转型的概念。公司意识到,他们与客户互动的方式才是有价值的,而不一定是他们目前销售的实际产品。与客户的关系本身就是价值。他们希望这种关系能够尽可能长久地持续下去,有时甚至达到了让你尽可能长时间地粘在屏幕上的极端程度。它是关于塑造消费者的行为并让他们做某些事情。这只能通过分析关于你的许多不同的事情来完成——你的社会和经济地位、你的性别认同,以及其他能让他们尽可能长时间地维持这种关系的数据点。
现在,我们来到了企业如何从数据产品中受益的第三个层次或第三阶段。每个人都在谈论这些代理系统,因为企业现在不仅希望得到劳动力的帮助。尽管这听起来很未来主义,但它通常就像弄清楚会议应该何时举行一样简单。我们总是遇到这样的情况:需要五封不同的电子邮件和三个电话才能弄清楚两个人如何见面共进午餐。如果电子代理可以为我们协商所有这些并提供帮助,那就容易多了。这是一个简单的例子,但企业还有各种各样的例子。现在是将企业的某些方面外部化到这些代理中。只有当你能够根据企业过去采用的多种模式来训练人工智能代理时,才能做到这一点”。
回到谁收集数据、谁拥有数据并最终从数据中受益:Roman 回到 Pivotal 参与几个涉及航空公司和制造发动机的公司的项目时第一次看到:
“我当时不知道的是,显然你实际上并没有购买发动机;而是你购买了发动机。”你租用发动机。这就是商业模式。生产发动机的公司拥有所有这些数据——优化发动机所需的所有遥测数据。但随后航空公司的反应是:“等一下。这与我们优化航线所需的数据完全相同。我们是为您收集这些数据的人,因为我们实际上驾驶飞机。您的发动机会保持在地面上,直到驾驶舱内有一名飞行员实际驾驶飞机。那么谁能从数据中获利呢?我们已经为引擎人员支付了太多的费用来维护这些引擎。那么现在您告诉我们我们将免费为您提供数据?不,不,不。”
整个论点确实非常引人注目,因为这正是 OpenAI 和所有大企业之间正在重复的事情。大企业觉得OpenAI牛逼;他们可以在几分钟内构建这个聊天机器人——这太棒了。但他们真的可以将微调和所有其他事情所需的数据发送到 OpenAI 吗?其次,假设这些公司甚至可以。假设这是一种很好的数据,但这是他们的数据——由那些公司收集的。当然,这对 OpenAI 来说是有价值的,那么为什么他们不为收集它的公司在推理方面支付费用呢?
当今数据世界的主要问题就在这里:人工智能也一样吗?
在某种程度上,确实如此,但有重要的细微差别。如果未来飞机的核心“引擎”——模型——由这些大公司生产,然后企业利用他们的数据来微调或增强这些模型,那么就会有一个非常和谐的共存。一个非常复杂的事情,以及一个更高度专业化、也许不那么复杂的事情。如果这种情况发生并在技术上取得成功,那么在经济和政策层面上,关于什么属于谁以及我们如何分割数据集的对话将变得更加容易。
作为一个例子,罗曼引用了他与一位以设计汽车为生的专家的对话:“他说,汽车设计师基本上有两种类型:一种是为了发动机而设计汽车,另一种是设计汽车然后购买发动机。如果您现在正在生产汽车,那么获得发动机就会容易得多,因为发动机是汽车中最复杂的部分。然而,它绝对没有定义产品。但是,这个行业的运作方式:更容易说,好吧,考虑到一些限制,我正在选择一种发动机,然后我至少围绕该发动机或该发动机类型设计一整套汽车。”
这促使我们得出以下概念:我们相信这就是人工智能驱动的数据世界的样子。会有“Google”阵营和“Meta 阵营”,你会选择其中一种开放模型 – 所有这些都足够好。然后,作为企业,您感兴趣的所有内容都建立在应用您的数据以及如何微调它们并不断更新来自不同“阵营”的这些模型的专业知识方面。 。如果这在技术和经济上取得成功,一个美丽的新世界将会出现。