亚马逊需要大量高质量数据来创造强大的 人工智能模型亚马逊认识到 GitHub 是宝贵的编码元数据的宝库,因此制定了一项策略来加快数据收集,尽管平台存在限制。
根据 商业内幕亚马逊的通用人工智能 (AGI) 小组概述了其对“来自 GitHub 的定量和定性元数据”的需求,以推进其 AI 训练工作。然而,GitHub 的数据抓取限制——每个帐户每小时仅允许 5,000 次请求——构成了重大障碍。GitHub 上有超过 1.5 亿个公共存储库,传统方法需要数年时间才能积累足够的数据。
亚马逊的解决方法
对此,亚马逊提出了一个解决方法: 鼓励员工创建多个 GitHub 帐户 并共享他们的访问凭证。通过同时利用账户网络,亚马逊旨在将原本需要多年的努力压缩到几周内。虽然亚马逊的行为在法律意义上可能并不严格构成盗窃,但它们确实引发了对数据隐私、许可和平台资源适当使用的道德担忧。
备忘录详细说明了员工应如何创建和管理这些账户,以确保遵守法律和安全准则。其中包括使用亚马逊工作电子邮件、特定类型的 GitHub 令牌以及设置适当的数据访问权限。
亚马逊声称,其做法已得到其法律和安全团队的批准。这表明亚马逊正试图通过确保遵守内部准则在法律范围内运营。然而,此类行动的合法性仍可能受到质疑,尤其是如果 GitHub 或受影响的用户认为它们是违规行为的话。
这其中的道德影响十分重大。通过邀请员工共享个人 GitHub 帐户,亚马逊有可能在未经 GitHub 或存储库所有者明确同意的情况下访问数据。
亚马逊为什么这样做?
亚马逊需要微软 GitHub 的数据,这对于提升其人工智能 (AI) 能力至关重要。人工智能模型(例如用于理解人类语言或进行预测的模型)需要大量不同的数据才能有效学习。GitHub 是数百万个开源软件项目的中心,提供了大量可以训练这些人工智能算法的代码和信息。
访问 GitHub 数据不仅仅涉及代码行。它还包括有价值的详细信息,例如项目如何随时间发展、谁做出了贡献以及开发人员如何协作。这些元数据对于 AI 模型学习模式、提高准确性和开发更好的解决问题的方法至关重要。
在科技巨头们竞争激烈的世界里,拥有全面的数据集可以让亚马逊这样的公司获得显著的优势。通过利用 GitHub 数据,亚马逊旨在加快创新速度,赶超竞争对手,并创造更智能的技术,以增强从在线购物推荐到云服务等一切功能。
对于亚马逊来说,人工智能不仅仅是一个流行词——它是改善客户体验、优化运营和推动整个业务创新不可或缺的一部分。通过使用 GitHub 数据训练人工智能模型,亚马逊可以开发出能够处理复杂任务并提高效率的更智能的系统。
然而,使用 GitHub 等平台的数据会引发道德问题。公司必须解决用户隐私、数据所有权和遵守平台规则的问题。亚马逊的做法虽然得到了内部批准,但凸显了科技公司应如何负责任地使用和保护数字信息的持续争论。