在发布一百万个公共帖子后,Bluesky 正在努力解决重大隐私问题 被刮伤 据一位人士称,来自其人工智能培训平台 404媒体 报告。该数据集由 机器学习图书馆员 来自 AI 公司 Hugging Face 的 Daniel van Strien 旨在用于与自然语言处理和社交媒体分析相关的研究。尽管 Bluesky 的代表声称该平台永远不会根据用户数据训练生成人工智能,但其 API 的开放性使其容易受到外部抓取工具的攻击。
Bluesky 因删除用户帖子而面临隐私问题
有问题的数据集来自 Bluesky 消防软管API,它提供公共数据更新的聚合流,包括帖子、点赞和关注。 Van Strien 的目标是利用该数据集来推动机器学习研究。然而,它不仅包括帖子的文本,还包括用户的去中心化标识符(DID)和元数据。在媒体报道强调该问题后,由于该数据集引起了用户隐私和未经同意的强烈反对,该数据集迅速从 Hugging Face 中删除。
Bluesky 用户并未明确允许以这种方式使用他们的帖子,尽管 Bluesky 的政策并未明确禁止此类行为。争议的核心在于Bluesky API的开放结构,允许第三方开发者自由访问其公开数据。根据 Bluesky 代表的一份声明,“我们希望找到一种方式让 Bluesky 用户与外部组织/开发人员沟通是否同意”,这表明我们将努力在未来加强用户对数据共享的控制。
在删除数据集后,范斯特林承认他的数据收集方法违反了透明度和同意。 “我为这个错误道歉,”他在 Bluesky 的后续帖子中说道。这一事件提醒用户更好地了解,在平台上公开共享的任何内容都可以被外部实体访问。随着该平台的不断增长(最近用户数量已超过 2000 万),Bluesky 可能会在数据保护措施和用户隐私方面面临越来越严格的审查。
Bluesky 目前正在讨论使用户能够向第三方表达其同意偏好的机制。然而,执行仍然是一个挑战;正如该平台所指出的,最终将取决于外部开发人员是否遵守这些偏好。 Bluesky 的代表还表示,虽然他们的目标是与工程师和法律团队进行讨论,但目前还没有立即的解决方案。
特色图片来源: 蓝天