城市变化通常会偷偷摸摸。这里的新咖啡馆。那里涂有漆的立交桥。但是,如果您可以看到整个城市的视觉转换的整整十年,该怎么会自动捕获,分类和解释AI,该怎么办?
这正是一个新的研究项目 视觉编年史 着手做。开发 研究人员 该系统从斯坦福大学和Google DeepMind,使用多模式大语言模型(MLLM)分析了来自纽约市和旧金山的4000万个Google Street View图像。它发现了人类不容易注意到的趋势。
不可能的规模问题
在计算机视觉中跟踪小变化并不是什么新鲜事物。但是,大多数以前的工作都需要标签或专注于汽车或面孔等特定事物。这个项目不同。目标是开放式的:十年来这些城市在这些城市中最常发生变化?
简单的问题。在实践中残酷地艰难。
大型语言模型擅长推理图像,但是当数据集增长超过几千张图像时,它们会挣扎。 Visual Chronicles正在处理数百万。因此,研究人员设计了一种自下而上的策略。首先,检测微小的本地变化,例如新标志或拆除的树。然后,将它们聚集到更广泛的全市趋势中。
AI在街上的侦探工作
这是它在行动中的工作方式:
- 步骤1: 比较随着时间的推移,比较同一位置的图像。
- 步骤2: 要求AI描述发生了什么变化以及图像的证据。
- 步骤3: 集团在整个城市发现了类似的变化。
- 步骤4: 通过进一步的AI检查来验证这些趋势。
这种混合方法使系统检测到微妙的变化。 Covid-19之后的户外用餐设置。屋顶上的新太阳能电池板。所有发现都没有淹没数据或产生“经济增长”之类的抽象答案。
那发现了什么?
在纽约市,AI发现了巨大的上升:
- 安全摄像机:跨社区的745个新装置。
- 停车场周围的篱笆:509个新增加。
- 人行道升级:519新的红色ADA警告垫。
在旧金山,十年的标志性趋势看起来不同:
- 太阳能电池板:1504个新的屋顶安装,尤其是在高速公路上可见的。
- 专用的公交车道:751新车道转换用于公共交通。
- 自行车架:1799个新架子,主要在市中心附近。
共同岁月的视觉指纹无处不在
研究人员还专注于大流行时期,捕捉了城市街道在2020年之后如何改编的。户外用餐在旧金山爆炸,仅在2020年至2022年之间就记录了1482个新设置。
然后是蓝色立交桥。旧金山的高速公路部分被涂上了“ Coronado Blue”,该细节在2020年之后在Street View Images中发现了481次。
在纽约,该系统还用于跟踪零售商店的变化。它揭示了两个相反的趋势:
- 绅士化地区的面包店和果汁店的开业。
- 关闭较旧零售区的杂货店和银行分支机构。
因为为什么不。研究人员进行了最后一个实验,要求AI查看随机图像并找到“不寻常的事物”。
赢家?巨型抽象雕塑散布在纽约市。超过200个公共艺术装置实例,所有设施都由模型分组。
为什么这远远超出了街景
Visual Chronicles展示了未来的AI工具如何使公司,政府或研究人员跟踪任何大型视觉数据集中的变化。卫星图像。工厂地板。随着时间的流逝而变化的任何地方。
这也是一个警告。 AI不仅是“查看”图像。它以塑造我们认为正在发生的事情的方式向我们解释了他们。我们对这些自动化趋势报告的信任越多,我们需要的系统就越谨慎地平衡AI的速度。
Visual Chronicles是这种系统的早期例子。它已经足够精确,可以找到真实的模式,足够可扩展以处理数百万张图像,并且足够扎根以使故事讲述得到证据的支持。