您可能会认为预测痴呆症死亡率或映射城市噪音将需要专家团队,地面调查和卫星成像公司。但是一个新的AI模型 – 由 研究人员 在北京大学大学和蒙特利尔大学(University of Montreal)中,它可以通过查看地图,推文和图像来一次完成所有操作。该系统称为 Omnigeo,如果研究符合其承诺,它可以重新定义我们如何实时阅读城市,灾难和人类环境。
为什么解码地理空间数据如此困难
Geoai – 地理空间人工智能的保留 – 一直是一个棘手的游戏。这样想:这就像试图一次阅读五种语言来理解城市。您拥有卫星图像,街道级照片,公共卫生统计数据,充满语和主题标签的推文以及来自数千个固定位置的位置数据。这些数据类型中的每一个都说明了不同的方言,而当今的大多数AI系统仅在一两个方面流利。
现有模型可能擅长分类遥感图像或文本中标记位置,但是当您将所有这些任务扔进一个锅中时,情况就会崩溃。 Omnigeo在这里介入:这是一个训练有素来处理所有系统的单个AI系统。
Omnigeo背后的团队设计了 多模式大语言模型(MLLM)– 一种可以一次解释卫星图像,地理空间元数据和自然语言的AI。它基于Llava和Qwen2等开源模型,但针对五个核心领域进行了微调:健康地理,城市地理,遥感,城市感知和地理空间语义。
Omnigeo没有为每个任务构建一个模型,而是同时处理它们。秘密?基于教学的学习与研究人员所说的“多模式微调”配对。简而言之,它从图像捕获对,时间序列数据,空间向量等等中学习 – 都在同一位置对齐。
让我们谈谈现实世界的应用程序
这是事情变得有趣的地方。 Omnigeo经过培训:
- 使用历史数据和卫星图像预测县级痴呆相关的死亡率。
- 检测城市社区的主要功能,例如一个地区或商业办公室所主导的区域,基于街道级数据和POI(感兴趣的点)计数。
- 评估街道纯粹基于图像和相关标题的“嘈杂”或“活泼”。
- 解析自然灾害期间推文中的位置描述,例如从洪水救援请求中提取“ 21719 Grand Hollow Lane,Katy,TX”。
仅最后一个用例就足以暗示该模型在应急响应和智能城市管理方面的潜力。
Omnigeo如何看到世界
从技术上讲,Omnigeo通过将地理数据转换为可读的叙述来起作用。例如,卫星图像变成了自然语言标题(“具有稀疏工业区域的绿色区域”),然后与结构化数据(如死亡率或POI分布)保持一致。所有这些都包裹在指令数据集中,允许模型像人类一样在上下文中学习。
这不仅仅是理论上。 Omnigeo在关键的地理空间任务中优于GPT-4O和其他领先模型,包括 场景分类,,,, 位置识别, 和 城市功能预测。在某些情况下,它将错误率降低了一半以上。即使在诸如Urban感知之类的主观领域(“美丽”或“令人沮丧”的街道外观),它也被证明是令人印象深刻的。
为什么现在?
城市变得越来越难管理,并且更容易监视。随着气候事件,人口繁荣和公共卫生危机立即袭来,决策者需要更快的工具来解释地理空间混乱。 Omnigeo到达AI最终能够跨格式吸收高维数据的那一刻。
区别?今天,大多数大型模型都会说话。 Omnigeo看到,听到并了解空间。
Omnigeo是未来地球空间AI的外观的蓝图:一种跨模式训练的系统,与现实世界的输入相符,并准备概括。
如果chatgpt是您的语言助手, Omnigeo可能是您城市的下一个紧急大脑– 将视觉混乱和位置混乱变成实时,可操作的见解。
它可以做到这一切,而无需走到外面。
特色图片来源: KeremGülen/Midjourney