许多人会认为AI繁荣立即激发了对公共网络数据的巨大需求。毕竟,这些模型经过数据培训,其中大量在互联网上。它有一些事实,但不是整个故事。
当像Chatgpt这样的工具开始一个接一个地推出时,他们所基于的AI模型已经进行了培训。数据已经从各种来源获取,用于创建向消费者引入的工具。当然,这些工具始终在其他数据的帮助下有所改进。但是,大部分数据是通过与用户或这些工具的开发人员通过其内部方法来收集的。起初,这已经足够了。
当这些解决方案获得搜索引擎实时访问数据的功能时,情况就开始改变。对Web数据的需求飙升。即便如此,与目前正在加速的Web数据需求相比,热身也是如此。
知识差距上的桥梁
在AI时代,进展很快。但是,如果您回想一下何时发布了第一个对话的AI工具,您可能会记得,与传统搜索引擎相比,它们具有明显的弱点 – 知识截止。
他们只能知道在发布或上次更新之日之前发生了什么。因此,您所生活的现实与最后更新之间存在差距。当您想探索最近的事件或获得更新和相关信息时,诸如Chatgpt之类的工具使您失败了。
随着AI驱动的搜索引擎的发展,情况发生了变化。为了提供相关且可靠的生成搜索结果,这些工具必须可以访问实时在线数据。模型和互联网之间需要一座桥梁,信息可以立即传播。
许多部分,例如庞大的代理网络,刮擦API和其他用于无缝集成和开放访问网站的工具,它们结合起来创建Web数据收集基础架构 – 必要的桥梁。
这仅仅是开始。这 生成搜索的影响 关于我们如何浏览互联网以来,自1998年Google搜索到达以来,几乎肯定是最伟大的。当我们目睹其发展时,从建立的古典搜索引擎到新兴和饥饿的创业公司的公司正在发展,他们正在竞赛在未来的搜索中脱颖而出。该种族在很大程度上取决于他们跑步的桥梁的可靠程度。
人工智能多模式
我们最熟悉的AI模型在有限的空间中运行。聊天机器人可以阅读并响应基于文本的提示。即使是可以根据自然语言提示生成图像的更先进的工具也具有非常严格的限制。
AI进化中的自然下一步, 多模式AI 使用多种类型的数据来提供更广泛,有见地和基于良好的输出。培训多模式AI需要大量视频,音频,文本,语音和其他数据类型。这些模型还将允许基于AI的下一级视频生成,从而产生更高质量和内部录像的一致性。
随着竞争的加剧,新球员像 DeepSeek 问题突然出现,似乎无处不在,问题是哪些公司在开发封闭式后面的多模式工具方面处于领先地位。无论他们是哪个公司,这些公司都需要数据刮擦功能,即使在大数据时代也是前所未有的。
为了创建有效的多模式工具,尤其是视频生成器,开发人员必须刮擦大量视频数据。刮擦视频并不像刮擦基于文本的网页的HTML。任务的大小和复杂性是完全不同的。首先,视频数据集比HTML数据集大数千倍。其次,您需要获得图像,声音,抄写(视频的各个方面),以使您的工具在爆炸市场中具有竞争力。
因此,公司需要既庞大又多样的稳定数据流。除了广阔之处,所需的基础架构必须具有高级数据处理能力,以便无错误地处理此流程。一些公司可能会选择现成的数据集或解决方案,以避免在快节奏的市场中可能会非常昂贵的丝毫延误。
多模式遇到多语言
对可靠的多语言AI的需求是巨大的。通过消除日常情况下的语言障碍以及精简,它可以使生活变得更加轻松 国际业务运营。最多 大语模型 受过培训,主要是用英语运作,尽管它们正在改善,但还有很长的路要走。
这是另一个竞争领域,可能对无法在基于英语的AI模型市场中竞争的AI初创公司特别有吸引力。互联网会说所有语言,并通过开发人员竞争来构建多语言或非英语语言优先级工具来研究另一波数据提取。
而且,由于这对其他语言的需求已经很大,因此人们可以轻松地看到为什么以前只是AI的热身。在掌握了基础知识之后,AI开发中的很多事情都被推迟了。后来到了。现在,AI希望在任何媒体中创建任何内容并说所有语言。为此,仍然需要提取许多未开发的数据。
常绿数据
总而言之,即使在Web数据刮擦的时代对于主导未来的技术景观至关重要,许多数据尚未被删除。那些使用该数据首先获得该数据的工具的人将自己定位自己,以领导AI开发的下一个阶段。
但是,即使在培训和发布下一代多模式工具以及对培训补贴的视频数据集的需求之后,总会有一种数据中的一种数据 – 实时数据。最好的AI工具将是能够提供相关信息并了解当前上下文的工具。
因此,AI开发人员比最终将老化的大数据集所需的是与Web的集成,从而使数据流稳定,每秒都新生成。建立该集成并使其可靠是定义AI市场未来的挑战。