在机器学习中,很少有想法能够像元素周期表曾经对化学反应所做的那样统一复杂性。现在, 麻省理工学院,微软和Google的研究人员 试图通过I-CON或信息对比学习来做到这一点。这个想法很简单:代表大多数机器学习算法 – 分类,回归,聚类,甚至是大型语言模型 – 作为一种一般原则的特殊情况:学习数据点之间的关系。
就像化学元素属于可预测的群体一样,研究人员声称机器学习算法也形成了一种模式。通过映射这些模式,I-CON不仅阐明了旧方法。它预测了新的。一个这样的预测?最先进的图像分类算法需要零人类标签。
想象一下宴会厅的晚餐。每个来宾(数据点)找到一个理想情况下的座位(群集)(类似的数据)。一些朋友坐在一起,其他朋友则散布在桌子上。这个称为聚类晚会的隐喻捕获了I-CON处理聚类的方式:优化数据点基于固有关系的紧密程度。这不仅是关于谁是谁,而且是什么类型的债券重要。无论是视觉相似性,共享的类标签还是图形连接。
这个宴会厅的类比扩展到了所有机器学习。 I-CON框架表明,算法主要在定义这些关系方面有所不同。更改客人列表或座位逻辑,您将获得降低,自我监督的学习或光谱聚类。这一切都归结为保持某些关系,同时简化其他关系。
I-CON背后的建筑
I-CON的核心是基于信息理论基础。目的:最小化目标分布之间的差异(KL差异),算法认为应该是什么以及学习分布的实际模型输出。正式地,这写为:
l(θ,ϕ)= ∑ dKL(pθ(·| i)|| q ϕ(·| i))
不同的学习技术是由如何构建两个分布的Pθ和Q ϕ产生的。当Pθ通过视觉接近度组成图像,而Q ϕ通过标签相似性将它们分组时,结果是监督分类。当Pθ依靠图结构,而Q ϕ通过簇近似于图形结构时,我们会得到光谱聚类。即使是语言建模也适合,将令牌共存视为要保留的关系。
组织一切的桌子
受到化学周期表的启发,I-CON团队根据其连接类型建立了一个网格,对算法进行了分类。表中的每个正方形表示输入与输出空间中的唯一方式数据点相关。一旦放置了所有已知技术,就会留下令人惊讶的差距。这些差距并没有指出丢失的数据,它们暗示了可能存在但尚未发现的方法。
为了测试这一点,研究人员通过将聚类与偏见的对比学习结合在一起来填补了一个这样的差距。结果是:一种新方法,其表现优于ImageNet上现有的无监督图像分类器的分类器8%。它通过注入少量噪音(数据点之间的“普遍友谊”)来起作用,这使得聚类过程更加稳定,并且偏向于过度自信的任务。
在这一发现中,辩护起着核心作用。传统的对比学习对不同的样本进行了惩罚,即使这些样本可能并不是真正无关的。 I-CON引入了一种更好的方法:混合均匀分布,该分布软化了有关数据分离的过度刚性假设。这是一项概念上干净的调整,具有可测量的性能。
另一种方法涉及扩大社区本身的定义。 I-CON不仅要看直接最近的邻居,还可以通过邻里图传播,即“步行”以捕获更多的全球结构。这些步行模拟信息如何在节点跨节点传播,从而改善了聚类过程。关于Dino Vision Transformers的测试证实,小规模的繁殖(步行长度为1或2)可产生最大的增益,而不会压倒模型。
性能和回报
I-CON框架不仅仅是理论。在Imagenet-1k上,它使用更简单的自动平衡损失功能击败了先前的最新聚类模型,并扫描了Temi和扫描。与其前任不同,I-CON不需要手动调整惩罚或大小约束。它只是可行的-Dino vit-s,vit-b和vit-l骨干。
DEBIAS INFONCE聚类(I-CON) 提高了匈牙利的准确性:
- VIT-B/14的 +4.5%
- VIT-L/14的 +7.8%
它还表现优于K-均值,对比聚类和一致扫描。关键在于其方法和适应性的清洁统一 – 集群概率,邻居图,类标签,都属于一个雨伞。
I-CON不仅仅是统一者;这是发明的蓝图。通过证明许多算法只是选择邻里分布的不同方式,它使研究人员能够发明新组合。将一种连接类型交换为另一种连接类型。混合辩护。曲调邻居深度。每个调整都对应于表中的一个新条目,即准备测试的新算法。
正如麻省理工学院的Shaden Alshammari所说的那样,机器学习开始感觉不像是一种猜测艺术,而更像是一个结构化的设计空间。 I-CON将学习变成探索 – 毫无炼金术,更多的工程。
I-CON真正提供的是对机器学习的更深层次的理念。它揭示了在模型和方法的大量多样性之下,可能存在共同的结构,而不是建立在刚性公式的基础上,而是基于关系逻辑。从这个意义上讲,I-CON无法解决智力。它映射它。就像第一个元素周期表一样,它使我们了解仍在等待发现的东西。