Bert是一种用于自然语言处理的开源机器学习框架(NLP),可通过使用周围文本的上下文来帮助计算机理解模棱两可的语言。该模型是在英语Wikipedia和Brown Copus的文本上估计的,并且可以通过问答数据集进行微调。 Bert代表来自变形金刚的双向编码器表示,并且基于变压器模型,该模型将每个输出元素动态地连接到每个输入元素。
什么是伯特?
伯特旨在应对解释自然语言的挑战。传统语言模型仅顺序处理文本(从左到右或左右),这使上下文理解有限。 Bert通过双向阅读文本来克服这一限制,从而捕获单词的完整上下文。它在庞大的,未标记的文本和对特定任务进行微调的能力上进行了预处理,使其成为现代NLP的强大工具。
伯特如何工作
伯特的实力来自其基本的变压器架构。与依赖固定序列的早期模型不同,变形金刚以任何顺序处理数据,这使Bert可以权衡目标单词围绕目标单词的影响。这种双向方法使它对语言的理解得到了增强。
变压器体系结构
变压器模型形成了伯特的骨干。它确保每个输出元素都是根据每个输入元素动态计算的。该设计使伯特能够通过检查整个句子的关系,而不仅仅是在单向进程中来处理上下文。
蒙版语言建模
伯特使用一种称为蒙版语言建模(MLM)的技术。在传销中,句子中的某些单词被隐藏了,伯特必须根据句子的其余部分预测这些蒙面的单词。这迫使模型对上下文有深入的了解,而不是依靠静态单词表示。
下一个句子预测
下一个句子预测(NSP)训练伯特,以确定一个句子在逻辑上是否遵循另一句话。通过学习句子对之间的关系(正确和错误配对)提高了其捕获语言流的能力,这对于诸如问答回答之类的任务至关重要。
自我发项机制
自我注意力使Bert可以在句子中权衡每个单词与其他单词的相关性。当一个单词的含义随着新上下文而变化,确保伯特的解释仍然准确,即使单词模棱两可,这种机制是关键。
背景和历史
伯特的发展标志着与早期语言模型的重要不同。先前的模型,例如基于复发性神经网络(RNN)和卷积神经网络(CNN)的模型,以固定的顺序顺序处理文本。这种限制阻碍了他们在完全理解上下文的任务上的表现。
2017年,Google介绍了变压器模型,为伯特等创新铺平了道路。到2018年,Google发布了BERT和开源的BERT,研究表明,它在11个自然语言理解任务(包括情感分析,语义角色标签和文本分类)上取得了最新的结果。 2019年10月,Google将BERT应用于其基于美国的搜索算法,从而增强了对大约10%英语搜索查询的理解。到2019年12月,Bert已扩展到70多种语言,从而改善了语音和基于文本的搜索。
应用和用途
Bert在NLP中具有广泛的应用,可以实现通用和专业任务。它的设计使其非常适合提高语言理解和处理的准确性。
NLP任务
伯特支持序列到序列任务,例如问题回答,抽象摘要,句子预测和会话响应生成。它还符合自然语言理解任务,例如单词感官歧义,多义义解决,自然语言推论和情感分类。
专业变体
已经开发了许多BERT的改编,以优化性能或目标特定领域。例子包括专利分类专利,文档分类的Docbert,生物医学文本挖掘的生物Biobert和Scibert用于科学文献。其他版本,例如Tinybert,Distilbert,Albert,Spanbert,Roberta和Electra,可提高速度,效率或特定于任务的精度。
伯特与GPT
尽管Bert和GPT都是顶级语言模型,但它们的目的不同。伯特通过使用两个方向的上下文完整阅读文本来专注于理解文本。这使其非常适合搜索查询解释和情感分析等任务。相比之下,GPT模型是为文本生成而设计的,在创建原始内容和总结冗长的文本方面非常出色。
对AI的影响和搜索
Google使用BERT通过比以前的模型更好地理解上下文来增强搜索查询的解释。这导致了大约10%的美国英语搜索查询获得更相关的结果。伯特(Bert)处理上下文的能力还提高了语音搜索和基于文本的搜索精度,尤其是因为它已适用于70多种语言。它的影响力在整个AI中扩展,为自然语言理解和推动更高级模型的发展树立了新的标准。