根据最佳估计, 7,000 以北 当今,全球有 1500 多种语言。 约 400 种语言 有超过一百万使用者。考虑到某些语言(尤其是英语)似乎在数字领域占据主导地位,实际上对能够跨不同语言工作并执行不同任务的工具的需求巨大。
人工智能和自然语言处理是计算机科学的一个分支,几十年来,人们一直在努力开发能够实现这一目标的工具。过去几年,基于多语言自然语言处理 (NLP) 模型的众多工具应运而生。这些模型就像信息时代的罗塞塔石碑,让计算机能够在语言之间无缝切换。它们不仅提供翻译,还支持各种应用,例如情绪和内容分析。
因此,多语言 NLP 在未来将发挥重要作用。它可以用于机器翻译或分析不同语言的社交媒体帖子以确定情绪,从而为营销策略或客户服务提供信息。多语言 NLP 还可以支持流媒体服务的内容推荐或以多种语言提供客户服务。它可以支持新闻内容分析或实现大规模健康记录翻译。简而言之,许多曾经看似不可能完成的任务(例如将法国医院的健康记录翻译成英文)都可以通过多语言 NLP 实现。
一些人还认为,多语言 NLP 的兴起是数据民主化的力量,使曾经仅以几种语言提供的内容和服务可供所有人使用。多语言 NLP 仍在不断发展,甚至融入了非文本数据。
人与机器:多语言模型架构的最新进展
自然语言处理有着深厚的根源。英国数学家和计算机科学家艾伦·图灵在他 1950 年的开创性论文“计算机器与智能” NLP 在随后的几十年中稳步发展,多语言 NLP 在 2000 年代开始快速发展。然而,多语言模型架构的一些最重大的进步发生在过去十年。
几乎所有从事翻译工作的人都熟悉这些模型的一些名称。 DeepL例如,由总部位于德国科隆的 DeepL SE 拥有,它依靠自己的算法与卷积神经网络相结合,提供 33 种语言和方言。于 2017 年首次推出,这是多语言 NLP 的一个著名示例。
当然还有 ChatGPT由总部位于旧金山的 OpenAI 推出,基于其生成式预训练 Transformer 基础模型 3.5,该模型后来升级到版本 4。GPT 3.5 和 4 是目前最大的语言模型之一,在海量数据集上进行训练,使它们能够调查大量文本数据,捕捉语言中的复杂模式并输出高质量的文本。
这种多语言 NLP 已被大量用于语言翻译、情感分析和许多其他目的。GPT 3.5 和 GPT 4 可通过 API 访问。2018 年,谷歌的研究人员推出了一种名为 Transformers 的双向编码器表示的语言模型(BERT)。该模型包含一个变换器编码器架构,该公司使用它来更好地理解其平台上的搜索,以及在查询中返回更多相关信息。该模型通过掩码标记预测和下一句预测进行训练。
各种相关模型都在BERT模型上进行了创新,例如 罗伯塔,它修改了超参数,删除了下一句预训练目标,并允许使用更大的批量进行训练。
为了不甘示弱,Facebook AI 发布了一个名为 2019 年的 XLM-R其中它在包含来自 CommonCrawl 数据集的大约一百种语言的多语言数据集上训练了前面提到的 RoBERTa。
描述该工具的科学家指出,该工具在数据集较小的语言(如斯瓦希里语和乌尔都语)上表现出色,这两种语言都有数千万使用者。他们还指出了该工具在跨语言理解方面的表现,即模型在一种语言上进行训练,然后用于另一种语言,而无需更多训练数据。
持续的挑战和拟议的解决方案
虽然多语言 NLP 在过去几年中发展迅速,但它也面临着各种障碍。其中之一就是语言多样性。
创建这样的模型不仅仅是为了提供无缝翻译。语言可能会因地区而异或更多地依赖于上下文,俚语也会发生变化。这意味着 NLP 模型必须不断改进才能发挥作用。
此外,有些语言在数字评论方面并没有得到很好的体现,有了这些数据集,训练模型就更容易了。例如,使用非拉丁字母的较小社区尤其被排除在外。
第三个相当有趣的挑战涉及代码转换,社区成员可能会在语言之间切换。想象一下,一位英国诗人突然大量引用法语,或者一位日本作家在散文中加入英语引用。如果模型将该语言识别为日语,那么它如何处理文本中的那些英语片段?
还有关于资源获取和偏见的问题。考虑到实现多语言 NLP 所需的计算能力,只有世界上最强大的公司才能调集资源来创建它们吗?或者有没有办法让研究人员和组织更容易获得它们?如果数据集有利于较大的语言或社区,那么如何确保较小语言的使用者得到充分的代表?
最后,数据质量低劣也是普遍存在的问题。研究人员不得不承认,某些语言的源数据可能不准确,从而导致输出结果出现偏差。
解决方案主要集中在投入更多时间进行研究和合作。研究人员必须努力从代表性不足的语言中获取更好的数据,同时改进他们的模型。有些研究人员已经采用了零样本和少量样本学习方法来处理语言数据很少的情况。
为了减少偏见,他们还致力于创建多样化的训练数据集并制定指标以确保公平性。开发人员还意识到,如果一种语言的内容在另一种语言中呈现不佳,可能会令人反感或不恰当,因此他们正在解决这个问题。
在可及性方面,已经出现了一些规模较小的模型来解决资源问题。其中一些较小的模型包括 微软的 Orca 2 和 菲 2,EleutherAI的 GPT-J 和 GPT-Neo以及 T5 Small,这是 Google 文本到文本转换转换器 (T5) 的精简版。
多语言 NLP 的未来
正当开发人员寻求解决当前一代模型所面临的挑战的解决方案时,创新正在进行中,彻底改变这些模型的功能。
多模态多语言 NLP 将通过处理其他类型的数据(如图像或其他视听数据)以及文本来实现这一点。例如,它可以分析内容中的面部表情或语调,这可用于改进机器翻译或情绪分析,从而为处理管道添加新的数据维度。
创新也在进行中,以改进现有的语音助手和多语言聊天机器人。苹果的 Siri 语音助手目前可以回答以下问题: 约 25 种语言和方言而亚马逊的 Alexa 有 9 种款式可供选择通过使用多语言 NLP,这些语音助手可以供全球数百万人使用。
同样,聊天机器人和虚拟代理也可以得到改进,不仅在内容方面,还可以使它们的响应更具情境性和针对性,以针对用户的查询,从而改善用户的体验。
随着技术的发展,多语言 NLP 将从翻译、情感分析和其他当前用途扩展到更广泛的应用。例如,在线教育工具可以更轻松地提供多种语言版本。
借助多语言 NLP,公司可以改进研究,接触更多客户,并更好地服务本地市场。简而言之,多语言 NLP 还处于早期阶段。鉴于发展速度,未来很快就会到来。
特色图片来源: 自由图片