对更大的人工智能模型的争夺一直是近期进步的一个标志。 然而,微软正在通过 Phi-3 Mini 来改变现状,这是一款人工智能模型,尽管尺寸紧凑,但拥有令人印象深刻的功能。
传统上,大型语言模型(LLM)的成功与参数的数量有关——本质上是模型理解语言的构建块。
考虑到每个人的计算成本和可用性,Microsoft Phi-3 旨在改变这种“传统”方法。
Microsoft Phi-3 Mini 将一个巨人装进你的口袋
GPT-3.5 是目前 LLM 竞赛中的领跑者,拥有惊人的 1750 亿个参数。 这个巨大的数字使得 GPT-3.5 能够处理大量的文本数据,从而赋予它对语言的广泛而细致的理解。 然而,这种复杂性也伴随着成本。 运行具有如此高参数数量的模型需要大量的计算资源,使其昂贵且耗电。
另一方面,微软的迷你模型则采取了不同的方法。 通过使用小得多的参数集(仅 38 亿个),Phi-3 Mini 的运行效率使其较大的同类产品相形见绌。 尺寸的减小转化为多种优势。
所有这些使得 Microsoft Phi-3:
- 运行成本显着降低
- 设备上人工智能应用的潜在动力源
Phi-3 Mini 的训练方案
Phi-3 Mini 的另一个有趣的方面是它的训练方法。
与接受海量文本和代码数据集训练的大型同类产品不同,Phi-3 Mini 的教育涉及更精心的选择。 研究人员选择了受儿童学习方式启发的课程——以儿童书籍为基础。
这种方法似乎已经产生了积极的结果,Phi-3 Mini 的性能可与 GPT-3.5 相媲美。 几个基准。
成功的基准
微软研究人员使用已建立的法学硕士基准测试其新模型。 该模型在 MMLU(衡量模型理解语言中复杂关系的能力的衡量标准)和 MT-bench(机器翻译能力的测试)等指标上取得了令人印象深刻的分数。
这些结果表明,尽管 Phi-3 Mini 规模较大,但仍可以与 LLM 领域的知名人士竞争。
它是如何取得如此骄人的成绩的?
Phi-3 Mini 的技术细节揭示了一种令人着迷的方法,可以通过非常小的模型尺寸实现令人印象深刻的结果。 以下是关键方面的细分:
Transformer 解码器架构
Phi-3 Mini 采用变压器解码器架构,这是有效语言模型的普遍设计选择。 该架构擅长处理文本等顺序数据,使模型能够理解句子中单词之间的关系。
上下文长度
标准 Phi-3 Mini 的上下文长度为 4,000 个令牌。 这定义了模型在生成文本时考虑的最大标记数(单词或单词的一部分)。 较长的上下文长度可以更深入地理解前面的对话,但也需要更多的处理能力。
长上下文版本 (Phi-3-Mini-128K)
对于需要更广泛上下文的任务,可以使用名为 Phi-3-Mini-128K 的变体。 该版本将上下文长度扩展至高达 128,000 个标记,使其能够处理更复杂的信息序列。
与现有工具的兼容性
为了让开发者社区受益,Phi-3 Mini 与 Llama-2 系列模型具有相似的结构和词汇量 (320,641)。 这种兼容性允许开发人员在使用 Phi-3 Mini 时利用专为 Llama-2 设计的现有工具和库。
型号参数
这就是 Phi-3 Mini 真正的闪光点。 它只有 30.72 亿个参数,远远低于 GPT-3.5(1750 亿个参数)等较大模型中的惊人数量。
参数的显着减少意味着处理能力和内存使用方面的卓越效率。
微软的 Saif Naik 解释道:
“我们与 Krishi Mitra 副驾驶的目标是提高效率,同时保持大型语言模型的准确性。 我们很高兴与 Microsoft 合作,使用 Phi-3 的微调版本来实现我们的目标——效率和准确性!”
– Saif Naik,ITCMAARS 技术主管
培训方法
Phi-3 Mini 的培训从“教科书就是你所需要的”方法中汲取灵感。 该方法强调高质量的训练数据,而不是简单地扩大模型大小。 培训数据经过精心策划,重点关注具有特定“教育水平”的网络资源和其他法学硕士生成的合成数据。
这一策略使得 Phi-3 Mini 尽管尺寸紧凑,却取得了令人印象深刻的成果。
数据过滤以实现最佳学习
与优先考虑计算资源或过度训练的传统方法不同,Phi-3 Mini 专注于其规模的“数据最佳机制”。 这涉及到仔细过滤网络数据,以确保其包含正确水平的“知识”并提高推理技能。
例如,一般体育数据可能会被排除,以优先考虑提高模型推理能力的信息。
训练后微调
在核心训练过程之后,新模型通过监督微调(SFT)和直接偏好优化(DPO)进行额外的细化。 SFT 将模型暴露给各个领域的精选数据,包括数学、编码和安全原则。 DPO 通过识别和排除不需要的输出来帮助模型远离不需要的行为。
这个训练后阶段将 Phi-3 Mini 从语言模型转变为多功能且安全的人工智能助手。
高效的设备性能
Phi-3 Mini 的小尺寸意味着卓越的设备性能。 通过将模型量化为 4 位,仅占用 1.8 GB 内存。
在天作之合
您还记得微软失败的智能手机尝试吗? 关于什么 苹果与谷歌 Gemini 的整合交易失败 最近几个月? 或者您是否一直在关注苹果公司直言不讳地整合 iOS 18 设备上法学硕士 过去几周?
是否敲响了警钟?
Phi-3 Mini 的潜在应用非常广泛。 其效率使其非常适合集成到移动设备中,从而有可能实现更智能的虚拟助手和实时语言翻译等功能。 此外,它的成本效益可以为从事各种人工智能项目的开发人员更广泛采用打开大门。
这正是苹果所寻求的。 当然,这种说法目前还只是猜测,但说这是“天作之合”也不为过。 此外,在研究论文中,微软的新项目 已经在原生搭载 A16 Bionic 芯片的 iPhone 上运行。
Phi-3 Mini 的成功取决于多种因素的结合——合适的架构、上下文长度的有效利用、与现有工具的兼容性、对高质量训练数据的关注以及优化技术。 这种独特的方法为强大而高效的人工智能模型铺平了道路,这些模型可以在个人设备上无缝运行。
特色图片来源: 矢量图/Freepik