微软正通过新的 Phi-3.5 系列加强其在人工智能领域的竞争力,提供三种专为不同任务而设计的尖端型号。这些模型不仅功能强大,而且用途广泛,使开发人员能够更轻松地处理从基本编码到复杂问题解决甚至视觉任务的所有问题。无论您的资源有限还是需要高级 人工智能 功能方面,Phi-3.5 型号具有一些优势,下面我们就来快速了解一下。
微软 Phi-3.5 型号解析
微软最新发布的 Phi 3.5 系列引入了三种先进的 AI 模型:Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct。每种模型都经过精心设计,以满足特定需求,从基本推理到高级多模式任务。
所有三个 Microsoft Phi-3.5 模型均在 MIT 许可下提供,允许开发人员以最少的限制使用、修改和分发模型。这种开源方法支持广泛采用,并促进各种应用和研究领域的创新。
Phi-3.5 Mini Instruct:高效、紧凑
这 微软Phi-3.5迷你指导 该模型旨在在计算资源有限的环境中表现出色。该模型拥有 38 亿个参数,专门用于需要强大推理能力但不需要大量计算能力的任务。使用 512 个 H100-80G GPU 在 10 天内对 3.4 万亿个 token 进行了训练。
主要特点:
- 参数: 38亿
- 上下文长度: 128k 个代币
- 主要用例: 代码生成、数学问题解决、基于逻辑的推理
- 表现: 尽管规模较小,但它在多语言和多轮对话任务中表现出色。它在 RepoQA 等基准测试中表现出色,该测试衡量长上下文代码理解能力,超越了其他类似规模的模型,如 Llama-3.1-8B-instruct。
Phi-3.5 Mini Instruct 的高效设计使其能够在考虑资源限制的情况下提供强大的性能。这使其适合部署在计算资源有限但仍需要高性能的场景中。
Phi-3.5 MoE:混合专家架构
这 Microsoft Phi-3.5 MoE(专家混合) 模型代表了一种复杂的 AI 架构方法,它将多个专门的模型组合成一个。它采用独特的设计,根据任务激活不同的“专家”,从而优化各个领域的性能。在 23 天内使用 512 个 H100-80G GPU 对 4.9 万亿个 token 进行了训练。
主要特点:
- 参数: 420 亿(活跃),其中 66 亿在运营期间被积极使用
- 上下文长度: 128k 个代币
- 主要用例: 复杂推理任务、代码理解、多语言理解
- 表现: MoE 模型在代码和数学任务中表现优异,并展现出强大的多语言理解能力。它在特定基准测试中的表现往往优于大型模型,包括在 5 次 MMLU(大规模多任务语言理解)测试中显著优于 GPT-4o mini。
Phi-3.5 MoE 架构通过仅激活与给定任务相关的部分参数来提高可扩展性和效率。这使模型能够处理广泛的应用,同时在不同语言和主题上保持高性能。
Phi-3.5 Vision Instruct:先进的多模式功能
这 微软Phi-3.5视觉指导 该模型旨在处理文本和图像数据,使其成为多模态 AI 任务的强大工具。它将高级图像处理与文本理解相结合,支持各种复杂的视觉和文本分析任务。使用 256 个 A100-80G GPU 在 6 天内对 5000 亿个 token 进行了训练。
主要特点:
- 参数: 41.5亿
- 上下文长度: 128k 个代币
- 主要用例: 图像理解、光学字符识别 (OCR)、图表和表格理解、视频摘要
- 表现: Vision Instruct 模型通过结合合成和过滤的公开数据集进行训练,擅长处理复杂的多帧视觉任务,并提供对视觉和文本信息的全面分析。
Phi-3.5 Vision Instruct 能够处理和整合文本和图像,因此在需要详细视觉分析的应用中具有极高的通用性。对于涉及多种数据类型和格式的任务,此功能尤其有用。
Phi-3.5 Vision Instruct 模型也可以通过 Azure 人工智能工作室。