人工智能领域随着新的 OpenAI 嵌入模型而不断发展。 他们将重新定义开发人员进行自然语言处理的方式。 在探索这两个突破性的模型之前,每个模型都旨在提升人工智能应用程序的功能,以下是 嵌入 意思是:
OpenAI 的文本嵌入可作为衡量文本字符串之间相关性的指标,在各个领域中找到应用,包括:
- 搜索:用于根据结果与给定查询字符串的相关性对结果进行排名,从而提高搜索结果的精度。
- 聚类:用于根据文本字符串的相似性对文本字符串进行分组,以便于组织相关信息。
- 建议:应用于推荐系统,建议在文本字符串中具有共同点的项目,增强建议的个性化。
- 异常检测:用于识别相关性最小的异常值,帮助检测不规则模式或数据点。
- 多样性测量:用于分析相似性分布,从而能够评估数据集或文本语料库内的多样性。
- 分类:部署在分类任务中,其中文本字符串根据最相似的标签进行分类,从而简化了机器学习应用程序中的标记过程。
现在您已准备好探索新的 OpenAI 嵌入模型!
新的 OpenAI 嵌入模型已经到来
新 OpenAI 嵌入模型的推出标志着自然语言处理的重大飞跃,使开发人员能够更好地表示和理解文本内容。 让我们深入研究这些创新模型的细节: 文本嵌入-3-小 和 文本嵌入 3-large。
文本嵌入-3-小
这个紧凑而强大的模型比其前身 text-embedding-ada-002 表现出显着的性能提升。 在多语言检索基准(MIRACL)上,平均得分从 31.4% 飙升至令人印象深刻的 44.0%。 同样,在英语任务基准(MTEB)上,平均分数也从 61.0% 上升到 62.3%,值得称赞。 然而,text-embedding-3-small 的独特之处不仅在于其增强的性能,还在于其经济实惠。
评估基准 | 艾达 v2 | 文本嵌入-3-小 | 文本嵌入 3-large |
奇迹平均值 | 31.4 | 44.0 | 54.9 |
MTEB平均值 | 61.0 | 62.3 | 64.6 |
OpenAI 大幅降低了定价,与 text-embedding-ada-002 相比,成本效益提高了 5 倍,每 1k 代币的价格从 0.0001 美元降至 0.00002 美元。 这使得 text-embedding-3-small 不仅成为一种更高效的选择,而且对开发人员来说也更容易访问。
文本嵌入 3-large
text-embedding-3-large 代表了下一代嵌入模型,引入了维度的大幅增加,支持高达 3072 维度的嵌入。 这个更大的模型提供了更详细、更细致的文本内容表示。 在性能方面,text-embedding-3-large 在基准测试中优于其前身。 在 MIRACL 上,平均得分从 31.4% 飙升至令人印象深刻的 54.9%,凸显了其在多语言检索方面的实力。
艾达 v2 | 文本嵌入-3-小 | 文本嵌入 3-large | ||||
嵌入尺寸 | 1536 | 第512章 | 1536 | 256 | 1024 | 3072 |
平均 MTEB 分数 | 61.0 | 61.6 | 62.3 | 62.0 | 64.1 | 64.6 |
同样,在MTEB上,平均得分从61.0%攀升至64.6%,显示了其在英语任务中的优越性。 text-embedding-3-large 的定价为每 1k 代币 0.00013 美元,在卓越性能和成本效益之间取得了平衡,为开发人员提供了针对需要高维嵌入的应用程序的强大解决方案。
见面 谷歌卢米埃尔人工智能巴德的视频制作者表弟
对缩短嵌入的本机支持
认识到开发人员的多样化需求,OpenAI 引入了对缩短嵌入的本机支持。 这种创新技术允许开发人员通过调整尺寸 API 参数来自定义嵌入大小。 通过这样做,开发人员可以权衡一些性能以换取较小的向量大小,而不会影响嵌入的基本属性。 这种灵活性在系统仅支持特定大小的嵌入的场景中尤其有价值,为开发人员提供了适用于各种使用场景的多功能工具。
总之,OpenAI 的新嵌入模型代表着在效率、经济性和性能方面向前迈出了重要一步。 无论开发人员选择紧凑而高效的 text-embedding-3-small 表示,还是选择更广泛、更详细的 text-embedding-3-large 嵌入,这些模型都可以为开发人员提供多功能工具,帮助他们从 AI 中的文本数据中提取更深入的见解应用程序。
有关新 OpenAI 嵌入模型的更多详细信息,请单击 这里 并获取官方公告。
特色图片来源: Levart_摄影师/Unsplash