隐式缓存旨在将双子座API削减75％

Google拥有发射该双子座API中的一项新功能称为“隐式缓存”，该公司声称，使用其最新的AI模型Gemini 2.5 Pro和2.5 Flash，该公司可以将其降低75％。

当Gemini API请求对模型击中缓存时，该功能会自动实现成本节省，从而消除了先前的显式缓存方法所需的手动配置的需求。根据Google的说法，当请求与以前的请求共享常见前缀时，触发隐式缓存，并且所需的最小提示令计数为1,024，对于2.5 flash，2.5 pro的2,048。

双子座团队的成员洛根·基尔帕特里克（Logan Kilpatrick）宣布 2025年5月8日的发布会指出，该功能可以为开发人员节省大量成本。 Google建议开发人员在请求开始时将重复上下文放置，并在最终附加更改上下文，以增加隐式缓存命中的机会。

缓存是AI行业中广泛采用的实践，它可以重用经常访问或预先计算的数据以减少计算要求和成本。 Google先前的显式缓存方法要求开发人员手动定义高频提示，这通常会导致额外的工作，有时为某些用户提供了令人惊讶的大型API账单。

一些开发人员对Gemini 2.5 Pro的明确缓存实施表示不满，促使双子座团队道歉并承诺进行更改。新的隐式缓存功能通过自动化缓存过程自动化并在缓存命中时向开发人员节省成本来解决这些问题。

尽管Google声称隐式缓存可以节省75％的成本，但该公司没有提供第三方验证该功能的有效性。因此，实际节省的成本可能会取决于开发人员的使用方式。

Recent Posts