您可以在功能的助手上点击“ Run”,然后观看旋转器。几秒钟延伸到几分钟,象征仪攀登,并且您的Openai发票上的仪表越来越高。延迟和成本已成为大语言模型繁荣的无形税,尤其是当一个棘手的查询可以触发数千个新鲜的推理令牌时。一项新的研究建议称为 睡眠时间计算 认为这些令牌通常是在工作流程的错误阶段花费的。与其将所有推理塞入用户击中输入的那一刻,不如让模型在其空闲时间“思考”,而是将原始上下文转换为可重复使用的洞察力,并在真正的问题最终到达时削减帐单呢?
这个想法对任何安排数据库索引或编译代码之前的人都感到熟悉:在运输之前:预处理时,没有人看,在他们时立即做出响应。然而,将这种思维定势应用于语言模型需要新的基准测试,仔细的会计以及证明离线努力转移到在线准确性的证明。莱塔和加州大学伯克利分校的凯文·林和同事在睡眠时间计算:测试时间超出推理缩放”,他们的数字暗示了企业AI产品预算GPU周期的重新考虑。
传统的测试时间缩放告诉一个问题时,LLM更加努力地工作:样本的多个思想链,扩展推理痕迹,重读响应或叉子并行数十个候选人答案。这些技巧提高了数学,编码和知识任务的准确性,但它们也膨胀了潜伏期和钱包的流失。用户等待;供应商付款。更糟糕的是,该范式假设每个查询都是一个无状态的单f,它在同一请求中以其完整上下文到达。
在现实世界中,环境持续存在。客户支持机器人重新读取相同的知识库,编码代理在同一存储库中浏览,并研究副驾驶员重新访问共享文档语料库。作者认为,在这些状态的环境中,进行了巨大的推理。睡眠时间计算利用可通过让模型在空闲窗口期间的上下文,创建蒸馏,推理准备就绪的表示形式并将其存储以供以后重复使用,从而进行冗余。当用户最终询问时,LLM在代币的一小部分中回答,因为大部分繁重的举重已经烘烤到提示中。
为什么睡眠时间计算重写成本曲线
研究人员分为两个阶段将工作流程形式化。期间 睡眠时间 该模型仅看到上下文 c,预测可能感兴趣的角度,并产生重写的环境 C’ 其中包含中间扣除额,结构化摘要或经过思考的链条片段。期间 测试时间 用户的查询 问 到达。该模型现在收到 C’ 而不是原始上下文,可以通过较小的计算预算来达到正确的答案 b。由于空闲时间便宜且可行,因此该组织为预处理和保留用户响应能力的溢价推理能力支付低优先级。
为了量化收益,团队分配了两个经典的数学策划套件 – gsm -Symbolic和Aime -Into 陈述 将每个问题分解为上下文段落和一个单独的问题的变体。他们也建造了 多晶格GSM -Symbolic,在每个上下文中都产生了几个相关的问题,模仿一个不断戳在同一文档的用户。评估矩阵比较了基线GPT -4O,GPT -4O -Mini,O1,O3 − Mini,Claude Sonnet和DeepSeek -R1在三个条件下:标准测试时间缩放,睡眠时间,具有不同的离线预算和通过@@k 并行抽样。
实验显示了什么
除了最小的O1以外的每个型号,睡眠时间策略 将准确的每句境外推向向外推。在 状态的GSM -Symbolic 和 状态的Aime 作者报告:
- 5×较低 测试时间令牌达到与基线顺序链的同样精度。
- 13% 当离线预算扩大多达五个平行的睡眠时间时,GSM的准确性提高。
- 18% 具有较高效果的离线推理轨迹的AIME的准确性提高。
- 2.5×减少 当十个相关问题共享相同的预处理上下文时,平均每个查询成本。
也许更醒目的睡眠时间计算 击败规范的通行证@k 在同等的测试时间预算上的技巧。经过-@k 假设Oracle验证者可以立即选择最好的 k 取样答案,是生产中不切实际的拐杖。睡眠时间计算的准确性更高,而没有这种奢侈品,因为沉重的推理已经存在 C’。
收益对最终问题的可预测程度很敏感。当研究人员通过分配给给定上下文的问题的对数概率划分GSM项目时,对于最可预测的五分之一,睡眠时间和基线之间的精度增长了。用简单的英语:越明显的后续问题,提前准备您的作业的胜利就越大。
数字是一回事;产品含义是另一种。作者运行了一个真正的存储库测试 Swe -Features 其中代理必须修改三个或多个文件以实现功能。仅测试时间较低的预算,与F1匹配时,睡眠时间削减令牌使用率约为50%,这意味着更快的合并和降低连续整合机器人的GPU账单。在非常高预算的情况下,经典的测试时间推理重新获得了精确的略有优势,这表明了混合政策:在延迟事项或上下文重复使用时,离线分配积极地计算,仅用于单一或高度不可预测的查询,回到了丰富的在线链中。
该框架还为合成数据生成打开了门。如果睡眠时间推理产生代码库或文档的丰富天然语言表示形式,那么这些工件本身就会成为未来微调的培训数据,这是一种良性的循环,即离线思考使下一代模型改进而无需刮擦更多互联网文本。
在操作上,该技术引起了工程问题。上下文缓存应该多久刷新一次?可以多大 C’ 在取消令牌节省之前成长?在共享集群中,哪些闲置周期确实是免费的?然而,这些障碍看起来都不像当前为冗余推理支付实时价格的现实那样令人震惊。已经安排每晚构建,搜索指数爬网或实现视图的企业具有这种优化的心理模型。
离线思维适合接下来的地方
睡眠时间的计算不是银弹。盲目的问题或过于迅速变化的环境的疑问仍然需要新的思想链。该论文本身标志着对自适应政策进行开放研究,这些政策可以预测何时通过估计上下文熵或用户意图分布来获得回报。即便如此,核心的外卖却是:大型语言模型仅在用户观看时不需要思考。通过借用一个年龄耗尽的计算技巧(今晚明天的工作),开发人员可以削减潜伏期,收缩账单并仍然爬上准确的阶梯。
结果:您的下一个LLM功能可能不需要更大的模型或更深的推理预算。它可能只需要让模型首先在问题上睡觉即可。