此外,在许多情况下,上下文信息 c 可能非常复杂,需要实行大量的推理才能生成问题 q 的答案。由于传统测试时计算范式 T (q, c)→a 假定 c 与 q 同时获取,标准测试时计算会在用户提交查询后才启动所有这些推理,导致用户可能需要等待数分钟才能获得响应。然而在实际应用中,大家往往能够提前获取 c,并将大部分预处理工作前置完成。
睡眠时间计算:在睡眠时间,可以得到上下文 c 但没有查询 q。仅基于这个上下文 c,可以使用 LLM 推理可能的问题并推理上下文,最终产生一个更新的重新表示的上下文 c ′。研究者将这个过程表示为:S (c) → c ′,其中 S 可以是任何标准的测试时间扩展技术,用于在睡眠时间预处理上下文。
在这项工作中,S (c) 是通过提示模型进行推理并以可能在测试时有用的方式重写 c 来实现的。在对上下文进行预处理之后,可以在测试时提供新的上下文 c ′ 代替 c 来生成对用户查询的最终答案:T_b (q, c ′) → a。由于在这种情况下,关于 c 的大部分推理已经提前完成,就可以使用小得多的测试时间预算 b << B。此外,c ′ 可以在关于相同上下文的不同查询 q_i 之间共享,从而有效地摊销在查询之间得出 c ′ 所需的计算,从而节省总体成本。