BlockBeats 消息,5 月 3 日,OpenRouter 宣布推出 Response Caching(响应缓存)功能,允许开发者对完全相同的 AI 请求直接返回缓存结果,且无需再次消耗 Token 成本。官方表示,开发者仅需添加 X-OpenRouter-Cache: true 请求头,首次请求仍正常调用模型,而后续相同请求则可在 80 至 300ms 内直接返回缓存结果,且完全免费。相比之下,未缓存情况下,Gemini 2.5 Flash 平均响应约 1.3 秒,Kimi K2.6 约 4.6 秒,GPT-5.5 约 9.1 秒。OpenRouter 称,该功能适用于 Agent 重试、自动化测试及重复上下文调用等场景。例如当 AI Workflow 中途失败时,开发者可直接重试,仅为新增部分付费。官方同时强调,Response Caching 不同于 Prompt Caching:后者仅降低共享上下文成本,而 Response Caching 可直接跳过模型提供商请求。该功能现已进入 Beta 测试阶段,支持 /chat/completions、/responses、/messages 与 /embeddings 等接口。