OpenRouter推出响应缓存功能，可实现AI请求「零Token成本」缓存返回

2026-05-03 / 1 阅读

05/03

BlockBeats 消息，5 月 3 日，OpenRouter 宣布推出 Response Caching（响应缓存）功能，允许开发者对完全相同的 AI 请求直接返回缓存结果，且无需再次消耗 Token 成本。官方表示，开发者仅需添加 X-OpenRouter-Cache: true 请求头，首次请求仍正常调用模型，而后续相同请求则可在 80 至 300ms 内直接返回缓存结果，且完全免费。相比之下，未缓存情况下，Gemini 2.5 Flash 平均响应约 1.3 秒，Kimi K2.6 约 4.6 秒，GPT-5.5 约 9.1 秒。OpenRouter 称，该功能适用于 Agent 重试、自动化测试及重复上下文调用等场景。例如当 AI Workflow 中途失败时，开发者可直接重试，仅为新增部分付费。官方同时强调，Response Caching 不同于 Prompt Caching：后者仅降低共享上下文成本，而 Response Caching 可直接跳过模型提供商请求。该功能现已进入 Beta 测试阶段，支持 /chat/completions、/responses、/messages 与 /embeddings 等接口。

OpenRouter推出响应缓存功能，可实现AI请求「零Token成本」缓存返回

Starlink 用户规模四年增长约 4 倍，但单用户收入持续下滑

a16z Crypto高管：稳定币一词或将逐渐过时

Galaxy Digital 研究主管：不应擅动中本聪比特币地址，需提前储备抗量子技术

特朗普不支持率升至62%，创两任期最高纪录

Zcash基金会：发布Zebra 4.4.0版本，修复多项共识级安全漏洞并建议节点立即升级