Anthropic Beta Header 全景:从 Claude Code 私有协议到四大平台的差异

4 月 20 日
阅读 8 分钟
144
Anthropic 使用 beta header 来作为 feature flag:[链接]。官方文档上并没有列出所有的 beta header,而且不同平台的 Anthropic 模型上支持的 beta header 也不一致。

如何像 Claude Code 一样使用私有 API 管理 prompt cache

4 月 3 日
阅读 5 分钟
448
Claude Code 源码就像红楼梦,不同的人可以从中看到不同的东西。安全从业人员可以看到它复杂的 shell 注入防护;Agent 开发者可以看到它巧妙的用户交互;而作为 AI 网关开发者,我更多地关注它是怎么高效地与 Anthropic 模型提供商打交道的,尤其是关注它是如何组织 prompt cache。

锐评主流AI推理负载均衡开源实现

3 月 29 日
阅读 5 分钟
461
负载均衡一向是业务架构里不可或缺的一部分,AI 场景下也不例外。由于推理请求业务量大,而且具有鲜明的特色,所以开发者会部署专门针对推理请求的负载均衡。这里我们就来讲讲推理请求负载均衡的一些开源实现。由于推理请求负载均衡这个名字实在太长,以下请允许我简称它为 ILB。

tiktoken vs hf tokenizer:AI网关如何本地高效统计Token

3 月 4 日
阅读 15 分钟
681
本次请求的 token 计数会在请求末尾时返回,但正如漏算的 Token:AI 网关限额机制的攻防博弈提到的,有些时候请求并不能正常结束,导致中间件无法获知 token 的计数。我们之前遇到过一个场景,高达 10% 左右的请求是提前中断的。即使不考虑这种异常请求,有些时候我们也需要提早知道 token 计费请求,比如基于 token 数...

MCP 网关安全警报:OpenAPI 转换中的命令注入与路径遍历漏洞实证研究

2 月 2 日
阅读 5 分钟
670
MCP 是 API 和 AI agent 之间的桥梁,许多 AIGW 为此提供了根据 OpenAPI spec,将现存 API 转换成 MCP 的功能。然而大部分 AIGW 在实现该功能时并没有严格检查客户端的输入。某些输入不仅仅会触发网关的 bug,甚至可以直接攻击到后端服务。

MCP Gateway 性能对比:Envoy + ext proc + sidecar 是否可行?

1 月 13 日
阅读 4 分钟
936
有些读者可能不太清楚 ext proc 是什么。Ext proc 是 Envoy 的一种拓展方式。用户自己额外部署一个 sidecar,Envoy 通过 ext proc 和这个 sidecar 通信,将请求特征发送给 sidecar,sidecar 处理完将进一步的 action 返回给 Envoy。

漏算的 Token:AI 网关限额机制的攻防博弈

2025-12-08
阅读 2 分钟
2.2k
AI 网关通常有这样的功能:基于 token 消耗量来做限额操作。有些地方叫做 ai-rate-limiting,有些地方叫做 ai-quota。无论名字为何,原理同出一辙,都是基于推理请求结束时返回的 token usage 信息。

转发之外 - AI 网关内容安全实践

2025-11-28
阅读 2 分钟
1.3k
将 AI 的输入输出接到某个内容安全的过滤系统,几乎是每个 AI 网关必备的功能。为了合规,一方面,上下文中的个人信息需要脱敏;另一方面,某些不合时宜的言论需要净化。市面上内容安全的过滤系统功能大体上都差不多:接收一段信息,返回处理结果(是否过滤、触犯了哪些规则、需要替换的文本等等)。事实上 AI 网关可以...

AI 网关系列

2025-11-18
阅读 1 分钟
1.4k
agentgateway 评测:功能丰富的 AI 网关新秀转发之外 - AI 网关内容安全实践漏算的 Token:AI 网关限额机制的攻防博弈MCP Gateway 性能对比:Envoy + ext proc + sidecar 是否可行?MCP 网关安全警报:OpenAPI 转换中的命令注入与路径遍历漏洞实证研究

agentgateway 评测:功能丰富的 AI 网关新秀

2025-11-05
阅读 5 分钟
2.4k
agentgateway 是 solo 专门为 AI 场景开发的网关数据面。该数据面采用 Rust 编写,支持通过 xDS (一种基于 gRPC 的协议)和 yaml 来配置。最近他们决定将 kgateway 在 AI 场景下的数据面从 Envoy 换成 agentgateway。估计企业版的 Gloo 也会跟着变。原来在 AI 场景下的数据面功能大部分是 Envoy 通过 ext proc 调用 Go ...

在测试 MCP OAuth 之前你需要了解的 workaround

2025-10-14
阅读 6 分钟
1.7k
作为一个刚推出几个月且较为复杂的机制,MCP OAuth 生态整体尚未成熟。无论是客户端还是 Authorization Server(以下简称 AS),都有一些限制。为此,要想跑通 MCP OAuth,也许需要做出一些 workaround。

MCP 授权机制的现状、问题和解决思路

2025-09-15
阅读 5 分钟
6.5k
MCP 服务器(提供 AI 模型上下文的一方)需要一种机制来验证客户端(使用模型的一方)是否有权访问其资源。在该协议的设计中,这一机制是一种 基于 OAuth 2.1 的标准授权方案。

AI 安全第一课:构建可信的认证体系

2025-07-22
阅读 3 分钟
1.5k
最近,由 Supabase MCP Server 引发的安全讨论揭示了当前 AI Agent 生态中的潜在风险。两篇深入分析的文章详细阐述了攻击者如何利用 MCP (Machine-Credible Plug-ins) Server 和提示词注入 (Prompt Injection) 的漏洞,将用户数据泄露或写入恶意位置。

开源之夏申请攻略

2025-06-29
阅读 3 分钟
1.9k
OSPP(开源之夏)是国内最出名的面向学生的有偿编程活动,每年都吸引了大量社区和学生参加。今年据说有 182 个社区的 566 个项目参与这个活动。可以说国内知名的开源社区多多少少都已经参加到这个活动当中。虽然项目数很多,奈何报名的学生更多,每年都处于僧多粥少的状况。毕竟 8000 到 12000 的奖金摆在那里,外加丰富...

简单讨论下推理请求调度架构

2025-05-11
阅读 3 分钟
2.3k
在当今复杂多变的技术领域,任何足够复杂的推理业务,都必然要紧密结合推理引擎行为,精心设计出高效的调度系统。原因主要有以下三点:其一,复杂推理服务本质上是分布式的;其二,分布式系统处理请求时,调度不可或缺,若缺乏精细调度,各节点工作负载将不均衡;其三,要满足调度需求,必须深入了解推理请求在引擎中的...

Envoy Golang Filter 实践:挑战与应对之道

2025-01-26
阅读 5 分钟
2.3k
有经验的程序员都知道,技术选型是一个 trade-off 的过程。当你选择玫瑰时,小心花朵下面的尖刺。进一步想,如果我们早已知晓鲜花底下的不怀好意的锋芒,就能在摘花时借助剪刀,避免赤手空拳地冒险。这也是本文的主题:应用 Envoy Golang filter 过程中的挑战以及如何应对它们。

AI 网关:谈谈 envoyproxy/ai-gateway 和 llm-instance-gateway

2024-12-16
阅读 3 分钟
3.2k
正好我也是做 AI 网关的业内人士,看到同类项目自然会拿来仔细分析一番。三人行必有我师,从别人的思路总是可以学到不少东西。需要注意的是,这两个项目都还处于非常早期的阶段,有可能在将来出现 180° 的变化,因此我这里的分析只能反映当前的状态,不代表后期演进的方向。

最近看了几篇关于网关和PD分离的论文,分享下个人想法

2024-11-10
阅读 2 分钟
3.2k
PD分离的效果很大程度上受限于kvcache的传输的代价(kvcache是以GB为单位的,跑RDMA也需要100毫秒级的时间)。而kvcache主要是P产生的。

在 OpenResty 里实现异步的流式代理

2024-10-27
阅读 3 分钟
2.6k
七层代理经常会有需要承接流式业务的需求,比如通过 SSE 来代理推理服务返回的结果。有些时候,我们还需要在流式处理过程中进行异步操作,比如访问其他服务来丰富原来的输入输出。

浅谈 istio 配置下发(下篇,istio 处理来自 k8s 的配置)

2024-10-27
阅读 7 分钟
2.1k
istio 不仅支持从 k8s 中获取配置,还支持通过 MCP over XDS 从实现了 MCP 协议的服务器中获取配置,抑或从文件中直接获取数据。在实践中,没听说过有哪些项目通过文件的方式来提供 istio 配置,所以这里不谈。MCP 实际上就只是把 istio 资源装进 MCP 这个箱子里,然后通过全量 XDS 协议下发配置给 istio。Higress 应该...

浅谈 istio 配置下发(上篇,istio 和 Envoy 交互部分)

2024-09-07
阅读 4 分钟
3.1k
在定下本文的标题之前,我推敲了几遍。最终决定以“浅谈”开头,是因为本文将专注于 istio 下发配置给 Envoy 的功能,尤其是关注 Ingress 场景的配置下发(NodeType 为 Router),不祈求涉及 ztunnel、grpc 等边边角角。

pingora 能做什么和不能做什么

2024-08-31
阅读 4 分钟
5.3k
最近把 pingora 的代码略略过了下,稍微弄懂了 pingora 这个项目的大致情况。Pingora 作为 Cloudflare 内部开发来替代 OpenResty 的项目,可以看到不少 Nginx 的影子。比如 Pingora 的插件叫 Module,对应插件顺序叫 module_index,和 Nginx 一模一样。有趣的是还有彩蛋藏在测试代码里:

真实世界里的 go work 体验

2024-08-17
阅读 2 分钟
3.9k
早在 1.18 版本,Go 就引入了 workspace 功能来改善多 module 开发的体验。网上关于 workspace 功能的介绍大多局限于玩具项目内的开发,并无多少实际的案例。正巧 mosn/htnn 这个项目就深度依赖 workspace 功能,而且它也足够复杂,可以拿来说明真实世界里面的 go work 体验。

在 Envoy 中规避 LDS drain 的奇技淫巧

2024-07-07
阅读 5 分钟
2.2k
本文是“Envoy 哪里做得不够好”系列的第三篇。前文提要:为何 Envoy 会经常全量推送路由变更,以及如何改善(上)为何 Envoy 会经常全量推送路由变更,以及如何改善(下)Envoy 支持通过 Listener 资源动态调整监听配置和设置四层策略。但和直觉不同,对 Listener 资源的修改并非无损的。对 Listener 的修改都会触发 LDS ...

为什么选择 HTNN 这款网络产品?

2024-06-18
阅读 2 分钟
2.7k
推广一个开源项目其实就是推广一种理念。几年前 APISIX 在推广时,主打的是更好的性能。HTNN 主打的也是“快”,但不仅仅是数据面执行性能之快,更主要的是研发效率之快。无论是什么时候,又快又好地推出新功能都是研发人员的刚需。HTNN 的各项功能,都围绕着提升开发效率来设计。

为何 Envoy 会经常全量推送路由变更,以及如何改善(下)

2024-06-16
阅读 4 分钟
2.2k
上篇文章的结尾,我提到了 “Envoy 社区并非对此毫无察觉。针对这个问题,不少解法被提了出来”。其中一个解法是 VHDS(Virtual Host Discovery Service)。

为何 Envoy 会经常全量推送路由变更,以及如何改善(上)

2024-05-26
阅读 12 分钟
2.6k
之前和读者聊到,“现在envoy用来做七层网关,要想达到好用,就差几个关键技术点没解决”:[链接]。于是我决定开一个系列,不定期更新,写写 Envoy 目前还做得不够好的地方。

预测未来一两年内七层代理的发展趋势

2024-05-04
阅读 3 分钟
2.7k
预测未来最安全的做法是不要给预言加个限期。只要不停鼓吹“会有一个光明的明天”,“明日复明日,明日何其多”,到底哪一天才是光明的明天,那就要等那一天到来之际的事后诸葛亮了。所谓说,“不走的钟一天也会准两次”,为了表明我不是撞大运的不走钟,我决定给这篇文章中的预言加个限期 - 就聊未来一两年内的趋势。

狸猫换太子:聊聊那些藏在 Go interface 方法调用里的坑

2024-04-14
阅读 5 分钟
1.9k
对 interface 的使用想必是一件简单到自然的事。定义一组方法描述特定的行为,然后在某个类上实现这组方法。如此一来,这个类就能作为某些函数的输入或输出参数,而外界无从知晓用作参数的实际的类到底是怎么实现的。interface 带来的“隐藏性”,可以让它的使用者和实现者之间解耦,无需暴露不必要的细节。但是在某些特殊...

为什么 Tetrate 逐渐成为 Envoy Gateway 的主心骨?

2024-02-06
阅读 4 分钟
2.4k
Envoy Gateway 的发起 是 2022 年网络领域的一件大事。扛着 Envoy 这面大旗,Envoy Gateway 奉天子以令不臣,任何基于 Envoy 的网关都不得不回答一个问题:“你和 Envoy Gateway 是什么关系”。比如: