性能和可扩展性

    Istio 的数据平面组件 Envoy 代理用来处理通过系统的数据流。控制平面组件如 Pilot、Galley 和 Citadel 负责配置数据平面。数据平面和控制平面有不同的性能关注点。

    Istio 负载测试网格包含了 1000 个服务和 2000 个 sidecar,全网格范围内,QPS 为 70,000。 在使用 Istio 1.14.1 运行测试后,我们得到了如下结果:

    • 通过代理的 QPS 有 1000 时,Envoy 使用了 0.5 vCPU50 MB 内存
    • 网格总的 QPS 为 1000 时, 服务使用了 0.6 vCPU
    • 90% 的情况 Envoy 代理只增加了 6.3 ms 的延迟。

    Pilot 根据用户编写的配置文件和系统当前状态来配置 sidecar 代理。在 Kubernetes 环境中,自定义资源定义(CRDs)和部署构成了系统的配置和状态。像网关和虚拟服务这样的 Istio 配置对象提供了用户编写配置的能力。Pilot 综合处理配置和系统状态,生成代理的配置信息。这些配置和系统状态源自 Kubernetes 环境和用户编写的配置文件。

    控制平面支持数千个服务,分布在数千个 pod 上,所需的用户自有虚拟服务和其它配置对象的数量级与之类似。Pilot 的 CPU 和内存资源需求量与系统配置和可能状态的量级成正比。CPU 消耗的变化取决于以下因素:

    • 部署改变的频率。
    • 配置改变的频率。
    • 连接到 Pilot 的代理数量。

    这部分本身是水平可伸缩的。当选项被打开,一个单一的 Pilot 实例仅用 1 vCPU 和 1.5 GB 的内存就可以支持 1000 个服务和 2000 个 sidecar。你可以增加 Pilot 实例的数量来降低它花在推送配置到所有代理的耗时。

    • 客户端连接数量
    • 目标服务接收请求的密度
    • 请求和响应的体量
    • 代理工作线程的数量
    • 协议
    • 代理过滤器的数量和类型,特别是 Mixer 过滤器

    根据上述因素来度量延迟、吞吐量以及代理的 CPU 和内存消耗。

    由于 sidecar 代理在数据路径上执行额外的工作,它需要消耗 CPU 和内存。以 Istio 1.14.1 举例,1000 QPS 会使用大约 0.5 vCPU。

    代理的内存消耗取决于它的总体配置状态。大量的监听器、集群和路由会增加内存使用量。在启用了命名空间隔离的大型命名空间中,代理消耗大约 50 MB 的内存。

    由于代理通常不缓存通过的数据,请求速率不会影响内存消耗。

    由于 Istio 在数据路径上注入了一个 sidecar 代理,因此延迟是一个重要的考虑因素。 Istio 添加的每个功能也会增加代理内部的路径长度,并可能影响延迟。

    在 mesh 内部,请求会依次遍历客户端和服务器端代理。在 Istio 1.14.1 的默认配置中(即带有遥测 v2 的 Istio), 两个代理分别在基线数据平面延迟的 90 和 99 分位延迟上增加约 1.7 和 2.7 毫秒。 我们使用 http/1.1 协议的 获得了这些结果, 测试标准是每秒 1000 请求,负载为 1KB,使用了 16 个客户端连接和 2 个代理 worker 并启用双向 TLS。

    P90 延迟 vs 客户端连接

    P99 延迟 vs 客户端连接

    • baseline 客户端 pod 直接调用服务端 pod,没有 sidecar 参与。
    • 未配置 Istio 特定过滤器的 Istio 代理。
    • v2-stats-wasm_both 客户端和服务器 sidecar 配置了遥测 v2 v8
    • 客户端和服务器 sidecar 默认配置遥测 v2 nullvm。这是默认的 Istio 配置。
    • v2-sd-full-nullvm_both 导出 Stackdriver 指标、访问日志和配置了遥测 v2 的边缘。
    • v2-sd-nologging-nullvm_both 同上,但不导出访问日志。
    • fortio.org - 一个恒定的吞吐量负载测试工具。
    • - 基于 Envoy 的负载测试工具。