《云上网络稳定性建设最佳实践》由阿里云智能集团云网络解决方案架构师张星在APSARA云栖大会上分享,主要介绍了云上网络稳定性建设的相关内容,核心内容包括:
1. 云上网络稳定性体系建设
– 稳定性挑战:网络稳定性是业务稳定基石,面临DDoS、恶意流量、爬虫、网络安全攻击等威胁。
– 责任共担:稳定性治理需客户与阿里云共同负责,客户负责变更管理、高可用架构设计等,阿里云负责提供可观测、应急快恢等服务。
– 运维处置:面向风险的运维处置包括架构设计、变更执行和应急处理原则,通过多种手段解决不确定性问题。
2. 面向失败的架构设计
– 同地域网络设计:如VPC网络规划,需考虑容量、容灾、容错,实现弹性服务架构、同城多活等,机房建设有标准。
– 跨地域网络设计:TR协同CEN构建跨地域网络,设计关键点包括容灾、容错、容量等,保障网络高性能、高可靠、弹性。
– 混合云专线网络设计:通过双专线双接入点等提供高可用能力,BGP+BFD+快速倒换组实现专线快速收敛和倒换。
– 混合云VPN网络设计:IPSec-VPN结合CEN-TR提供加密链路上云,通过多种方式提高可用性和容错能力。
– 混合云3rd SDWAN网络设计:集成生态助力分支上云,容灾、容错、容量方面有相应设计特点和限制。
– 应用交付网络设计:ALB面向七层提供高性能业务处理,多可用区部署、健康检测等提升可用性,具备多种核心能力。
– 跨地域调度网络设计:GTM通过DNS实现应用访问优化和容灾,多中心部署、服务可用性探测等确保服务连续性。
3. 可观测、应急快恢和故障演练
– 可观测:网络流量可视化,包括流量Top N分析、多维度流量下钻、分场景流量分析、流量洞察分析等。
– 应急快恢:网络实例诊断和路径分析,可一键诊断实例问题,逐跳分析网络连通性并提供解决方案。
– 故障演练:高速通道支持用户自主进行故障演练,验证组网可靠性,结合云速搭支持AZ级容灾演练。
4. 客户案例:阿里云助力某头部出行服务商构建全球互联网络,满足其业务出海、多云互联、业务隔离需求,提供稳定、安全、弹性的网络服务。
以下为报告节选内容