云原生稳定性价值被低估?看头部金融企业稳定性保障法则!
云计算、大数据、人工智能、区块链等技术浪潮赋予金融科技创新源源不断的生命力,但与此同时,以数字经济为代表的新型经济形态也对传统金融业态和既有底层技术带来深刻变革和巨大挑战。
在国际形势复杂化的背景下,国家对安全可靠、自主可控技术提出了更高的要求。金融行业信息系统具备自主研发能力,降低对商业产品的依赖成为当前刻不容缓的工作。
由于金融行业涉及民生,业务一旦出现问题,就会对整个社会舆论造成严重影响,因此,金融行业的系统稳定性保障尤为重要。然而,走向数字化的金融企业在业务方面存在不可预测、不可控、复杂性高等问题,这就给系统稳定性保障带来不小挑战。
那么,金融企业如何规划系统稳定性治理工作?如何利用云原生架构的特性和优势,来保障业务系统稳定性?近日,51CTO 采访了网易数帆云原生解决方案专家朱剑峰,携国有大行长期实践经验,为金融行业的系统稳定性建设献策支招。
金融行业云原生升级挑战多
随着近年来同业竞争加剧,各大金融机构纷纷追求金融服务个性化、场景化,欲打造开放金融,加之监管要求需要实现 IT 自主可控目标,金融企业从大单体总线架构进一步向微服务、云原生架构演进。
在近日举办的 WOT 全球技术创新大会上,来自银行、证券、保险等领域的多位科技部门负责人表示,云原生架构的落地不是一蹴而就的,需要在架构演进过程中,不断完善相关的能力与规范,形成企业的组织文化与技术体系。企业需要全面梳理、逐步演进,从周边到核心,先创新再传统。映射到金融企业,就是先从偏向互联网业务方向的敏态业务开始进行微服务拆分和云原生改造,进而再渗透到核心系统的稳态业务。
随着诸多企业开始向云原生架构迁移,云原生稳定性保障也逐渐受到重视。企业在云原生稳定性保障方面也遇到了不小挑战。朱剑峰表示,金融企业在云原生稳定性保障方面主要有两大挑战。一类集中在系统韧性方面,在外部环境下,访问流量的变化会导致系统过载,应用高可用设计不达标,都会造成系统韧性不足;另一类在系统可观测性方面,由于系统可观测性不足,导致运维人员无法第一时间发现多样化的云服务风险故障,例如针对生产环境的操作变更(人为误操作、变更失败),代码编写的缺陷(代码质量、程序逻辑、应用架构等故障),以及业务依赖的平台硬件故障、网络故障等情况,无法快速发现并定位问题,最终造成业务损失。
因此,云原生技术底座成为了金融企业业务系统保障的重点演进方向。金融企业需要将云原⽣的特性应⽤在业务场景方面,增强传统云服务的观测性、应⽤韧性、⾼可⽤性、故障⾃愈等能⼒,从而消除不确定性,为业务系统带来额外保障。
云原生提供的稳定性价值被低估,国有大行已尝鲜
众所周知,传统运行环境偏向手工运维,更多依赖个人经验,一般很难做到标准化。而云原生架构的本质区别在于容器和容器编排调度的能力,容器化带来了运行应用的标准化环境,包括云原生环境下的监控告警、异常事件等数据也是以标准化的格式存放,再结合 K8s 技术提供的故障自愈以及实现自动化的运维技术,采用云原生技术建设的风险预测平台天然就拥有较为智能、自动化、标准的稳定性保障能力,也可以为传统虚拟机环境上的业务应用提供更为有效的工具平台。
然而,业界对于云原生的期待大多还聚焦于如何将业务迁移到云原生架构上。但这一迁移过程成本相对比较高,周期也较长,金融行业创新意愿强烈的头部客户固然已经在行动,尤其是一些技术实力强劲的国有大行,以基于云原生的稳定性保障为后盾,将分布式架构转型和核心业务小机下移的规划相结合推进落地,而更多技术储备不足的企业,往往处于观望状态。综合分析,朱剑峰认为,基于云原生架构能够额外提供的可观测性、故障自愈能力是被低估的。
朱剑峰表示,像容器、K8s、微服务平台以及稳定性平台属于工具类平台,是 PaaS 的云原生底座,这些技术工具平台拥有云原生的能力和优势,相比传统虚拟机和物理机可以进一步实现智能化能力,这也是大家没有太多感知到的。所以,在业务云原生化之前,企业不妨考虑将技术工具类平台迁移到云原生架构上,通过稳定性保障技术来反向为传统架构下的业务(包括稳态业务)进行赋能。事实上,与网易数帆合作的部分金融客户,在某些业务上也谨慎地采用了这样的策略。
系统稳定性保障三部曲事前降发生和事中降影响并重
墨菲定律指出,“凡是可能出错的事有很大概率会出错”,指的是任何一个事件,只要具有大于零的概率,就不能够假设它不会发生。整个定律也提示我们,即使一件事发生的可能性很小,也不能忽视它,应该采取预防措施,防止发生不良后果。
那么,对于业务系统的稳定性保障,应该如何建设和完善呢?朱剑峰按照事件生命周期,将增强业务系统的稳定性风险保障能力的建设路径梳理为三部曲:事前提供风险预测,降低故障发生概率;事中通过故障感知自动根因分析快速止损,降低故障影响;事后完善故障改进追踪能力,实现稳定性建设目标。
事前阶段,通过风险预见和中间件巡检,结合全链路压测、混沌工程、引流回放在测试环境事先发现系统存在的可能风险,给出分析报告;同时,在生产环境定时巡检,及时发现生产环境可能存在的风险问题。事中阶段,通过立体化监控收集系统的深度指标,标准化数据让根因分析及时发现故障,并定位根因,给出分析报告,做到1分钟发现问题,5分钟定位问题。事后阶段属于复盘过程,主要在于总结经验,并将事前和事中的一些经验固化为专家规则库。
然而,如果企业的 IT 团队能力有限,在资金投入也受限的情况下,应该注重事前、事中还是事后呢?朱剑峰表示,每个企业的情况不一样,在企业没有充足的预算和人力的情况下,应该着重在事前降发生和事中降影响两个方面。事前通过持续巡检、⻛险评估、故障演练等将异常⻛险左移,引⼊算法实现事前⻛险预测能⼒,降低潜在的⻛险;事中通过⽴体化监控,在故障发⽣后能快速定位根因,根据故障特征模版采取限流兜底或⾃愈策略,把影响降⾄最低。
沉淀专家经验降低稳定性保障门槛
据了解,针对企业云原生稳定性保障方面,网易数帆提供事件生命周期全栈能力,包括故障演练、服务治理、风险预见、立体化监控、根因分析、故障自愈、规则专家库等不同模块。
那么,网易数帆的核心竞争力有哪些呢?朱剑峰告诉 51CTO,网易数帆云原生稳定性保障平台的核心价值在于专家经验的沉淀,这也是企业数字资产的一部分。一方面,网易在集团业务中涉及大规模互联网业务,沉淀了非常多的专业的专家经验,可以覆盖 70%-80% 的互联网场景,并可复用于金融等行业敏态业务支撑。另一方面,网易数帆还在和包括国有大行在内的多家头部金融企业合作共建金融行业专家库,不断完善金融场景下的专家经验,为金融敏态业务提供稳定性保障。“基于这套专家经验库,网易数帆通过将专家经验和故障库形成代码,让机器通过算法降低对系统保障对‘人’的经验的依赖,让稳定性保障的门槛变低。”
专家经验能够在稳定性保障场景里被有效使用,其实是通过决策来实现的。一方面是通过规则引擎直接运行专家经验,另一方面是通过 AIGC、AIOps 等技术,帮助企业进行辅助性决策,从而不断提升诊断建议的科学性和有效性。这也是网易数帆在稳定性保障方面的下一步举措,并且正在内部验证过程中。
提供转型利器保障金融系统稳定性
在服务金融企业技术架构转型过程中,网易数帆对自己的定位也相对比较清晰。一是通过与行业头部金融企业合作共建,打造经过大规模实践优化的具备自主可控、稳定可靠、技术领先,以及可持续演进的技术底座产品,为金融企业提供转型的利器。二是秉持开源、开放、无绑定的原则,提供轻量、解耦的模块化工具产品,配合企业已有的 IT 规划小步快跑,逐渐落地数字化转型。
某金融企业经常出现缓存不可用的情况,间接导致业务不可用。而这家企业的自动化程度较低、观测性也较弱,无法发现问题出现的根本原因。接入网易数帆云原生稳定性保障平台后,该企业通过稳定性巡检的方式发现底层存储抖动,精确定位到 SSD 写穿掉盘的故障,从而及时发现问题,告知存储团队排查处理。
此外,底层存储的抖动,还影响到对应虚拟机和物理机运行的中间件,网易数帆基于云原生实践对各中间件品类设计了配套的异地多活及故障自愈能力,如果出现异常抖动的情况,可以通过这项能力及时将流量迁移到稳定的集群,从而规避风险。朱剑峰强调,大型企业最核心的诉求就是出现问题后能够快速止损,因此底层存储出现抖动,如果排查问题并恢复对应的存储,整个周期是非常长的。但是通过稳定性巡检的方式快速发现问题,并且自动解决事故,是事中快速止损的一种方法。
结语
金融行业一直是网易数帆持续投入与推动落地实践的重要领域。融合网易互联网技术与金融行业服务经验,通过提供微服务治理、API 网关、容器平台、分布式缓存、消息、搜索等云原生 PaaS 中间件及相关云原生分布式产品全栈能力,网易数帆已经帮助两家国有四大行、十余家中国金融百强企业客户向云原生分布式架构转型升级,建设API资产全生命周期管理,打造满足金融业务特性的企业级技术底座,帮助金融企业应对复杂业务场景的挑战,加速金融业务创新。在云原生稳定性保障领域,未来,网易数帆还将与金融企业持续合作,不断完善 DBA、SRE 老专家经验,从而提升诊断建议的科学性及有效性,并结合智能决策,帮助金融企业满足业务稳定性增长需求。