美林数据技术专家团队|如何通过基于云原生的智能监测体系实现企业提质增效
2021-12-10 09:52:30
次
微服务容器化部署作为当前较为成熟的应用上线部署方式,具有进程隔离、文件系统隔离、资源隔离的优势。但是微服务容器化部署后由于其自身对进程、文件、资源的隔离特点,使得应用服务的运行状态、环境的监控、面临诸多挑战。因此如何构建一套适合容器化建设的智能监测体系成为企业当下的一个痛点。
本文从“提质增效”的角度出发,描述了美林数据“云原生”监测分析的架构体系设计,并对该监测体系的架构内容进行了详细的介绍。
随着“云原生”技术的发展,分布式微服务架构下应用日益丰富,用户数量爆发式增长,纷杂的应用异常问题接踵而来。传统运维模式下多套运维系统上的各项指标无法关联分析, 运维人员需要根据运维经验逐一排查应用异常,致使 :
1、大型分布式应用关系错综复杂,分析定位应用问题困难,应用运维面临如何保障应用正常、快速完成问题定位、迅速找到性能瓶颈的挑战;
2、应用体验差,导致用户流失。运维人员不能实时感知并追踪体验差的业务,未能及时诊断应用异常,严重影响用户体验。
针对公司微服务容器化部署上线后应用服务的运行状态、环境无法监控的痛点,本文在美林数据“云原生”架构体系的基础之上,提出基于“云原生”的智能监测体系。
智能监测分析体系
本文将从架构设计及建设内容两个角度出发来阐述所建设的智能监测体系。
一、云原生架构
美林数据的云原生架构涵盖了智能运维、容器、API驱动及微服务四个方面,自上而下可分为:管理服务层、容器服务层及平台服务层。
其中管理服务层是美林数据自主开发建设的可视化的操作平台,该平台支持应用的统一部署、监控、配置、维护、扩展、升级等操作。
容器服务层提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理;助力企业高效运行云端Kubernetes容器化应用。
平台服务层依托现有的公有云、私有云、混合云等新型可动态伸缩的环境来构建与运行可弹性扩展的应用,以虚拟化技术为基础、以网络为载体提供基础架构,整合大规模可扩展的计算、存储、数据、应用等分布式计算资源进行协同工作的超级计算模式来为容器服务层提供服务。
二、云原生智能监测体系
关于智能监测分析体系,该体系主要是针对应用服务、硬件资源、容器资源进行主动监控与检查的服务。通过多视角对容器、应用及环境进行综合管理,运用交叉比对(自动告警规则和监测的业务数据进行比对分析)、趋势分析(不同时间内某一个指标或者几个指标随着时间的推移,监控指标的变化趋势分析)等方法对异常状态进行分析并及时报告,快速定位故障原因,提高系统运维效率,具体架构设计如下图所示。
►应用监测
应用监测在本文描述的智能监测分析体系中是为应用服务提供一个监测、分析的入口,实现的架构如下图所示:
应用服务监测实现对应用服务的全方位监控、快速定位出错接口和慢接口、重现调用参数、发现系统瓶颈,从而大幅提升线上问题诊断的效率。通过探针的方式来捕获、计算展示出不同端点之间相互调用链,及各个调用链中端点的性能分析结果。通过3D拓扑图能立体展示应用、服务和主机的健康状况,以及应用的上下游依赖关系,帮助您快速定位诱发故障的服务、被故障影响的应用和关联的主机等。通过对应用服务的实时诊断,提供可视化的瀑布图的方式来简便问题的快速定位。
►硬件监测
硬件监测是本文描述的智能监测分析架构体系的基础,主要实现对应用部署环境的网络状况和服务器状况的监控。通过灵活的告警机制来保障运维人员对于异常情况的快速定位与响应。通过自定义创建多监控项视图的方式来满足不同使用的人员对监控产品的个性化需求。
通过可视化的网络拓扑看板方式实现对监控项的可视化配置及可视化的状态查看。该模块通过Agent方式实现对服务器主机信息的监控的涵盖CPU、内存、网络、磁盘、文件的监控,包括CPU负载、CPU使用率、内存使用率、网络传输、网络故障、丢包信息、磁盘使用率、文件监控、TCP端口连接,响应时间等,硬件监控的原理如下图硬件监测原理图所示。
►容器监测
容器监测在本文描述的智能监测分析体系中实现了容器的实时监测、应用性能和故障管理及被监测服务的各项指标。容器监测的架构如下图所示:在智能检测的过程中,采集的监控数据均以指标(metric)的形式保存在内置的时间序列数据库当中(TSDB):属于同一指标名称,同一标签集合的、有时间戳标记的数据流。除了存储的时间序列,还可以根据查询请求产生临时的、衍生的时间序列作为返回结果,监控主机可以采用pull的模式,定期从各个agent获取指标数据,做统一汇总处理。
它既适用于面向服务器等硬件指标的监控,也适用于高动态的面向服务架构的监控。它的多维度数据收集和数据筛选查询语言能力为现在流行的微服务提供了强大的技术支持。它是为服务的可靠性而设计的,当服务出现故障时,它可以使你快速定位和诊断问题,并且其自身的搭建过程对硬件和服务没有很强的依赖关系。
基于云原生架构的智能监测体系,可适用于企业应用上线后对应用状态、硬件环境、容器状态的监测、分析、告警。立足于为企业提供一个可视化配置、分析的智能监测架构体系,帮助企业实时感知并追踪异常业务,并为运维人员诊断应用异常提供理论指导。