价值精神文学工具操作生活
生活城市
生活生产
技术技能
操作能力
探索运用
工具工程
历史哲学
文学艺术
审美体验
精神世界
创造境界
价值信仰
医学信息

大型ESB服务总线平台服务运行分析和监控预警实践

4月28日 星宿房投稿
  今天准备谈下ESB总线平台建设项目中的服务运行统计分析,服务心跳监测,服务监控预警方面的设计和实现。可以看到,在一个ESB服务总线平台上线后,SOA治理管控就变得相当重要,而这些运行监控分析本身也是提升ESB总线平台高可用性的关键。
  对于ESB总线本身的高可用性建设,我在前面写过一篇文章可以参考。
  大型集团ESB服务总线平台建设项目高可用性实践总结
  今天主要分享下对于这类大型ESB总线平台建设项目在服务运行统计分析,服务心跳监测,服务监控,服务预警等配合高可用性能力方面的一些实践总结。对接口服务运行统计分析的思考
  对于ESB服务运行监控,从SOA服务管控和治理层面来看,经常会涉及到的KPI性能指标并不多,主要还是体现在运行次数,运行时间等关键的维度,如果考虑到指标本身之间的关联关系方便分析,那么还需要增加服务运行的并发数(分钟级),服务调用的数据量等关键指标。
  举例来说,当我们发现服务调用变慢了,即服务运行时间明显增加了,那么我们需要分析是否是该服务本身的并发量是否增加了,还是说服务本身调用的数据量增加了,还是说其它服务调用的并发量和数据量增加了导致该服务的资源被占用等。这些都是可能需要涉及到关联分析的地方。
  首先我们来看下单次服务运行能够采集和记录的关键数据服务运行时间(服务请求开始to服务请求结束)服务运行是否成功(TrueorFalse)服务传输的消息报文大小服务名称服务提供的系统,包括服务提供系统归属的组织类别等服务消费方系统正常调用还是非法调用
  接着再来看某个时间周期的情况,比如1个小时,1天,1周或1个月的统计时间周期运行次数,对运行次数进行求和最大分钟级并发数,取并发数的Max值异常数,对异常数按时间点进行求和告警数,对告警数按时间点进行求和服务最大运行时间,最小运行时间,平均运行时间服务消息报文最大报文,最小报文,平均报文容量
  对于时间周期只我们我们统计的一个维度,而对服务进行分析的时候还需要考虑如下维度按服务目录》按服务按企业》子公司》子组织按应用域》按应用系统》按模块按服务类型》服务子类型按服务提供系统,服务消费系统
  经过以上分析,我们看到一个最底层的服务运行日志信息,就有了按时间维度,按组织,服务类型,系统等多个维度进行维度分析和统计的可能。而这些恰好又是我们进行自定义报表和维度分析的基础。所有的统计分析基本都会基于以上基础运行信息展开进行。
  基于以上思考,我们整合了一个面向组织和业务系统的服务运行统计分析报表,可以按系统的维度详细的查看到自己提供和消费的接口服务的运行情况,异常情况,并发量和数据量,异常和告警等各种关键信息。如下参考:
  为了做完整的服务运行和性能分析,我们最好还需要对中间件资源池(应用服务器和数据库服务器)的CPU,内存利用率,存储使用量等关键指标进行实时的性能分析和监控。在实际的性能分析和监控中往往也是首先会从CPU和内存告警上第一时间反应出服务当前运行出现异常(如大并发,超大数据传输等),然后我们在通过实际的日志监控分析功能快速的查看当前服务运行的并发情况,传递的数据量情况等。
  当我们发现如果一个服务经常运行大并发,大数据量的异常调用的时候,则需要对服务单独启用流量控制策略等。比如:对服务传输的数据量及报文大小进行流控。对服务本身的并发量进行流控。对某个服务最大能够使用的资源量进行流控,防止单服务占满所有资源。服务运行指标勾稽关系分析
  服务运行指标相关之间的关联分析是我们进行服务运行问题排查,异常告警问题根源分析的基础。在前面谈SOA治理管控平台中,我们曾经画过一个图来说明,服务运行过程中的基础物理资源,数据库和应用服务器中间件资源,服务运行KPI和SLA设置之间的关联关系,如下:
  基于上图,我们进一步做下扩展分析,先做下基本的关联关系判别:
  JVM内存持续增加不释放,一个是服务并发量增加同时服务调用时间增长,其次是出现大数据量,长执行时间的服务调用,导致服务连接和内存无法快速回收。CPU使用率高升,但是内存利用率一般,一般为出现大并发量的服务调用,其次对于服务调用过程中有过多的数据映射,转换等处理导致CPU利用率增加。
  服务调用运行时间长,首先要分析是否是原始服务本身调用时间就变长,如果不是,则一般是在ESB服务调用上出现大量长周期服务调用,但是连接不能快速是否,线程池满一直排队的情况。
  如果JVM内存溢出,首先要通过Jstat工具监控下内存GC回收的情况,究竟是新时代,老生代,还是PermSize出现溢出。如果是PermSize需要进一步分析是否是程序本身有问题。
  如果没有做流量控制,单个服务本身的大并发,大数据量调用往往会侵占所有资源,对整个ESB上其它运行的服务都造成性能影响。
  对于ESB总线本身的等待线程数增加一定会涉及到内存持续增加,涉及到服务调用响应周期增加。如果是服务调用超时,则需要分析具体是在哪段引起的超时,是原始服务本身超时,还是在ESB中间件上进行服务处理的时候超时。
  对于服务告警和预警,前面也讲到过,再强调下具体场景包括服务单位时间运行次数明显增加,我们可以设置一个阈值,只要超过了就进行报警。服务运行时间明显增加,我们可以设置一个阈值,只要超过了就进行报警。服务单位时间数据量明显增加,我们可以设置一个阈值,只要超过了就进行报警。
  注意对于服务告警策略可以是针对所有服务,也可以是针对某个具体的服务,对于阈值可以是一个百分比数,也可以是一个绝对值。接下来我们再看下服务运行各个指标本身之间的一些关联关系:服务传递数据量大,一定带来内存增加服务运行时长增加,同时更加容易引起服务调用超时。服务调用并发量增加,服务调用时长一般也会增加,如果时长增加明显,则一定导致内存持续增加。单个服务本身的并发量增加,会引起ESB上线程排队增加,导致直接影响到其它服务调用性能。单个服务调用本身的数据量增加,容易引起JVM内存持续增加,导致JVM内存溢出。如果是后端服务本身性能下降,最明显的就是占有连接,资源不释放,导致ESB本身性能下降。
  而对于整个ESB中间件的性能监控和分析,从最底层的IT基础设施,存储和服务器,到ESB中间件资源池,再到具体运行的服务运行包,相互之间存在密切的关联,需要达到的效果往往是第一时间反馈出预警。并且通过预警去采取后续的行动措施和SLA策略设置等。
  1。从资源池监控发现的CPU和内存异常第一时间找到非法调用服务?
  如果有CPU和内存利用率出现异常,同时某个服务或某几个服务出现运行性能告警,那么我们就有了分析的依据究竟是哪个服务导致的。并快速定位到具体的服务。在定位到具体的服务后,可以再详细查看服务调用的并发数,数据量等信息,然后有针对性的对服务展开流量控制策略。
  2。如果JVM内存持续上升而没有释放,如何快速定位到服务?
  这个也是经常遇到的问题,当JVM内存持续增加,或者连接数不断的增加而不释放的时候,如果我们不进行及时的处理往往就导致整个JVM内存溢出而影响到所有ESB服务的运行。因此在这种场景下我们需要尽快的发现导致问题的服务,并对服务采取相应的措施。
  3。从服务运行告警到自动熔断
  为了不因为一个具体服务的异常非法调用而影响到所有服务的运行,对于单个服务在出现持续性的告警后,应该有策略直接对该服务进行熔断处理。比如直接对服务进行禁用处理。增加实时的心跳检查
  在前面部分已经详细分析了服务本身的运行并发,次数和数据量与JVM内存,与CPU和内存利用率等各个关键指标之间的勾稽关系。
  这些指标之间本身相互影响和作用,我们对指标的监控本身应该是风险驱动的,即在系统出现宕机或内存溢出等故障问题前快速的发现问题并进行处理。
  因此,我们就需要对各种关键指标进行心跳监控和实时预警。
  对JVM内存利用率进行监控
  在前面我们已经谈到了,实际上出现JVM溢出的时候,往往会由于请求漂移影响到整个集群大量节点内存溢出而导致集群不可用。
  因此需要时刻监控JVM内存利用率的情况,如果发现JVM内存持续在某个高位,无法通过Gc操作将内存回收下来的时候就应该实时进行预警。
  在预警后我们既可以进行人工处理,也可以设置策略直接对问题节点进行重启操作。
  如上,我们对所有集群节点的JVM内存利用率进行实时监控,当发现利用率持续大于70的时候就进行相应的预警操作,如果超过80就推送严重警告信息。
  对后端业务系统和服务本身可用性监控
  其次,ESB服务总线如果出现服务调用异常,除了ESB总线本身的异常故障外,更大的可能性是后端业务系统不可用,或者说后端业务系统提供的业务服务不可用导致。
  对于ESB总线本身,我们可以实时心跳检查ESB总线暴露的服务可用性,如下:
  如果是后端系统本身不可用,那么往往会快速的返回connectiontimeout异常信息,这样不会影响到整个ESB总线平台稳定性。但是如果是后端业务系统服务假死或处于长时间无响应的状态,那么就会导致大量的连接无法释放,最终导致资源被消耗完。
  因此对后端系统和后端服务进行实时心跳监控也是有必要的。
  不论是对于ESB集群还是后端业务系统的监控,实际上都包括两个方面的监控,一个我们叫技术联通性监控,一个叫业务联通性监控。
  技术连通性即是否出现connecitontimeout访问超时,是就返回异常。而对于业务联通性,则是调用真实的某个业务服务接口,如果出现readtimeout则返回业务连通失败错误。
  对服务运行进行实时心跳监控
  其次,我们还需要对服务运行进行实时心跳监控,即时刻监控服务运行的并发量,数据量,运行时长等几个关键数据指标。
  在前面已经谈到过以上几个指标本身存在勾稽关系,比如发现服务运行平均时长增加,那么很可能是服务并发量增加或调用数据量增加导致。其次,如果发现服务调用的消息报文数据量猛增,那么很可能导致服务运行时长增加。
  因此需要对以上几个关键指标进行实时监控,时刻监控是否发生了峰值突变情况。
  当发现了峰值或突变的时候,我们就需要进行预警,并分析发生大并发或大数据量调用的原因并及时采取相应的流量管控措施,以确保整个ESB平台的稳定性。通过监控大屏可视化实时监控
  监控大屏更多的是展示基于服务集成层面的总览数据,同时对关键的异常告警信息,关键指标心跳,关键指标排名信息进行展示。这些都应该在Level1级层面的视图或报表。
  我们举一个简单场景,一个企业实施了ESB总线后,集成了20个业务系统,上100个服务接口,每天大概产生100万条服务调用示例记录,高峰时期的分钟级并发在1万次左右。
  总线实际上和硬件类网关很类似,当所有的服务调用全部都有经过总线的时候,我们就更加关心总线上实际的实时并发量,数据流量大小数据。而且这两个数据最好是要实现准实时的监控。以分钟级为例,我们需要监控分钟级的服务调用次数,分钟级的服务调用传输数据量。
  监控着两个指标是否出现突然的峰值调用,如果没有一般来说总线运行本身也不好出现问题。如果出现了各种异常大并发,大数据量调用,则一定会体现到我们的监控时序图上面。这两个数据实际上是适合在大屏上面实时心跳检测并显示的。
  对于大屏可视化展示,我们可以理解为总览,即更多的是当前ESB总线服务,集成的业务系统的总体健康情况。因此在大屏上我们可以考虑对当天的一些统计数据进行统计展示。
  这些统计数据包括了服务调用总次数,平均时长,总数据量,平均数据量,分钟级最大并发,接入总系统数,接入总服务数,总异常数,总告警次数等。对于异常告警往往是一个比较重要的展示内容,特别是异常信息本身还分为了系统级的异常和业务级的异常,对于告警本身又分为严重,一般,轻微等各种级别的告警。这些都需要在大屏进行一个统计的展示。
  如果是做集团到省两级ESB总线实施,在大屏上我们就可以考虑来实现结合地图的可视化效果展示。这个前面有文章说过,可以通过连线,端点节点大小,颜色等来体现服务调用流量,状态等信息。
  即使是单级ESB总线,在大屏展示的时候我们也需要考虑是否能够展示一个集成架构视图,能够展示出当前总线集成的多个业务系统,类似Bus总线的展示方式,可以通过该图将集成的关键系统全部标注出来。同时对于集成的系统上本身可以显示更多的关键信息。
  如果集成的业务系统用一个方框进行展示,那么在方框里面可以考虑展示。方框的颜色用于展示当前提供服务的本身的异常和告警情况方框内可以显示提供服务数和消费服务数方框内可以显示服务当天的服务提供总次数,峰值并发量
  最后,大屏本身也可以展示一些列表数据,但是从大屏可视化效果来说,列表数据不适合展示太多。可以考虑的列表数据展示主要包括了服务运行次数,服务调用异常,服务调用耗时或数据量的Top10排名信息显示等。
评论 转载
儿子给儿媳洗经期脏内裤,婆婆怒斥晦气,被儿媳妇的话打脸01我妈经常跟我说,判断一个男人爱不爱你,就看他会不会心疼你。我问她,怎么才算是心疼?心疼就是,男人不舍得你受苦受累,家里有什么事,他能做的都做了。不能帮你做……媒介资讯丨斛珠夫人发布海报官宣阵容,月上重火平台已定影视消息2020年05月08日《斛珠夫人》发布海报并官宣阵容由企鹅影视、嘉行传媒、厚海文化、逍遥影业联合出品,嘉行传媒承制、根据萧如瑟小说改编、金沙执导的古偶剧《斛……杨幂两位前任刘恺威魏大勋机场巧遇穿着一身黑衣的刘恺威(右)、魏大勋(左)被发现同时出现在机场。港星刘恺威日前现身北京机场,正巧内地男星魏大勋也在工作人员陪同下出现,被捕捉到同框镜头。两人机场同框随即成为……葛优罕与梁天李成儒聚会,瘦到脱相难认!丁克30年把妻子宠成公葛优又有新动态啦就在昨天,葛优与梁天、李诚儒等人罕见聚会,引得网友唏嘘不已。从视频的背景可以看出,葛优和其他人似乎坐在高速铁路商务座车里,李强、李诚儒、葛优挤在座位……西安地铁保安强行拖拽女乘客,致其衣不蔽体!官方回应不违法前几天,在西安地铁发生的保安拖拽女乘客,导致对方赤裸裸地曝光在镜头下的视频疯狂在网上转载,事情一出,引发了网友的关注,为何会发生这一幕呢?难道全是保安的责任吗?8月31日……吐槽披荆斩棘的哥哥给我留下的印象印象深刻欢迎大家来到轰动一时刻,每天坚持原创,关注我,将近期有趣的事情分享给您。披荆斩棘的哥哥自从开播以来,一直保持着热度,追的追,聊的聊,有喜欢的,自然就有不喜欢的。经朋友推荐……蓝盈莹凭什么?北辙南辕女二,客串个个厉害,女主遭质疑冯小刚导演的电视剧《北辙南辕》今晚开播!我们先从阵容上来看,一番位置大女主蓝盈莹,女二金晨,客串王珞丹,男主韩庚。像韩庚,王珞丹这样的大牌演员,其实大主角的身份也是……拥有四个八度的完美音域,还是星光大道年度总冠军,她去哪了?01她受过良好教育,后却因父亲生病去夜店驻唱《星光大道》这个节目相信大家都不陌生了,曾红遍大江南北,男女老少都会常常关注的节目,主要是因为这个节目有一个特色就是里面的选手……白百何和佟大为时隔15年再合作,我们的婚姻没有完美的药方白百何和佟大为时隔15年再合作,《我们的婚姻》没有完美的药方白百何、佟大为、蒋欣领衔主演的《我们的婚姻》是一部都市电视剧,这也是白百何、佟大为继《与青春有关的日子》之后,……失宠小沈阳因一个荒唐选择改写结局,赵本山早就劝他别飘提起2009年的春晚,小品《不差钱》无疑是最大的爆款之一,那时顶着赵本山徒弟的名号,小沈阳唱了一首《山丹丹花开红艳艳》惊艳四座,也开启了他火遍大江南北的命运转折。成名那年……男演员娶儿子为妻,相濡以沫50年,临终前一句话劝哭半个中国众所周知,娱乐圈的感情就像闹着玩,结婚和离婚都是家常便饭,能在一起十年就已经可以称得上是模范夫妻了。在上个世纪,有这样两个演员,他们有各自的家庭,却彼此相爱49年,携手共……大型ESB服务总线平台服务运行分析和监控预警实践今天准备谈下ESB总线平台建设项目中的服务运行统计分析,服务心跳监测,服务监控预警方面的设计和实现。可以看到,在一个ESB服务总线平台上线后,SOA治理管控就变得相当重要,而这……
15秒视频葬送泸州老窖百亿市值,维权做错了吗?这事韩雪最懂头条赠我三宗宝,我许头条半生缘我和头条的故事蔡徐坤工作室发文道歉向各位消费者致歉,感谢媒体和网友的监督张艺兴要加盟向往的生活?常驻嘉宾3个闷子,这节目还能看吗我的股市历炼黑寡妇恐是牺牲品,为了给下一部电影做暖场,几乎放弃防盗版自杀的人那么多,人生到底有多艰难ELLE盛典生图,杨幂身材比例惊人,周笔畅拼性感,刘雨昕竟穿肖战最新手办Q炸!表情和小时候照片一模一样!发量太让人嫉妒了王子文坐男友肩膀上自拍,发文更是令人起鸡皮疙瘩,综艺爱情太甜印象最深的一条短信人生如戏,随时会有意想不到的惊喜曾说肖战像蛤蟆,拒绝与赵露思连麦,网红郭老师放狠话舔脚都不配
竞选班干部的演讲稿中国社交焦虑者达万一开口就焦虑怎么破电脑和电视怎么连接氡(由词目及其释义等构成的中文知识性百科条目)xd股票当天该买还是卖关于场景的片段描写灌篮高手西游解密18黑熊怪有何功德,竟让观音菩萨收为后山大王?现在手机支付已经这么快捷了你还会办信用卡吗?遇见,是最好的缘分房产证上有父母和你的名字现在父亲去世了未来的电视想象作文热传聚热点网 肉豆蔻酸有致痘风险吗
©2025网站地图最近更新文明上网我要投诉