跳转至

监控术语

监控术语定义

在讨论监控系统时,几乎没有通用的术语,以下的术语所谓的通用也有局限性,不代表有一定通用性。

监控

收集、处理、汇总,并且关于某个系统的实时量化数据,例如,请求的数量和类型,错误的数量和类型,以及处理耗时,应用服务与主机的存活等。

白盒监控

依靠系统内部暴露的一些性能指标进行监控,包括日志分析、jvm提供的接口,或者一个列出内部系统统计数据的HTTP接口进行监控。

黑盒监控

通过测试某种外部可见的系统行为进行监控,如状态码200/302/5xx/4xx

监控可视化

某个核心服务指标可以通过WEB应用程序一览,同时提供过滤、选择、汇总等功能,主要还是提供一些重要的指标可视化,立体全方位展示,如IDC机房的分部区域、某站点的延迟、某服务的存活状态等。

警报

目标对象某个系统发向某个人的一个通知。目的地可能包括微信、钉钉、Slack、Email、倍洽、SMS等,以发送目标分类。

根源

指系统中某个bug,这个bug如果被修复,就可以保证这种问题不会在复现。某一个故障可能具有多种根源导致的因素,例如:自动化程度不达标,发布脚本不完善,程序没有跑完的情况下就崩溃了,测试覆盖面不够,软件bug,系统bug等,这里每一个因素都是一个根源。

节点

这个节点可以理解为宿主机、虚拟机、以及Kubernetes中的某个node或某个node中跑的container中的某个实例,这是一个比较抽象的概念。

宿主机、虚拟机、以及Kubernetes中的某个node或某个node中跑的container中的某个实例,都要被监控,可能会有以下特点:

  • 相互关联的服务: 例如web服务器与MySQL实例

  • 不相关的服务: 可能仅仅是硬件资源共享:比如Docker和Kubernetes的数据需要存储到分布式文件系统中,如CEPH、GFS等。

推送

某个服务正在运行的软件或者配置文件的改动,如nginx的配置更新。