跳转至

Prometheus的数据模型

数据模型

Prometheus从根本上存储的所有数据都是时间序列: 具有时间戳的数据流只属于单个度量指标和该度量指标下的多个标签维度。除了存储时间序列数据外,Prometheus也可以利用查询表达式存储5分钟的返回结果中的时间序列数据

metrics和labels(度量指标名称和标签)

每一个时间序列数据由metric度量指标名称和它的标签labels键值对集合唯一确定。

这个metric度量指标名称指定监控目标系统的测量特征(如:http_requests_total- 接收http请求的总计数). metric度量指标命名ASCII字母、数字、下划线和冒号,他必须配正则表达式[a-zA-Z_:][a-zA-Z0-9_:]*。

标签开启了Prometheus的多维数据模型:对于相同的度量名称,通过不同标签列表的结合, 会形成特定的度量维度实例。(例如:所有包含度量名称为/api/tracks的http请求,打上method=POST的标签,则形成了具体的http请求)。这个查询语言在这些度量和标签列表的基础上进行过滤和聚合。改变任何度量上的任何标签值,则会形成新的时间序列图

标签label名称可以包含ASCII字母、数字和下划线。它们必须匹配正则表达式[a-zA-Z_][a-zA-Z0-9_]*。带有_下划线的标签名称被保留内部使用。

标签labels值包含任意的Unicode码。

官方文档

有序的采样值

有序的采样值形成了实际的时间序列数据列表。每个采样值包括:

一个64位的浮点值

一个精确到毫秒级的时间戳一个样本数据集是针对一个指定的时间序列在一定时间范围的数据收集。这个时间序列是由{=, …}

小结:指定度量名称和度量指标下的相关标签值,则确定了所关心的目标数据,随着时间推移形成一个个点,在图表上实时绘制动态变化的线条

Notation(符号)

表示一个度量指标和一组键值对标签,需要使用以下符号:

[metric name]{[label name]=[label value], …}

例如,度量指标名称是api_http_requests_total, 标签为method="POST", handler="/messages"的示例如下所示:

api_http_requests_total{method=”POST”, handler=”/messages”}

这些命名和OpenTSDB使用方法是一样的

度量指标类型

Prometheus客户库提供了四个核心的metrics类型。这四种类型目前仅在客户库和wire协议中区分。Prometheus服务还没有充分利用这些类型。

Counter(计数器)

一种累加的 metric,典型的应用如:请求的个数,结束的任务数, 出现的错误数等等。

注意:对于持续增长的counter数据,直接输入key是没有意义的,必须要以获取单位时间内的增量的方式来进行加工, 之后才能有意义 。

在使⽤任何counter数据类型的时候,先给它加上⼀个 rate() 或者 increase()

例如:

查询 http_requests_total{method=”get”, job=”Prometheus”, handler=”query”} 返回 8,10 秒后,再次查询,则返回 14。

Gauge(测量器)

gauge是一个度量指标,它表示一个既可以递增, 又可以递减的值。

gauge类型的数据 属于随机变化数值,并不像counter那样是持续增长的

一种常规的 metric,典型的应用如:温度,运行的 goroutines 的个数。

可以任意加减。

例如:

go_goroutines{instance=”172.17.0.2”, job=”Prometheus”} 返回值 147,10 秒后返回 124。

Histogram(柱状图)

histogram,是柱状图,在Prometheus系统中的查询语言中,有三种作用:

  • 对每个采样点进行统计,打到各个分类值中(bucket)
  • 对每个采样点值累计和(sum)
  • 对采样点的次数累计和(count)

度量指标名称: [basename]的柱状图, 上面三类的作用度量指标名称

  • [basename]_bucket{le=”上边界”}, 这个值为小于等于上边界的所有采样点数量
  • [basename]_sum
  • [basename]_count

小结:所以如果定义一个度量类型为Histogram,则Prometheus系统会自动生成三个对应的指标

Histogram的最简单的理解, DEMO

使用histogram_quantile()函数, 计算直方图或者是直方图聚合计算的分位数阈值。

官方示例: 直方图度量称为http_request_duration_seconds。要计算超过最后10m的请求持续时间的第90百分位数,可以使用以下表达式:

histogram_quantile(0.9, rate(http_request_duration_seconds_bucket[10m]))

分位数是为http_request_duration_seconds中的每个标签组合计算的。要进行聚合,可以使用围绕rate()函数的sum()聚合器。因为直方图_quantile()需要le标签,所以它必须包含在by子句中。以下表达式汇总了按工作分类的第90百分位数:

histogram_quantile(0.9, sum(rate(http_request_duration_seconds_bucket[10m])) by (job, le))

要聚合所有内容,只需指定le标签:

histogram_quantile(0.9, sum(rate(http_request_duration_seconds_bucket[10m])) by (le))

一个直方图计算Apdex值也是合适的, 当在buckets上操作时,记住直方图是累计的。

直方图的直接使用(而不是汇总)是对落入特定观察值类别的观察值进行计数。

您可能有一个SLO在300毫秒内处理95%的请求。 在这种情况下,请将直方图配置为具有0.3秒上限的存储桶。 然后,您可以直接表示300毫秒内服务的相对请求量,并在该值低于0.95时轻松发出警报。 以下表达式按作业为最近5分钟内服务的请求计算它。 请求持续时间是使用称为http_request_duration_seconds的直方图收集的。

  sum(rate(http_request_duration_seconds_bucket{le="0.3"}[5m])) by (job)
/
  sum(rate(http_request_duration_seconds_count[5m])) by (job)

您可以用类似的方式近似著名的Apdex评分。将一个桶配置为目标请求持续时间为上限,另一个桶配置为允许的请求持续时间(通常为目标请求持续时间的4倍)为上限。示例:目标请求持续时间为300ms。可容忍的请求持续时间是1.2秒。下面的表达式给出了过去5分钟内每个工作的Apdex得分:

(
  sum(rate(http_request_duration_seconds_bucket{le="0.3"}[5m])) by (job)
+
  sum(rate(http_request_duration_seconds_bucket{le="1.2"}[5m])) by (job)
) / 2 / sum(rate(http_request_duration_seconds_count[5m])) by (job)

请注意,我们将两个存储桶的总和相除。 原因是直方图存储桶是累积的。 le =“ 0.3”存储桶也包含在le =“ 1.2”存储桶中; 将其除以2即可解决此问题。

该计算与传统的Apdex分数不完全匹配,因为它包括计算满意和可容忍的部分中的误差。

详见直方图和总结

Summary(概要)

类似histogram柱状图,summary是采样点分位图统计,(通常的使用场景:请求持续时间和响应大小)。 它也有三种作用:

  1. 对于每个采样点进行统计,并形成分位图。(如:正态分布一样,统计低于60分不及格的同学比例,统计低于80分的同学比例,统计低于95分的同学比例)
  2. 统计班上所有同学的总成绩(sum)
  3. 统计班上同学的考试总人数(count)

带有度量指标的[basename]的summary 在抓取时间序列数据展示。

  • 观察时间的φ-quantiles (0 ≤ φ ≤ 1), 显示为[basename]{分位数="[φ]"}
  • [basename]_sum, 是指所有观察值的总和
  • [basename]_count, 是指已观察到的事件计数值

summary的最简单的理解, DEMO

histogram和summaries官方文档

Jobs和Instances(任务和实例)

就Prometheus而言,pull拉取采样点的端点服务称之为instance。多个这样pull拉取采样点的instance, 则构成了一个job

例如, 一个被称作api-server的任务有四个相同的实例。

  job: api-server
    instance 1:1.2.3.4:5670
    instance 2:1.2.3.4:5671
    instance 3:5.6.7.8:5670
    instance 4:5.6.7.8:5671

自动化生成的标签和时间序列

当Prometheus拉取一个目标, 会自动地把两个标签添加到度量名称的标签列表中,分别是:

  • job: 目标所属的配置任务名称api-server。
  • instance: 采样点所在服务: host:port

如果以上两个标签二者之一存在于采样点中,这个取决于honor_labels配置选项。详见 文档

对于每个采样点所在服务instance,Prometheus都会存储以下的度量指标采样点:

  • up{job="[job-name]", instance="instance-id"}: up值=1,表示采样点所在服务健康; 否则,网络不通, 或者服务挂掉了
  • scrape_duration_seconds{job="[job-name]", instance="[instance-id]"}: 尝试获取目前采样点的时间开销
  • scrape_samples_post_metric_relabeling{job="<job-name>", instance="<instance-id>"}: 表示度量指标的标签变化后,标签没有变化的度量指标数量。
  • scrape_samples_scraped{job="<job-name>", instance="<instance-id>"}: 这个采样点目标暴露的样本点数量

up度量指标对服务健康的监控是非常有用的。