victoriaMetrics代理性能优化问题解析

更新时间：2022年4月5日 22:22 点击：378 作者：charlieroro

起因

最近有做一个Prometheus metrics代理的一个小项目，暂称为prom-proxy，目的是为了解析特定的指标(如容器、traefik、istio等指标)，然后在原始指标中加入应用ID(当然还有其他指标操作，暂且不表)。经过简单的本地验证，就发布到联调环境，跑了几个礼拜一切正常，以为相安无事。但自以为没事不代表真的没事。

昨天突然老环境和新上prom-proxy的环境都出现了数据丢失的情况，如下图：

prom-proxy有一个自服务指标request_total，经观察发现，该指标增长极慢，因而一开始怀疑是发送端的问题(这是一个误区，后面会讲为何要增加缓存功能)。

进一步排查，发现上游发送端(使用的是victoriaMetrics的vmagent组件)出现了如下错误，说明是prom-proxy消费的数据跟不上vmagent产生的数据：

2022-03-24T09:55:49.945Z        warn    VictoriaMetrics/app/vmagent/remotewrite/client.go:277   couldn't send a block with size 370113 bytes to "1:secret-url": Post "xxxx": context deadline exceeded (Client.Timeout exceeded while awaiting headers); re-sending the block in 16.000 seconds

出现这种问题，首先想到的是增加并发处理功能。当前的并发处理数为8(即后台的goroutine数目)，考虑到线上宿主机的core有30+，因此直接将并发处理数拉到30。经验证发现毫无改善。

另外想到的一种方式是缓存，如使用kafka或使用golang自带的缓存chan。但使用缓存也有问题，如果下游消费能力一直跟不上，缓存中将会产生大量积压的数据，且Prometheus监控指标具有时效性，积压过久的数据，可用性并不高又浪费存储空间。

下面是使用了缓存chan的例子，s.reqChan的初始大小设置为5000，并使用cacheTotal指标观察缓存的变更。这种方式下，数据接收和处理变为了异步(但并不完全异步)。

上面一开始有讲到使用request_total查看上游的请求是个误区，是因为请求统计和请求处理是同步的，因此如果请求没有处理完，就无法接收下一个请求，request_total也就无法增加。

func (s *Server) injectLabels(w http.ResponseWriter, r *http.Request) {
    data, _ := DecodeWriteRequest(r.Body)
    s.reqChan <- data
    cacheTotal.Inc()
    w.WriteHeader(http.StatusNoContent)
}
func (s *Server) Start() {
    go func() {
        for data := range s.reqChan {
            cacheTotal.Dec()
            processor := s.pool.GetWorkRequest()
            go func() {
                processor.JobChan <- data
                res := <-processor.RetChan
                if 0 != len(res.errStr) {
                    log.Errorf("err msg:%s,err.code:%d", res.errStr, res.statusCode)
                    return
                }
            }()
        }
    }()
}

上线后观察发现cacheTotal的统计增加很快，说明之前就是因为处理能力不足导致request_total统计慢。

至此似乎陷入了一个死胡同。多goroutine和缓存都是不可取的。

回顾一下，prom-proxy中处理了cadvisor、kube-state-metrics、istio和traefik的指标，同时在处理的时候做了自监控，统计了各个类型的指标。例如：

prom-proxy_metrics_total{kind="container"} 1.0396728e+07
prom-proxy_metrics_total{kind="istio"} 620414
prom-proxy_metrics_total{kind="total"} 2.6840415e+07

在cacheTotal迅猛增加的同时，发现request_total增长极慢(表示已处理的请求)，且istio类型的指标处理速率很慢，，而container类型的指标处理速度则非常快。这是一个疑点。

vmagent的一个请求中可能包含上千个指标，可能会混合各类指标，如容器指标、网关指标、中间件指标等等。

通过排查istio指标处理的相关代码，发现有三处可以优化：

更精确地匹配需要处理的指标：之前是通过前缀通配符匹配的，经过精确匹配之后，相比之前处理的指标数下降了一半。
代码中有重复写入指标的bug：这一处IO操作耗时极大
将写入指标操作放到独立的goroutine pool中，独立于标签处理

经过上述优化，上线后发现缓存为0，性能达标！

一开始在开发完prom-proxy之后也做了简单的benchmark测试，但考虑到是在办公网验证的，网速本来就慢，因此注释掉了写入指标的代码，初步验证性能还算可以就结束了，没想到埋了一个深坑。

所以所有功能都需要覆盖验证，未验证的功能点都有可能是坑！

总结

服务中必须增加必要的自监控指标：对于高频率请求的服务，增加请求缓存机制，即便不能削峰填谷，也可以作为一个监控指标(通过Prometheus metric暴露的)，用于观察是否有请求积压；此外由于很多线上环境并不能直接到宿主机进行操作，像获取火焰图之类的方式往往不可行，此时指标就可以作为一个参考模型。
进行多维度度、全面的benchmark：代码性能分为计算型和IO型。前者是算法问题，后者则涉及的问题比较多，如网络问题、并发不足的问题、使用了阻塞IO等。在进行benchmark的时候可以将其分开验证，即注释掉可能耗时的IO操作，首先验证计算型的性能，在计算型性能达标时启用IO操作，进一步做全面的benchmark验证。

后续

喜闻乐见的后续来了。。。

由于公司有两个大的线上集群，暂称为more集群和less集群，很不幸，性能达标的就是less集群的，其指标数据相比more集群来说非常less，大概是前者的十分之一。上到more集群之后服务内存直接达到50G，多个副本一起吃内存，直接将节点搞挂了。

迫不得已(又是那句话，感觉对了的点往往不对)，重新做了pprof压力测试，发现内存黑洞就是下面这个函数(来自Prometheus)，即便在办公电脑下进行压测，其内存使用仍然达到好几百M。该函数主要是读取vmagent传来的请求，首先进行snappy.Decode解码，然后unmarshal到临时变量wr中。低流量下完全没有问题，但高流量下完全无法应对：

func DecodeWriteRequest(r io.Reader) (*ReqData, error) {
	compressed, err := ioutil.ReadAll(r)
	if err != nil {
		return nil, err
	}
	reqBuf, err := snappy.Decode(nil, compressed)
	if err != nil {
		return nil, err
	}
	var wr prompb.WriteRequest
	if err := proto.Unmarshal(reqBuf, &wr); err != nil {
		return nil, err
	}
	return &ReqData{
		reqBuf: reqBuf,
		wr:     &wr,
	}, nil
}

解决办法就是拿出sync.pool大杀器，下面方式参考了victoriaMetrics的byteutil库(代码路径lib/byteutil)，有兴趣的可以去看下，经过压测，相同测试情况下内存降到了不足100M。

func DecodeWriteRequest(r io.Reader, callback func(*prompb.WriteRequest)) error {
	ctx := getPushCtx(r)
	defer putPushCtx(ctx)
	if err := ctx.Read(); err != nil {
		return err
	}
	bb := bodyBufferPool.Get()
	defer bodyBufferPool.Put(bb)
	var err error
	bb.B, err = snappy.Decode(bb.B[:cap(bb.B)], ctx.reqBuf.B)
	if err != nil {
		return err
	}
	wr := getWriteRequest()
	defer putWriteRequest(wr)
	if err := wr.Unmarshal(bb.B); err != nil {
		return err
	}
	callback(wr)
	return nil
}

这样一来性能完全达标，10core下单pod每秒可以处理250w个指标！

重新发布线上，自然又出问题了，这次prom-proxy服务一切正常，但导致后端vmstorage(victoriametrics的存储服务)内存爆满。经过初步定位，是由于出现了slow insert，即出现大量 active time series导致缓存miss，进而导致内存暴增(prom-proxy服务会在原始指标中增加标签，并创建其他新的指标，这两类指标数目非常庞大，都属于active time series)。

最终的解决方式是将修改的指标作分类，并支持配置化启用，即如果修改的指标类型有：A、B、C、D四类。首先上线A，然后上线B，以此类推，让vmstorage逐步处理active time series，以此减少对后端存储的瞬时压力。

vmstorage有一个参数：--storage.maxDailySeries，它可以限制active time series的数目。但环境中正常情况下就有大量active time serials，如果设置了这个参数，新增的active time serials极有可能会挤掉老的active time serials，造成老数据丢失。

以上就是victoriaMetrics代理性能优化问题解析的详细内容，更多关于victoriaMetrics代理性能优化的资料请关注猪先飞其它相关文章！

原文出处：https://www.cnblogs.com/charlieroro/p/16054058.html

[!--infotagslink--]

上一篇: InnoDB主键索引树和二级索引树的场景分析

下一篇: sql注入报错之注入原理实例解析

Android用MemoryFile文件类读写进行性能优化
java开发的Android应用，性能一直是一个大问题，，或许是Java语言本身比较消耗内存。本文我们来谈谈Android 性能优化之MemoryFile文件读写。 Android匿名共享内存对外A...2016-09-20
Angular性能优化之第三方组件和懒加载技术
这篇文章主要介绍了Angular性能优化之第三方组件和懒加载技术，对性能优化感兴趣的同学，可以参考下...2021-05-11
利用 Chrome Dev Tools 进行页面性能分析的步骤说明(前端性能优化)
这篇文章主要介绍了利用 Chrome Dev Tools 进行页面性能分析的步骤说明(前端性能优化),本文给大家介绍的非常想详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下...2021-02-24
自动设置安卓手机wifi代理的PowerShell脚本
这篇文章主要介绍了自动设置安卓手机wifi代理的PowerShell脚本，帮助大家进行抓包测试，感兴趣的朋友可以了解下...2020-10-17
vue配置多代理服务接口地址操作
这篇文章主要介绍了vue配置多代理服务接口地址操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...2020-09-08
Nginx反向代理proxy_cache_path directive is not allowed错误解决方法
这篇文章主要介绍了Nginx反向代理proxy_cache_path directive is not allowed错误解决方法,需要的朋友可以参考下...2016-01-27
用IIS配置反向代理实现方法(图文)
一直以为windows下用nginx来配置反向代理，没想到微软官方也出了这个东西，特分享下，方便需要的朋友...2016-01-27
详解nginx实现ssl反向代理实战
本篇文章主要介绍了nginx实现ssl反向代理实战，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧 ...2017-01-22
浅析Mysql Join语法以及性能优化
一．Join语法概述join 用于多表中字段之间的联系，语法如下：复制代码代码如下:... FROM table1 INNER|LEFT|RIGHT JOIN table2 ON conditionatable1:左表；table2:右表。JOIN 按照功能大致分为如下三类：INNER JOIN（内连接,或...2014-05-31
javascript性能优化之DOM交互操作实例分析
这篇文章主要介绍了javascript性能优化之DOM交互操作技巧,结合实例形式总结分析了JavaScript针对DOM操作过程中的各种常见优化操作技巧,需要的朋友可以参考下...2015-12-14
浅析javascript中的事件代理
本文的主要内容是根据前不久面试某家公司Web前端开发岗位，面试时做的一道数组去重问题的解题思路进行整理的，分享给大家。题目本身很简单：一个ul中有一千个li，如何给这一千个li绑定一个鼠标点击事件，当鼠标点击时alert出这...2015-11-08
MySQL单表百万数据记录分页性能优化技巧
自己的一个网站，由于单表的数据记录高达了一百万条，造成数据访问很慢，Google分析的后台经常报告超时，尤其是页码大的页面更是慢的不行...2016-09-18
利用.net core实现反向代理中间件的方法
这篇文章主要给大家介绍了关于利用.net core实现反向代理中间件的相关资料，文中通过示例代码介绍的非常详细，对大家学习或者使用.net core具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧...2021-09-22
nginx 代理80端口转443端口的实现
这篇文章主要介绍了nginx 代理80端口转443端口的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2020-09-06
前端JavaScript中的反射和代理
这篇文章主要介绍的是前端JavaScript中的反射和代理，本文主要围绕JavaScript中的内置Reflect、JavaScript中的内置Proxy、Proxy实现观察者模式三个话题展开文章内容,需要的朋友可以参一考下...2021-10-22
MySQL数据库21条最佳性能优化经验
数据库的操作越来越成为整个应用的性能瓶颈了，这点对于Web应用尤其明显。这篇文章主要介绍了MySQL数据库21条最佳性能优化经验的相关资料,需要的朋友可以参考下...2016-10-20
React开启代理的2种实用方式
最近有不少伙伴询问react的代理配置,自己也去试验了一下发现不少的问题,在这就将所遇到的心得分享出来,这篇文章主要给大家介绍了关于React开启代理的2种实用方式的相关资料,需要的朋友可以参考下...2021-07-29
Wins2003系统中Apache性能优化方法
为了满足网站高负荷的要求，在调整Apache参数时发现进程经常占用内存过多导致当机。经过不断的优化和修改参数组合，终于让服务器稳定下来，可以满足大量访问的考验和应用要求...2016-01-27
Nginx反向代理websocket配置实例
这篇文章主要介绍了Nginx反向代理websocket配置实例,本文是项目需求配置成功后的总结,需要的朋友可以参考下...2016-01-27
apache反向代理内网相关服务器配置
但是手里管理着学校一台有几个域名解析的SERVER(但是应该是用VMWARE搞的VPS之类的，然后学校把相关域名解析到有外网IP的反向代理服务器，然后通过反向代理服务器上的squid分发...2016-01-28

victoriaMetrics代理性能优化问题解析

目录

起因

总结

后续

相关文章

阁下可能感兴趣的内容

推荐阅读