C++开发的Redis数据导入工具优化
背景
使用C++开发了一个Redis数据导入工具
从oracle中将所有表数据导入到redis中;
不是单纯的数据导入,每条oracle中的原有记录,需要经过业务逻辑处理,
并添加索引(redis集合);
工具完成后,性能是个瓶颈;
优化效果
使用了2个样本数据测试:
样本数据a表8763 条记录;
b表940279 条记录;
优化前,a表耗时11.417s;
优化后,a表耗时1.883s;
用到的工具
gprof, pstrace,time
使用time工具查看每次执行的耗时,分别包含用户时间和系统时间;
使用pstrace打印实时运行,查询进程主要的系统调用,发现耗时点;
使用gprof统计程序的耗时汇总,集中精力优化最耗时的地方;
使用简介:
1.对g++的所有编辑和连接选项都必须要加上-pg(第一天由于没有在连接处加上-pg选项,导致无法出统计报告);
2.执行完程序后,本目录会产生gmon.out文件;
3.gprof redistool gmou.out > report,生成可读文件report,打开report集中优化最耗时的函数;
优化过程
优化前11.417s:
time ./redistool im a a.csv
real 0m11.417s
user 0m6.035s
sys 0m4.782s (发现系统调用时间过长)
文件内存映射
系统调用时间过长,主要是文件读写,初步考虑是读取文件时,调用api次数过于频繁;
读取样本采用的是文件fgets一行行的读取,采用文件内存映射mmap后,可直接使用指针操作整个文件内存快;
日志开关提前
改进了文件读写后,发现优化效果比较有限(提高了2s左右);fgets是C的文件读取库函数,相比系统read(),是带了缓冲区了,应该不会太慢(网上有人测试,文件内存映射相比fgets()能快上一个数量级,感觉场景应该比较特殊);
之后通过pstrace工具发现log.dat打开次数过多;原来是调试日志的开关写到了后面,导致 调试日志都是会打开日志文件open("log.dat");
将日志开关提前;改进后,3.53s
time ./redistool im a a.csv
real 0m3.530s
user 0m2.890s
sys 0m0.212s
vector空间预先分配
后续通过gprof分析,某个函数的vector内存分配次数多,并有不少复制次数:
改进以下这行代码:
vector <string> vSegment;
使用静态vector变量,并预先分配内存:
static vector <string> vSegment;
vSegment.clear();
static int nCount = 0;
if( 0 == nCount)
{
vSegment.reserve(64);
}
++nCount;
优化后,提升至2.286s
real 0m2.286s
user 0m1.601s
sys 0m0.222s
同样,另外一个类中的成员vector也使用预先分配空间(在构造函数中):
m_vtPipecmd.reserve(256);
优化后,提升至2.166s;
real 0m2.166s
user 0m1.396s
sys 0m0.204s
函数改写 && 内联
继续执行程序,发现SqToolStrSplitByCh()函数消耗过大,改写整个函数逻辑,并将改写后的函数内联:
优化后,提升至1.937s
real 0m1.937s
user 0m1.301s
sys 0m0.186s
去除调试符和优化监测符号
最后,去掉debug和pg调试符号后,最终效果为1.883s;
real 0m1.883s
user 0m1.239s
sys 0m0.191s
满足生产要求
以上最后几步看似毫秒级的提升,扩大到全表数据后,效果就很明显了;
优化后,生产上a表为152w,导入耗时大约326s(~6分钟);
b表数据420w,导入耗时大约1103s(~18分钟)
以上所述就是本文的全部内容了,希望大家能够喜欢。
相关文章
- vector是表示可以改变大小的数组的序列容器,本文主要介绍了C++STL标准库std::vector的使用详解,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2022-03-06
- 这篇文章主要介绍了C++中取余运算的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-02-23
- 这篇文章主要介绍了C++ string常用截取字符串方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-04-25
- 本文通过例子,讲述了C++调用C#的DLL程序的方法,作出了以下总结,下面就让我们一起来学习吧。...2020-06-25
- 本篇文章主要介绍了C++中四种加密算法之AES源代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。...2020-04-25
- 整数拆分,指把一个整数分解成若干个整数的和。本文重点给大家介绍C++ 整数拆分方法详解,非常不错,感兴趣的朋友一起学习吧...2020-04-25
- 这篇文章主要介绍了C++中Sort函数详细解析,sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变...2022-08-18
- 这篇文章主要介绍了C++万能库头文件在vs中的安装步骤(图文),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-02-23
- 这篇文章主要介绍了C++ bitset用法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-04-25
- 本篇文章小编并不是为大家讲解string类型的用法,而是讲解我个人比较好奇的问题,就是string 类型占几个字节...2020-04-25
- 这篇文章主要为大家详细介绍了C++ Eigen库计算矩阵特征值及特征向量,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2020-04-25
- 这篇文章主要介绍了C++ pair的用法实例详解的相关资料,需要的朋友可以参考下...2020-04-25
- 这篇文章主要介绍了VSCode C++多文件编译的简单使用方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-03-29
- 虽然C++11引入了智能指针的,但是开发人员在与内存的斗争问题上并没有解放,如果我门实用不当仍然有内存泄漏问题,其中智能指针的循环引用缺陷是最大的问题。下面通过实例代码给大家介绍c++中的循环引用,一起看看吧...2020-04-25
- 这篇文章主要给大家介绍了关于C++随机点名生成器的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-04-25
- map容器是C++ STL中的重要一员,删除map容器中value为指定元素的问题是我们经常与遇到的一个问题,下面这篇文章主要给大家介绍了关于利用C++如何删除map容器中指定值的元素的相关资料,需要的朋友可以参考借鉴,下面来一起看看吧。...2020-04-25
- 这篇文章主要介绍了C++ 约瑟夫环问题案例详解,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下...2021-08-15
- 这篇文章主要介绍了C++中cin的用法详细,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-04-25
- 本篇文章是对C++中的常见编译错误进行了详细的分析介绍,需要的朋友参考下...2020-04-25
- 这篇文章主要介绍了c++优先队列(priority_queue)用法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-04-25