高性能web站点分布式处理系统gearman应用实例
一. 场景分析
业务服务压力比较大,想把一些占用资源的功能异步到远程处理,比如记录业务日志,文件加密,文件分发到其他文件服务器节点上,检查文件服务器是否已同步,对用户上传的图片进行剪裁生成多份缩略图,视频转换,静态内容生成,清除缓存等等,这些请求耗时长,占用系统资源大,影响业务正常访问。这些问题会经常遇到的,如果这些任务都在用户请求过程中完成,服务器撑不撑得住暂不考虑,单凭用户体验角度考虑来说,那是难以忍受的。
二. 解决之道
对于这种需求,我们可以通过分布式计算,对任务进行拆分,转移到多台服务器上进行异步或同步处理。分布式消息队列有多种实现方式如rabbitmq、gearman等。 在这里主要说gearman—分布式处理系统。gearman由三部分组成:Job server,worker server,client server。 任务服务器job server运行这gearmand进程,来负责处理应用的远程调用请求,并且维护计算任务;工作服务器worker server负责向job server注册函数等待领取任务并执行实际的计算,然后将结果返回给job server;客户端client server提供gearman client API给应用程序调用,API支持多种语言如C、php、perl、python、mysql udf、java、ruby、go等等,主要是向job server添加任务,
流程图如下:
客户端client server向gearman添加任务时,有三种模式:
1. 同步顺序处理 相当于消息队列,先进先出。
2. 同步并行处理 这种模式会阻塞后面的运行,将互不依赖的任务并行处理,大大缩短整体处理时间。
3. 异步后台处理 将耗时任务交给后台处理,不阻塞当前进程。
三. 应用实例
需要安装的模块有Mail::SendEasy、Gearman::Worker、Gearman::Client、JSON。
# perl -MCPAN -e 'install Mail::SendEasy Gearman::Worker Gearman::Client JSON'
或通过cpanm来安装
在使用异步处理之前,当我们要发送邮件时,会直接这么写,代码如下:
代码如下 | 复制代码 |
use strict; use Mail::SendEasy ; my $mail = new Mail::SendEasy( smtp => 'smtp.ttlsa.com' , user => 'service@ttlsa.com' , pass => 'QQ_qun:39514058', ); my $status = $mail->send( from => 'service@ttlsa.com' , from_title => $mail_title , to => $mail_to , subject => $mail_subject , msg => $mail_msg , html => "<b>$mail_msg</b>" , ); if (!$status) { print $mail->error ;} |
这存在一个问题, 会长期阻塞在send函数,而无限制等待下去, 直到超时,很可能会拖垮服务器的。我们可以使用gearman,来改变这种发送邮件的方式。第一步,创建一个worker实例SENDMAIL,并向job server注册,等待接收任务并执行发送邮件的操作。第二步,客户端只需要将发送邮件的任务丢给job server便退出,没你什么事了。上代码:
代码如下 | 复制代码 |
# vim work_SENDMAIL.pl use strict; use Mail::SendEasy ; use Gearman::Worker; use JSON; use Data::Dumper; my $gearman_server='127.0.0.1:4730'; my $worker=new Gearman::Worker; $worker->job_servers($gearman_server); $worker->register_function(SENDMAIL=>\&sendmail); $worker->work while 1; sub sendmail{ my $job=shift; my $param=$job->arg; my $json = JSON->new->allow_nonref; my $hash_ref=$json->decode($param); my $addr=$hash_ref->{'email'}; my $subject=$hash_ref->{'subject'}; my $msg=$hash_ref->{'msg'}; my $mail = new Mail::SendEasy( smtp => 'smtp.ttlsa.com' , user => 'service@ttlsa.com' , pass => 'QQ_qun:39514058', ); my $status = $mail->send( from => 'service@ttlsa.com' , from_title => $subject , to => $addr , subject => $subject , msg => $msg , html => "<b>$msg</b>" , ); if (!$status) { print $mail->error ;} } # vim gearman_client.pl use strict; use Gearman::Client; use JSON; my $gearman_server="127.0.0.1:4730"; my $worker='SENDMAIL'; my $data={}; $data->{'subject'} = "www.ttlsa.com --- Operation & Maintenance of Time To Live"; $data->{'msg'} = "Date: gettime() $data->{'email'} = '710117291@qq.com'; my $json = JSON->new->allow_nonref; my $param=$json->encode($data); gearman_add_job($gearman_server,$worker,$param,2); sub gearman_add_job { my $server=shift; my $function_name=shift; my $function_param=shift; my $level=shift or 1; my $gearman_client = Gearman::Client->new; $gearman_client->job_servers($server); if($level == 1){ my $result = $gearman_client->do_task($function_name,\$function_param,{}); } elsif($level == 2){ my $result = $gearman_client->dispatch_background($function_name, \$function_param,{}); } } sub gettime { my @time=(localtime)[5,4,3,2,1,0]; $time[0]+=1900; $time[1]+=1; return sprintf("%04u-%02u-%02u %02u:%02u:%02u",@time); } |
完成上面的改造不要认为解决了发送邮件会长期阻塞在send函数,而无限制等待下去的问题了。这其实只是解决了一部分,还有一个问题需要考虑进去,既然采用了异步方式,那么应用程序是不知道邮件是否发送成功的,因此需要记录任务执行的结果,可以将结果写入数据库,定期的对发送失败的邮件进行再次发送,或写个异常处理的worker,捕获发送邮件异常,进行多次尝试发送。
这种方案是我在捕获数据库备份过程中失败时,发邮件报警的应用。
通过这样的异步任务处理,可以很好的解决前面场景提到的问题,完全取决于如何应用gearman了。如有更好的应用可以相互交流。
使用php curl的方式调用对方提供的接口,收到了如下错误提示
HTTP Status 415
The server refused this request because the request entity is in a format not supported by the requested resource for the requested method.
Curl 的代码片段如下:
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_HEADER, FALSE);
curl_setopt($ch, CURLOPT_NOBODY, FALSE);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);
curl_setopt($ch, CURLOPT_AUTOREFERER, TRUE);
curl_setopt($ch, CURLOPT_TIMEOUT, 120);
curl_setopt($ch, CURLOPT_POST, TRUE);
curl_setopt($ch, CURLOPT_POSTFIELDS, json_encode($postData));
$data = curl_exec($ch);
curl_close($ch);
多次检查curl设置已经接口的说明没有发现问题。对方的服务器使用的是Tomcat 7, 一度怀疑是对方web配置有误,后来仔细研究文档,其中提到Response是jason格式文档,而上述curl中没有指定Request Header 信息, 所以尝试加入一个header, 结果问题解决。 代码如下:
curl_setopt($ch, CURLOPT_HTTPHEADER, array("Content-Type: application/json; charset=utf-8"));
例子
$a = array (1, 2, array ("a", "b", "c"));
var_dump ($a);
上面是不会有问题了,比较短时发现可以正常了.
安装了xdebug模块后,var_dump()输出的结果将比较易于查看,但默认情况下,var_dump() 输出的结果将有所变化:过多的数组元素不再显示,字符串变量将只显示前N个字符,较深的数组元素也被显示成省略号。这点会带来一些不便,我们修改配置文件,设置这些。
在php.ini里的xdebug节点中,加入如下
xdebug.var_display_max_children=128
xdebug.var_display_max_data=512
xdebug.var_display_max_depth=5
好了这样问题就解决 了,主要就是一个display显示长度的问题了,解决办法也简单了.
开发项目都是本地修改代码然后发布到测试环境,测试稳定后才发布上线,所以测试环境的好坏会影响到开发效率及开发质量,本文我伙来看看利用 Gentle 帮助我们快速的将代码部署到测试环境。我想很多开发的同学都经历过这样的开发流程:本地修改代码,把代码推到测试环境,重启测试环境需要的服务,本地看效果,改bug重复1-3,功能稳定后上线
这个过程有什问题呢?
假设你是一个做过运维或者能力很强的人,比如我这种,本地跑测试环境,但是假如一个新人,或者对测试环境中的某些 部分不是很了解的人, 甚至需要和生产环境完全一样的条件下, 本地可能就不好使了. 那么这需要一个测试服务器
首先你每次修改代码, push ,重启环境都需要你登陆测试环境,至少不够自动化.然后退回本地看效果,这个过程有点浪费时间和经理
其次是你可能有好几个项目,他们之间可能都没什么共通点. 你需要多个测试环境
当然你可以写几个脚本,为你每个测试环境写一个东西去自动化这些,未尝不可. 只是需要重复造很多轮子
假如为了安全有跳板机,你需要登陆跳板机才能跳到你的测试服务器,你可能要写很复杂的expect脚本
然后是我认为最重要的:
凡是屁大点事就放个deamon的运维都是耍流氓, 就拿小屁几台服务器还搞神马salt, ansible之类的事情,真是太无聊了.
这些东西帮助你做了很多事情,但是会让你变得更懒.而且重要的是-它们写的并不一定只符合你的需要或者就不符合你的需要. 我喜欢简单粗暴的实现,最近在看fabric的代码, 作为做过op,也给salt贡献过代码的我,写了这个东西: gentle, 帮助我自动化提交代码到我的测试环境. 这个东西是我认为符合我需要,或者大部分开发同学需要的小东西,基于fabric, docopt 和yaml.
我的工作的一些特点
我负责几个项目, 它们有以下特点
项目在不同的机房, 有完整的测试环境和相关数据
项目依赖的服务基本不同,比如有的使用了supervisor, 有的是程序fork后退出了父进程;有的使用了nginx+uwsgi,有的就是nginx+服务等.
项目之间需要的依赖应用不同,且启动顺序有区别. 这个很好理解, 启动需要先启动A,再启动B,才能启动C
项目有的需要登陆跳板机
我以前的个人的开发习惯和流程
我有一个专门的存放服务配置的目录, 后缀是ip或者项目的名字. git版本库, 每次更新后上传到测试环境
我有专门的op PATH, 做了很多alias, 都是一些python或者shell的脚本,用来同步测试环境,登陆测试环境撑起服务的脚本
看起来以前用的也不错. 但是gentle能怎么样提高呢?
gentle的开发流程
切换到你要开发的目录
初始化这个目录,其实就是在当前目录增加一个.gentle.yaml
根据你的需要配置测试环境账号ip密码, 想要同步的目录, 需要重启的服务和优先级已经命令
以后每次只需在这个目录下,使用gt publish 或者更懒 gt p, 他就会帮你自动rsync然后重启相关服务.
具体使用可以去我的github或者readthedocs.org
安装和依赖
我已经放到了pypi, 你可以使用pip或者easy_install
sudo pip install gentle
这样在系统环境下会有一个gt命令
fabric有2个对于项目更新的函数,一个是rsync_project,一个是upload_project, upload是把项目压缩在服务器上解压缩,实际上很浪费时间,但是rsync_project不能使用env.password,需要手动输入一次密码,都很不爽,我找到一个解决办法就是sshpass, 帮助自动输入rsync的密码, 我也给fabric提了PR. 我的项目使用了我个人的改进版的rsync_project
如果你是ubuntu 直接:
sudo apt-get install sshpass
其他操作系统可以在这里下载 http://sourceforge.net/projects/sshpass/ 然后编译
tar zxvf sshpass-1.05.tar.gz && cd sshpass-1.05 && ./configure &&
make && sudo make install
一个我的测试环境的例子, 我加注释说明
host: 192.168.3.11 #测试服务器, 格式是user@host:port
password: dongwmspassword #登录服务器需要的密码
gateway: #可以不存在,中间服务器,格式是user@host:port
gatewaypassword: #中间服务器(jump跳板机)的密码
rsync: #这个操作是rsync
lpath: $ROOT #你可以使用全路径, $ROOT表示当前路径,本地目录
rpath: /opt/tornado # 测试环境的目录
services: # 每个段落就是一个服务,这里有nginx和supervisor
nginx:
command: kill -9 `ps -ef |grep nginx|grep -v grep|awk '{print $2}'` && /opt/nginx/sbin/nginx #启动的命令
lpath: /usr/local/etc/nginx/nginx.conf #nginx.conf的本地地址
priority: 1 #优先级越高越先执行
rpath: /opt/nginx/conf/nginx.conf #测试环境的nginx.conf路径
sudo: false # 因为这个环境很宽松 不需要sudo
user: #sudo使用的用户,默认是登陆的用户
supervisor:
command: supervisorctl -c /etc/supervisor/supervisord.conf reload
lpath: /Users/dongwm/settings/supervisord.conf.31
priority: 2
rpath: /etc/supervisor/supervisord.conf
sudo: false
user:
username: root #登陆服务器的默认用户, 你可以在使用host的时候指定用户
欢迎给我issue和PR
后文
因为很多人会用到跳板机,我想加入跳板机的用法, 看起来就像直接在本地操作远程一样
设置输出是否隐藏,目前保留就是为了让我看到执行的过程
设置支持多测试环境一起部署,或者说让生成环境的部署一样方便
php5.3之前的版本我给大家一个解决方案
第一步,检查你的程序是否存在问题,排除程序自身的问题。
第二步,要将服务器端的C:/windows/system32下的ntwdblib.dll和PHP安装目录下的ntwdblib.dll的版本号保持一致!
上述两步基本上就可以解决mssql_connect()函数无效的问题了!(这个问题害的我研究了半天!)
php5.3之后的版本如下
windows系统下,PHP5.3以上的版本已经不支持mssql扩展.
首先http://msdn.microsoft.com/en-us/sqlserver/ff657782.aspx 点击 get it 下载SQLSRV20.EXE。
将文件解压到php的扩展文件夹ext下,打开php.ini在结尾添加:
[PHP_PDO_SQLSRV]
extension=php_pdo_sqlsrv_53_nts_vc6.dll
[PHP_SQLSRV]
extension=php_sqlsrv_53_nts_vc6.dll
好了这样就搞定了哦.
相关文章
- 这篇文章主要介绍了Windows批量搜索并复制/剪切文件的批处理程序实例,需要的朋友可以参考下...2020-06-30
BAT批处理判断服务是否正常运行的方法(批处理命令综合应用)
批处理就是对某对象进行批量的处理,通常被认为是一种简化的脚本语言,它应用于DOS和Windows系统中。这篇文章主要介绍了BAT批处理判断服务是否正常运行(批处理命令综合应用),需要的朋友可以参考下...2020-06-30- file_get_contents的超时处理话说,从PHP5开始,file_get_content已经支持context了(手册上写着:5.0.0 Added the context support. ),也就是说,从5.0开始,file_get_contents其实也可以POST数据。今天说的这篇是讲超时的,确实在...2013-10-04
- 这篇文章主要介绍了C#多线程中的异常处理操作,涉及C#多线程及异常的捕获、处理等相关操作技巧,需要的朋友可以参考下...2020-06-25
- 20岁老牌网页程序语言PHP,最快将在10月底释出PHP 7新版,这是十年来的首次大改版,最大特色是在性能上的大突破,能比前一版PHP 5快上一倍,PHP之父Rasmus Lerdorf表示,甚至能比HHVM虚拟机下的PHP程序性能更快。HHVM 是脸书为自...2015-11-24
- 这篇文章主要介绍了postgresql 中的时间处理小技巧(推荐),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-03-29
- 这篇文章主要介绍了Python同时处理多个异常的方法,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下...2020-07-29
利用 Chrome Dev Tools 进行页面性能分析的步骤说明(前端性能优化)
这篇文章主要介绍了利用 Chrome Dev Tools 进行页面性能分析的步骤说明(前端性能优化),本文给大家介绍的非常想详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-02-24C#异常处理中try和catch语句及finally语句的用法示例
这篇文章主要介绍了C#异常处理中try和catch语句及finally语句的用法示例,finally语句的使用涉及到了C#的垃圾回收特性,需要的朋友可以参考下...2020-06-25- 这篇文章主要介绍了JavaScript提高网站性能优化的建议(二)的相关资料,需要的朋友可以参考下...2016-07-29
- 这篇文章主要介绍了python如何用moviepy对视频进行简单的处理,帮助大家更好的利用python处理视频,感兴趣的朋友可以了解下...2021-03-11
- 这篇文章主要介绍了提升jQuery的性能需要做好的七件事,希望真的帮助大家提升jQuery性能,需要的朋友可以参考下...2016-01-14
- 这篇文章介绍了C#异常处理,有需要的朋友可以参考一下...2020-06-25
- 这篇文章主要给大家介绍了关于sql server日志处理不当造成的隐患的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用sql server具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧...2020-07-11
- php测试性能代码 function microtime_float () { list ($usec, $sec) = explode(" ", microtime()); return ((float) $usec + (float) $sec); } functio...2016-11-25
- Spring MVC是Spring系列框架中使用频率最高的部分。不管是Spring Boot还是传统的Spring项目,只要是Web项目都会使用到Spring MVC部分。因此程序员一定要熟练掌握MVC部分。本篇博客简要分析Spring MVC处理一个请求的流程。...2021-02-06
- 这篇文章主要介绍了go语言中的Carbon库时间处理,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-02-05
- C++ 提供了异常机制,让我们能够捕获运行时错误,本文就详细的介绍了C++异常处理入门,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2021-08-09
- 文章介绍了css中空路径对页面性能影响的解决方案,这个可能很多美工朋友不会去注意这一点,下面我们来看看吧。 在写 CSS 的时候,用 background:url(#) 还是会对页面进...2017-07-06
C#事务处理(Execute Transaction)实例解析
这篇文章主要介绍了C#事务处理(Execute Transaction)实例解析,对于理解和学习事务处理有一定的帮助,需要的朋友可以参考下...2020-06-25