北京SEO

linux多线程网页截图 python与shell方法

2019/10/10/17:45:00  阅读:2062  来源:谷歌SEO算法  标签: 云计算

多线程功能是linux中非常成熟的一个功能了,下面我们介绍linux多线程网页截图功能,下面有两个例子,一个是python另一个是shell,具体我们来看看吧.

shell多线程网页截

linux的两个截图工具cutycapt和phantomjs,经过测试,cutycapt截图较慢,但比较稳定,phantomjs截图速度较快,但时有出现进程假死的状态,权衡利弊,决定使用cutycapt+shell脚本的方式截图.

  1. webshot.sh
  2. #/bin/bash
  3. #webhsot
  4. #bycaishzh2013
  5. WEBSHOTDIR="/data/webshot"
  6. mkdir-p$WEBSHOTDIR
  7. whilereadLINE
  8. do
  9. DISPLAY=:0cutycapt--url=http://$LINE--max-wait=90000--out=$WEBSHOTDIR/$LINE.jpg>/dev/null2>&1
  10. done<domain.txt

脚本很简单,就不注释了,domain.txt是网址列表,cutycapt的安装和使用参照这里,执行脚本,可以正常截图,图片质量也很高,但另一个问题出现了,对几万个网站截图,时间周期太长,估算需要半个月左右.

时间太长,耗不起,需要优化下脚本,找了下资料,决定使用多线程截图,其实shell无法实现多线程,只是将多个进程放入后台执行而已.

  1. multiwebshot.sh
  2. #/bin/bash
  3. #Multithreadingwebshot
  4. #bycaishzh2013
  5. WEBSHOTDIR="/data/webshot"
  6. mkdir-p$WEBSHOTDIR
  7. #将domain.txt分割成10个文件(x开头),每个文件5000行
  8. split-l5000domain.txt
  9. foriin`lsx*`;do
  10. {
  11. forjin`cat$i`;do
  12. DISPLAY=:0cutycapt--url=http://$j--max-wait=90000--out=$WEBSHOTDIR/$j.jpg>/dev/null2>&1
  13. done
  14. }&
  15. done
  16. wait
  17. #删除由spilt分割出的临时文件
  18. rmx*-f

脚本说明:先使用split将domain.txt分割成多个个文件,每个文件5000行,再使用两个嵌套的for循环实现多进程截图,第一个for是列出由split分割的的文件名,第二个for对这些文件里的网站截图,注意大括号后面的&,&的作用是将大括号里的脚本代码放到后台执行,这就模拟处理“多线程”的效果,实际则是多进程,wait是等待前面的后台任务全部完成才往下执行.

使用该脚本大大提高了截图的是速度,在两天左右的时间里完成所有网站的截图,效果显著,需要注意的是,cutycapt截图是需要占用较大的网络带宽和cpu资源,在配置较差的机器上不要开太多的cutycapt“线程”,以免造成机器死机.

python多线程网页截

刚好最近在学习python,而python可以很方便的支持多线程,找了些资料,使用threading+queue的方式实现了“能者多劳”的多线程截图方式.

  1. #coding:utf-8
  2. importthreading,urllib2
  3. importdatetime,time
  4. importQueue
  5. importos
  6. classWebshot(threading.Thread):
  7. def__init__(self,queue):
  8. threading.Thread.__init__(self)
  9. self.queue=queue
  10. defrun(self):
  11. whileTrue:
  12. #如果队列为空,则退出,否则从队列中取出一条网址数据,并截图
  13. ifself.queue.emptyempty():
  14. break
  15. host=self.queue.get().strip('\n')
  16. shotcmd="DISPLAY=:0cutycapt--url=http://"+host+"--max-wait=90000--out="+host+".jpg"
  17. os.system(shotcmd)
  18. self.queue.task_done()
  19. time.sleep(1)
  20. defmain():
  21. queue=Queue.Queue()
  22. f=file('domain.txt','r')
  23. #往队列中填充数据
  24. whileTrue:
  25. line=f.readline()
  26. iflen(line)==0:
  27. break
  28. queue.put(line)
  29. #生成一个threadspool,并把队列传递给thread函数进行处理,这里开启10个线程并发
  30. foriinrange(0,10):
  31. shot=Webshot(queue)
  32. shot.start()//phpfensi.com
  33. if__name__=="__main__":
  34. main()

程序描述如下:

1、创建一个Queue.Queue() 的实例,将domain.txt里的网站列表存入到该队列中.

2、for循环生成10个线程并发.

3、将队列实例传递给线程类Webshot,后者是通过继承 threading.Thread 的方式创建的.

4、每次从队列中取出一个项目,并使用该线程中的数据和 run 方法以执行相应的工作

5、在完成这项工作之后,使用 queue.task_done() 函数向任务已经完成的队列发送一个信号.

广告内容

linux多线程网页截图 python与shell方法 linux多线程网页截图 python与shell方法 linux多线程网页截图 python与shell方法

相关阅读

热门评论

爱互踩 爱互踩

爱互踩流量交换~

总篇数175

精选文章

RMAN中catalog和nocatalog区别介绍 小技巧:为Linux下的文件分配多个权限 zimbra8.5.1安装第三方签名ssl证书的步骤 解决mysql不能远程连接数据库方法 windows服务器mysql增量备份批处理数据库 mysql中slow query log慢日志查询分析 JavaScript跨域问题总结 Linux下负载均衡软件LVS配置(VS/DR)教程 mysql中权限参数说明 MYSQL(错误1053)无法正常启动

SEO最新算法