0%

概述

说实话,本文代码主要是参考网上资料的。

极验验证的滑动验证码如下:

其实网上有许多破解极验验证的教程,主要分为两种,一种是手动分析各种请求,另一种是直接使用 Selenium 模拟浏览器。前者,破解过程繁琐,开发久,但是运行速度快;后者,开发快,但是运行很慢。。考虑到极验验证一直在更换各种请求 URL,参数等等(毕竟人家靠这个吃饭的啊),手动分析的方法时效性不强。所以,本文主要参考使用 Selenium 破解验证码的方法。

Read more »

在使用爬虫爬取大量数据的时候,一般我们都会把程序挂在服务器上运行,然后就可以去干别的事情了。但是,我们还是有必要定时看一下程序运行情况的。虽然我们可以通过 log 信息来监控程序运行情况,但这往往不够直观。所以,今天我就讲讲如何使用 Mysql 和 Grafana 监控爬虫程序的运行状况,并可视化

Read more »

这篇文章讲提高爬虫效率的三种方法:

  1. 多进程
  2. 多线程
  3. 协程

其实如果要详细讲的话,这三个方法还是挺复杂的,比如说进程间的通信问题,多线程的锁机制问题等。由于本人水平所限,这里就只讲讲这三者的基本用法吧。(虽然如此,掌握了这些基本用法,还是能够显著提升爬虫效率的。)

首先先总结下多进程、多线程和协程三者的特点:

多进程:

多线程:

协程:

下面是代码例子

多进程

多线程

协程