不定时更新。
概率分布
记录机器学习里常见的数据分布。
有偏估计和无偏估计
最近在看 WCE 的推导,看到「无偏」这个术语,记得以前上概率论也看过这个词,不过早就忘光了。
工作相关的碎碎念
Posted on
In
随笔
一些工作相关的碎碎念,记录一下。
记一次与同事的闲聊
Posted on
In
随笔
2022年,我的第一篇生活日记——记一次与同事的闲聊。
我又回来了
Posted on
In
随笔
我又回来写博客了。
爬虫之破解极验验证(滑动验证码)
Mysql + Grafana 监控爬虫程序
在使用爬虫爬取大量数据的时候,一般我们都会把程序挂在服务器上运行,然后就可以去干别的事情了。但是,我们还是有必要定时看一下程序运行情况的。虽然我们可以通过 log 信息来监控程序运行情况,但这往往不够直观。所以,今天我就讲讲如何使用 Mysql 和 Grafana 监控爬虫程序的运行状况,并可视化。
爬虫获取 JS 动态数据(万方数据库文献下载)
今天讲讲用爬虫下载万方数据库文献。
Python 爬虫中的多进程,多线程和协程(基础)
这篇文章讲提高爬虫效率的三种方法:
- 多进程
- 多线程
- 协程
其实如果要详细讲的话,这三个方法还是挺复杂的,比如说进程间的通信问题,多线程的锁机制问题等。由于本人水平所限,这里就只讲讲这三者的基本用法吧。(虽然如此,掌握了这些基本用法,还是能够显著提升爬虫效率的。)
首先先总结下多进程、多线程和协程三者的特点:
多进程:
多线程:
协程:
下面是代码例子
多进程
多线程
协程