4. 高性能爬虫概念1
博客站:梧桐的学习日记
工具站:你的美好等我去发现
欢迎访问我的网站与公众号!点击与扫码即可进入,谢谢关注!
高性能异步爬虫目的: 在爬虫中使用异步实现高性能的数据爬取
普通请求(单线程串行方式执行)循环请求会堵塞后一个请求
12345urls = ['http://xxxx.rar','http://xxxx.rar','http://xxxx.rar']# 单线程请求爬取for url in urls: content = get_content(url) parse_content(content)
异步一个进程有个多个线程
多线程,多进程(不推荐)
好处: 可以为相关堵塞的操作单独开启线程/进程,阻塞操作就可以异步执行
弊端: 无法无限的开启多线程/多进程
线程池/进程池(适当使用)
好处: 可以降低系统对进程 ...
2. requests 验证码识别和Cookie
博客站:梧桐的学习日记
工具站:你的美好等我去发现
欢迎访问我的网站与公众号!点击与扫码即可进入,谢谢关注!
识别验证码
人工识别
第三方自动识别
云打码: http://www.yudama.com/demo.html
模拟登陆流程的简单例子123456789101112131415# 根据登陆请求的formdata# 验证码需要识别传入data = { 'username':username, 'password':password, 'captcha': captcha, # ...}response = requests.post(url=url, headers=headers, data=data)# 检验是否请求成功print(response.status_code)# 传回来的数据login_page_text = ...
1.2 xpath简单介绍
博客站:梧桐的学习日记
工具站:你的美好等我去发现
欢迎访问我的网站与公众号!点击与扫码即可进入,谢谢关注!
xpath解析: 最常用且便捷高效的一种解析方式
使用快捷方法:打开F12,右键点击html节点复制xpath
xpath解析原理:1. 实例化一个etree对象,将要解析的页面元am加载到该对象中
2. 调用etree对象中的xpath方法,结合xpath表达式实现标签定位和内容捕获
流程
安装 pip install lxml
导入 from lxml import etree
实例化etree对象:
将本地的html文档中的源码加载到etree对象中: tree = etree.parse(filePath)
将网络中获取的源码加载到etree中 tree = etree.HTML('page text')
xpath表达式res = tree.xpath(xpath表达式) ...
python pyinstaller打包
博客站:梧桐的学习日记
工具站:你的美好等我去发现
欢迎访问我的网站与公众号!点击与扫码即可进入,谢谢关注!
安装pip install pyinstaller
配置文件
通常pip安装会失败
whl安装
https://www.lfd.uci.edu/~gohlke/pythonlibs/下载whl
pip install xxx.whl
官网下载
去pyisntaller官网下载http://www.pyinstaller.org/downloads.html
解压,进入目录,python setup.py install,顺序不要错
遇到的问题:项目引用ui,打包是会出现unable to open/read ui device解决方案(两者解决方法):
打包完成后,复制ui文件夹到打包目录,可正常读取 ********
将ui转换成py文件
pyinstaller打包命令pyinstaller ind ...
1.1 BeautifulSoup简单介绍
博客站:梧桐的学习日记
工具站:你的美好等我去发现
欢迎访问我的网站与公众号!点击与扫码即可进入,谢谢关注!
更为详细的教程建议看崔庆才得博客https://cuiqingcai.com/1319.htmlBeautifulSoup安装12pip install bs4pip install lxml
引入from bs4 import BeautifulSoup
加载网页123456# 1. 本地page_text = open('1.txt', 'r', encoding="utf-8")# 2. 网络page_text = request.get(url).text# 相同的,这点和xpath不同soup = BeautifulSoup(page_text, 'lxml')
数据解析方法和属性
标签定位
123456soup.a ...





