梧桐的学习日记

发表于2023-04-10|python|python•爬虫•线程•进程

博客站：梧桐的学习日记工具站：你的美好等我去发现欢迎访问我的网站与公众号！点击与扫码即可进入，谢谢关注！高性能异步爬虫目的: 在爬虫中使用异步实现高性能的数据爬取普通请求(单线程串行方式执行)循环请求会堵塞后一个请求 12345urls = ['http://xxxx.rar','http://xxxx.rar','http://xxxx.rar']# 单线程请求爬取for url in urls: content = get_content(url) parse_content(content) 异步一个进程有个多个线程多线程,多进程(不推荐) 好处: 可以为相关堵塞的操作单独开启线程/进程,阻塞操作就可以异步执行弊端: 无法无限的开启多线程/多进程线程池/进程池(适当使用) 好处: 可以降低系统对进程 ...

2. requests 验证码识别和Cookie

发表于2023-04-10|python|python•爬虫

博客站：梧桐的学习日记工具站：你的美好等我去发现欢迎访问我的网站与公众号！点击与扫码即可进入，谢谢关注！识别验证码人工识别第三方自动识别云打码: http://www.yudama.com/demo.html 模拟登陆流程的简单例子123456789101112131415# 根据登陆请求的formdata# 验证码需要识别传入data = { 'username':username, 'password':password, 'captcha': captcha, # ...}response = requests.post(url=url, headers=headers, data=data)# 检验是否请求成功print(response.status_code)# 传回来的数据login_page_text = ...

1.2 xpath简单介绍

发表于2023-04-10|python|python•自动化•爬虫

博客站：梧桐的学习日记工具站：你的美好等我去发现欢迎访问我的网站与公众号！点击与扫码即可进入，谢谢关注！ xpath解析: 最常用且便捷高效的一种解析方式使用快捷方法：打开F12，右键点击html节点复制xpath xpath解析原理:1. 实例化一个etree对象,将要解析的页面元am加载到该对象中 2. 调用etree对象中的xpath方法,结合xpath表达式实现标签定位和内容捕获流程安装 pip install lxml 导入 from lxml import etree 实例化etree对象: 将本地的html文档中的源码加载到etree对象中: tree = etree.parse(filePath) 将网络中获取的源码加载到etree中 tree = etree.HTML('page text') xpath表达式res = tree.xpath(xpath表达式) ...

python pyinstaller打包

发表于2023-04-10|python|python

博客站：梧桐的学习日记工具站：你的美好等我去发现欢迎访问我的网站与公众号！点击与扫码即可进入，谢谢关注！安装pip install pyinstaller 配置文件通常pip安装会失败 whl安装 https://www.lfd.uci.edu/~gohlke/pythonlibs/下载whl pip install xxx.whl 官网下载去pyisntaller官网下载http://www.pyinstaller.org/downloads.html 解压,进入目录,python setup.py install,顺序不要错遇到的问题:项目引用ui,打包是会出现unable to open/read ui device解决方案(两者解决方法): 打包完成后,复制ui文件夹到打包目录,可正常读取 ******** 将ui转换成py文件 pyinstaller打包命令pyinstaller ind ...

1.1 BeautifulSoup简单介绍

发表于2022-01-10|python|python•BeautifulSoup•自动化•爬虫

博客站：梧桐的学习日记工具站：你的美好等我去发现欢迎访问我的网站与公众号！点击与扫码即可进入，谢谢关注！更为详细的教程建议看崔庆才得博客https://cuiqingcai.com/1319.htmlBeautifulSoup安装12pip install bs4pip install lxml 引入from bs4 import BeautifulSoup 加载网页123456# 1. 本地page_text = open('1.txt', 'r', encoding="utf-8")# 2. 网络page_text = request.get(url).text# 相同的，这点和xpath不同soup = BeautifulSoup(page_text, 'lxml') 数据解析方法和属性标签定位 123456soup.a ...