您好!
欢迎来到京东云开发者社区
登录
首页
博文
课程
大赛
工具
用户中心
开源
首页
博文
课程
大赛
工具
开源
更多
用户中心
开发者社区
>
博文
>
Python-Scrapy爬虫实战
分享
打开微信扫码分享
点击前往QQ分享
点击前往微博分享
点击复制链接
Python-Scrapy爬虫实战
自猿其说Tech
2021-09-28
IP归属:未知
969浏览
Python
计算机编程
### 1 Scrapy背景 scrapy是一款非常强大的网络爬虫框架,对于数据挖掘,信息处理等领域提供了非常便捷的数据获取方式。说到爬虫只要能通过网络浏览器获取到的数据,理论上都能够利用爬虫获取的到。最简单的当属rest接口,通过接口的访问获取到数据。但是随着互联网技术的不断发展以及数据安全意识的不断增强,现在的很多网站都有不同的发爬虫机制。 下面简单就python的scrapy有框架做一点简单官方介绍图。 ![](//img1.jcloudcs.com/developer.jdcloud.com/b2102b92-3c62-465c-859d-511e42cf2adf20210928142858.png) - 引擎从Spider获取初始Request; - 引擎调度调度器中的Requests,并请求下一个requests; - 给引擎返回下一个requests; - 引擎通过下载中间件,把请求发给下载器; - 完成网页下载,下载器生产Response发给引擎; - 引擎介绍下载器的Response,通过Spide中间件发给spider进行处理; - spider处理Response,返回item和新的Requets给引擎; - 引擎发送item给Pipeline,发送新的处理请求给调度器,并请求下一个可能的Requests; - 不断重复知道没有更多的requests; 官方文档:https://docs.scrapy.org/en/latest/ ### 2 Scrapy 实战-代码 创建爬虫项目 scrapy startproject wjdzScrapy ![](//img1.jcloudcs.com/developer.jdcloud.com/125c63fc-177d-43fd-8b72-d0cc6007e7ae20210928142940.png) 生成项目结构目录如下: ![](//img1.jcloudcs.com/developer.jdcloud.com/78a42d65-7510-4344-8319-ac3f4d8fe42a20210928142952.png) 实战代码: ![](//img1.jcloudcs.com/developer.jdcloud.com/24d9e5c7-443a-48d1-852e-b34c72c23d0b20210928143011.png) 运行 scrapy 脚本: venv 为 python 虚拟环境: ![](//img1.jcloudcs.com/developer.jdcloud.com/f3b77b7c-a7e1-4adc-8abc-8999e46ba0d020210928143025.png) 开始执行爬取任务: ![](//img1.jcloudcs.com/developer.jdcloud.com/bf2e35ea-a39e-42f1-996d-64c341c421f020210928143042.png) 采用动态代理 ip爬取: ![](//img1.jcloudcs.com/developer.jdcloud.com/d87a5ff2-dbac-4bee-ade2-b44e507f2c1c20210928143055.png) 抓取到的数据打印如下:采用 unicode 加密如下,解析还需要进行转换 ![](//img1.jcloudcs.com/developer.jdcloud.com/28678439-6bc6-4b5d-963a-64c794e7e7c520210928143107.png) Scrapy 获取结束时 [scrapy.statscollectors] 的请求状态说明: ![](//img1.jcloudcs.com/developer.jdcloud.com/93a58809-73ef-4840-ac46-236f8a7e6dda20210928143126.png) 批量抓取 url 地址说明: ![](//img1.jcloudcs.com/developer.jdcloud.com/7d162ed6-e954-4de4-b89f-29464e9b182920210928143240.png) 抓取返回文件存储在磁盘同时也可以存储在 redis 缓存里: ![](//img1.jcloudcs.com/developer.jdcloud.com/b82f9299-341a-4e72-a8c2-6f47952ae69920210928143143.png) 文件内容清洗,清洗完成之后的数据转换成 Excel 格式数据呈现出来! ![](//img1.jcloudcs.com/developer.jdcloud.com/49ca8d90-2585-4e1d-97cc-e32e31e54ca820210928143302.png) #### 2.1 spiders配置说明settings.py ```python BOT_NAME = 'WhdzSpider' SPIDER_MODULES = ['WhdzSpider.spiders'] NEWSPIDER_MODULE = 'WhdzSpider.spiders' RETRY_TIMES = 1000 DOWNLOAD_TIMEOUT = 5 USER_AGENT = 'Chrome' ROBOTSTXT_OBEY = True # 降低下载延迟 DOWNLOAD_DELAY = 0 COOKIES_ENABLED = False # 需要考虑运行Scrapy机器的网络带宽(例如1Mbps带宽的云主机抓取苏宁自营时效时,大概只能设置为20~25 CONCURRENT_REQUESTS = 35 CONCURRENT_REQUESTS_PER_IP = 35 CONCURRENT_REQUESTS_PER_DOMAIN = 35 COOKIES_ENABLED = False #默认配置 TELNETCONSOLE_USERNAME = 'scrapy' TELNETCONSOLE_PASSWORD = 'scr@py' HTTPERROR_ALLOWED_CODES = [404] #抓取网站的 header 头部信息配置 DEFAULT_REQUEST_HEADERS = { "Accept": "text/plain, */*; q=0.01", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,zh-TW;q=0.7", "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8", "Origin": "https://www.youbianku.com", "Referer": "https://www.youbianku.com/%E5%A6%82%E4%BD%95%E5%BF%AB%E9%80%9F%E6%9F%A5%E8%AF%A2%E6%9F%90%E4%B8%AA%E5%9C%B0%E5%9D%80%E6%89%80%E5%B1%9E%E8%A1%97%E9%81%93%E5%8A%9E%E4%BA%8B%E5%A4%84%EF%BC%9F", "Sec-Fetch-Dest": "empty", "Sec-Fetch-Mode": "cors", "Sec-Fetch-Site": "same-origin", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36", "X-Requested-With": "XMLHttpRequest", } #设置的动态代理配置 DOWNLOADER_MIDDLEWARES = { 'jdl_web_crawler_common.common_scrapy_middilewares.QingtingProxyPoolMiddleware': 10, 'jdl_web_crawler_common.common_scrapy_middilewares.RandomUserAgentMiddleware': 20, 'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': None, 'scrapy.downloadermiddlewares.retry.RetryMiddleware': None, 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': None } # # 代理服务器提供商的http接口链接 PROXY_PROVIDER_URL = 'https://xxx.xx.com/api?orderId=2021812312321321' ``` - **带宽:**网络带宽的大小决定发送请求的并发数量; - **User-Agent:**http请求头部信息,我这边是采用批量机型内核不断转换模拟请求; - **动态代理:**如果爬取数据的量很大,而且使用代理Ip封号很频繁,那么就应该考虑动态代理ip,如果这个Ip访问不了,就换下一个ip继续爬取数据。一般抓取数据,需要先在本地缓存里创建一个 ip 代理池,不断的提供新陈代谢,提供给spiders抓取使用,一般一个动态代理只会使用一次,之后就失效 ,在从新从动态代理池子不断获取新的 IP。 ### 3 Middleware重点介绍 #### 3.1 Downloader Middleware 下载中间件是一个钩子到Scrapy的请求/响应处理的框架。这是一个轻量级的、低级的系统,用于全局改变Scrapy的请求和响应。 #### 3.2 激活下载器中间件 在settings.py配置,这是一个dict,键是中间件类路径,值是中间件顺序。 ```python DOWNLOADER_MIDDLEWARES = { 'myproject.middlewares.CustomDownloaderMiddleware': 543, } ``` #### 3.3 下载器中间件顺序 DOWNLOADER_MIDDLEWARES 与DOWNLOADER_MIDDLEWARES_BASE(猜测是内置中间件)不存在覆盖关系,而是按顺序排序,以获得已启用中间件的最终排序列表:第一个中间件更接近引擎,最后一个更接近下载程序。也就是说, process_request() 每个中间件的方法将以增加的中间件顺序(100、200、300…)调用,并且 process_response() 每个中间件的方法将按降序调用。 #### 3.4 禁用内置中间件 如果要禁用内置中间件(定义于 DOWNLOADER_MIDDLEWARES_BASE 在默认情况下启用)您必须在项目的 DOWNLOADER_MIDDLEWARES 设置和分配 None 作为其价值。例如,如果要禁用用户代理中间件: ```python DOWNLOADER_MIDDLEWARES = { 'myproject.middlewares.CustomDownloaderMiddleware': 543, 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, } ``` #### 3.5 使用说明 需要说明的是,Scrapy其实已经提供了许多Spider Middleware,它们被SPIDER_MIDDLEWARES_BASE这个变量所定义。 SPIDER_MIDDLEWARES_BASE变量的内容如下: ```python 'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50, 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500, 'scrapy.spidermiddlewares.referer.RefererMiddleware': 700, 'scrapy.spidermiddlewares.urllength.UrllengthMiddleware': 800, 'scrapy.spidermiddlewares.depth.DepthMiddleware': 900, ``` 和Downloader Middleware一样,Spider Middleware首先加入到SPIDER_MIDDLEWARES设置中,该设置会和Scrapy中SPIDER_MIDDLEWARES_BASE定义的Spider Middleware合并。然后根据键值的数字优先级排序,得到一个有序列表。第一个Middleware是最靠近引擎的,最后一个Middleware是最靠近Spider的。 #### 3.6 中间件的核心方法 Scrapy内置的Spider Middleware为Scrapy提供了基础的功能。如果我们想要扩展其功能,只需要实现某几个方法即可。 每个Spider Middleware都定义了以下一个或多个方法的类,核心方法有如下4个: ```python process_spider_input(response, spider)。 process_spider_output(response, result, spider)。 process_spider_exception(response, exception, spider)。 process_start_requests(start_requests, spider)。 ``` ### 4 总结 前期有爬虫需求,先要分析网站或者 App是否可爬取,可以采用fiddler工具进行抓包分析,分析完成之后采用 request 发起请求,查看数据是否进行了加密处理,如有加密看看是否可以按照常规解密,如果可以爬取,就需模拟对方 Url 地址请求,地址有可能是百万级别,这会一定要用动态代理 IP 的方式进行抓取.否则后果很严重,爬取数据需谨慎。 ------------ ###### 自猿其说Tech-JDL京东物流技术发展部 ###### 作者:客户服务技术部 周剑桥 孙胜军
原创文章,需联系作者,授权转载
上一篇:针对APP崩溃率治理-测试环节解决方案
下一篇:volatile禁止指令重排序探究
相关文章
【技术干货】企业级扫描平台EOS-Jenkins集群进阶之路
AutoML系列 | 01-自动化机器学习技术原理
Python-Scrapy爬虫实战
自猿其说Tech
文章数
426
阅读量
2167120
作者其他文章
01
深入JDK中的Optional
本文将从Optional所解决的问题开始,逐层解剖,由浅入深,文中会出现Optioanl方法之间的对比,实践,误用情况分析,优缺点等。与大家一起,对这项Java8中的新特性,进行理解和深入。
01
Taro小程序跨端开发入门实战
为了让小程序开发更简单,更高效,我们采用 Taro 作为首选框架,我们将使用 Taro 的实践经验整理了出来,主要内容围绕着什么是 Taro,为什么用 Taro,以及 Taro 如何使用(正确使用的姿势),还有 Taro 背后的一些设计思想来进行展开,让大家能够对 Taro 有个完整的认识。
01
Flutter For Web实践
Flutter For Web 已经发布一年多时间,它的发布意味着我们可以真正地使用一套代码、一套资源部署整个大前端系统(包括:iOS、Android、Web)。渠道研发组经过一段时间的探索,使用Flutter For Web技术开发了移动端可视化编程平台—Flutter乐高,在这里希望和大家分享下使用Flutter For Web实践过程和踩坑实践
01
配运基础数据缓存瘦身实践
在基础数据的常规能力当中,数据的存取是最基础也是最重要的能力,为了整体提高数据的读取能力,缓存技术在基础数据的场景中得到了广泛的使用,下面会重点展示一下配运组近期针对数据缓存做的瘦身实践。
自猿其说Tech
文章数
426
阅读量
2167120
作者其他文章
01
深入JDK中的Optional
01
Taro小程序跨端开发入门实战
01
Flutter For Web实践
01
配运基础数据缓存瘦身实践
添加企业微信
获取1V1专业服务
扫码关注
京东云开发者公众号