投稿    登录
欢迎来访~

小白进阶之Scrapy第五篇(Scrapy-Splash配合CrawlSpider;瞎几把整的)

Python 哎哟卧槽 20965浏览 359评论

估摸着各位小伙伴儿被想使用CrawlSpider的Rule来抓取JS,相当受折磨;

CrawlSpider Rule总是不能和Splash结合。

废话不多说,手疼····

 

方法1:

写一个自定义的函数,使用Rule中的process_request参数;来替换掉Rule本身Request的逻辑。

参考官方文档:

1、将请求更换为SplashRequest请求:

2、每次请求将本次请求的URL使用Meta参数传递下去;

3、重写 _requests_to_follow 方法:替换响应Response的URL为我们传递的URL(否则会格式为Splash的地址)

就像下面这样

方法2:

这就很简单啦!干掉类型检查就是了(/≧▽≦)/

就像这样:

以上完毕@_@!!

 

转载请注明:新宝6 » 小白进阶之Scrapy第五篇(Scrapy-Splash配合CrawlSpider;瞎几把整的)

喜欢 (38)or分享 (0)

我的个人微信公众号,联系我请直接在公众号留言即可~

扫码或搜索:进击的Coder

进击的Coder

微信公众号 扫一扫关注

想结交更多的朋友吗?

来进击的Coder瞧瞧吧

进击的Coder

QQ群号 99350970 立即加入

进击的Coder灌水太多?

这里是纯粹的技术领地

激进的Coder

QQ群号 627725766 立即加入

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址