今天想了半天不知道抓啥去B站看跳舞的小姐姐,忽然看到了评论那就抓取一下B站的评论数据,视频动画那么多也不知道抓取哪个,选了一个博人传跟火影相关的抓取看看。网址: /bangumi/media/md5978/?from=search&seid=#short
在这个网页看到了18560条短评数据量也不大,抓取看看使用的还是scrapy。
从开发者工具中你能轻易的得到如下链接有链接の后就好办了,如何创建项目就不在啰嗦了我们直接进入主题。
然后实现一个新的功能每次访问切换UA
,这个点我们需要使用到中间件技术
第一步, 在settings文件中添加一些UserAgent,我从互联网找了一些
好了随机的UA已经实现,你可以在parse
函数中编写如下代码进行测试
这个操作相对简单这些数据就是我们要保存的数据了。!
5. B站博人传评论数据案例---提高爬取速度
将下载延迟设为0这时需要相应的防ban措施,一般使用user agent轮转構建user agent池,轮流选择其中之一来作为user agent
scrapy网络请求是基于Twisted,而Twisted默认支持多线程而且scrapy默认也是通过多线程请求的,并且支持多核CPU的并发我们通过一些设置提高scrapy的并发数可以提高爬取速度。
运行代码之后发现过了一会报错了
去看了一眼,原来是数据爬取完毕~!!!
}