怎么知道python爬取网站站的请求方式

点击联系发帖人 时间：2019-07-27 06:11

爬虫网站

最近在做语义方面的问题需要反义词。就在网上找反义词大全之类的但是大多不全，没有我想要的然后就找相关的网站，发现了//5f7x868lizu.html

查询词和非阴影部分的剩余的7个位置有关如果暴力破解的发，总共（26+10）^7=~780亿个url有很多没用的写了个爬虫爬，感觉太慢了暂时放弃了这种想法，想用模拟浏览器的方式根据查询词的存储查询结果。在网上找了很多资料终于搞定。

使用的是mechanize模块它是非常适合的模拟浏览器模块。可以利用该模块完成一些浏览器想要做的事比如自动填写表单。主要特点：

简单的HTML表单填写

}

今天想了半天不知道抓啥去B站看跳舞的小姐姐，忽然看到了评论那就抓取一下B站的评论数据，视频动画那么多也不知道抓取哪个，选了一个博人传跟火影相关的抓取看看。网址： /bangumi/media/md5978/?from=search&seid=#short
在这个网页看到了18560条短评数据量也不大，抓取看看使用的还是scrapy。

从开发者工具中你能轻易的得到如下链接有链接の后就好办了，如何创建项目就不在啰嗦了我们直接进入主题。

然后实现一个新的功能每次访问切换UA，这个点我们需要使用到中间件技术

第一步，在settings文件中添加一些UserAgent,我从互联网找了一些

好了随机的UA已经实现，你可以在parse函数中编写如下代码进行测试

这个操作相对简单这些数据就是我们要保存的数据了。！

5. B站博人传评论数据案例---提高爬取速度

将下载延迟设为0这时需要相应的防ban措施，一般使用user agent轮转構建user agent池，轮流选择其中之一来作为user agent

scrapy网络请求是基于Twisted，而Twisted默认支持多线程而且scrapy默认也是通过多线程请求的，并且支持多核CPU的并发我们通过一些设置提高scrapy的并发数可以提高爬取速度。

运行代码之后发现过了一会报错了

去看了一眼，原来是数据爬取完毕~！！！

}

杰西卡呢吗信息网