学习scrapy爬虫,请帮忙看下问题出在哪

采纳数:8 获赞数:2 LV3

你对这个回答嘚评价是

}

现在的网站对爬虫还是比较反感嘚所以我们在爬取的时候一定要想方设法让我们的爬虫像人一样去浏览,楼主的问题我也遇到过我的总结如下:

1、User-agent头是网站判断爬虫嘚第一道大门,我在网上搜索了100多个agent头串保存成txt文件,程序运行时读取到一个数组中每次打开链接时都随机从数组中挑选一个。

2、爬蟲爬取的时间一定要控制好大量的爬虫快速爬取服务器对服务器性能会产生较大的压力,所以在爬取的时候写一个随机事件方法,一般而言我都设置1-2秒左右的随机暂停时间这样也是为了模拟人的访问间隔

3、楼主可以试一下用BeautifulSoup+urllib2来编写爬虫,个人认为更加适合糗百这种信息结构较为简单的网站对于爬虫的理解也会更加深刻一点。

你对这个回答的评价是

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信