1、网络爬虫(网络蜘蛛网络机器囚)
1、定义:抓取网络数据的程序
2、用Python程序模仿人点击浏览器访问网站
3、目的:获取大量数据进行分析
2、企业获取数据的方式
1、公司自有的数据
2、第三方数据平台购买
3、爬虫爬取数据:市场上没有,或者价格太高
请求模块解析模块丰富成熟,強大的Scapy爬虫框架
请求网站后返回的是网站的全部代码而解析模块可以网页进行分析获取我们想要数据
PHP:对多线程,异步支持不呔好
JAVA:代码笨重代码量大
C/C++:虽然效率高,但是代码成型慢
1、通用网络爬虫(搜索引擎引用需要遵循obots协议)
比如:谷歌,百度网站
obots协议:网站通过obots协议告诉搜索引擎那些页面可以抓那些页面不可以抓
每一个网站都有obots协议,有百度快照字样僦是百度爬取的网站
2、搜索引擎如何获取一个新网站的UL呢
1、网站主动向搜索引擎提供(百度站长平台)
2、DNS服务器(万网)快速收录网站
自己写的爬虫程序:面向主题爬虫,面向需求爬虫
1、确定需要爬取的UL地址
1、所需数据保存
2、页面中新的UL,继续第二步
协议 域名 端口 资源路径 查询参数 锚点
多个查询参数之间用&做分隔
锚点跳到网页指定位置
#是否支持压缩解压缩
>0直接从浏览器缓存中提取
<0向浏览器请求确认,该资源是否修改
1、GET:查询参數在UL上面显示出来
2、POST:FOM表单提交传输大文件,数据隐藏能赶在fom表单中不会再UL中显示
9、爬虫请求模块(/s?'
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。