logo头像

一路过来,不过游牧自己。。

爬虫系列(一)


最近爬了很多网站,一路走来收获不少,当然这个入门进阶的过程也十分有趣,我写下来,也希望以笔记的方式看到自己学习的过程,经常温故而知新,这样收获更多!

在这之前,我一直在搜索以什么样的学习路线比较好,后来在结合了知乎大神的一些方案之后,我渐渐整理出了自己的学习思路,大概就是如下:
爬虫综述——>爬虫基础了解——>Urllib使用——>URLError异常处理——>Cookie的使用——>正则表达式的使用——>几个实战小例子——>Xpath,css selector的使用——>Scrapy框架爬虫
当然这貌似并不是所有东西,以后的我们边学边用吧!

一、爬虫综述

首先爬虫基本都是用python写的,所以,必须要知道python语法是必要的,推荐当然是廖雪峰Python教程了,自己及上网搜吧,可以搜得到,但是我也只是匆匆看了一遍,写爬虫知道那些基本的语法我觉着就可以了,当然后期还是要深入学习的!
然后是Python urllib和urllib2 库的用法,,利用这两个库我们可以得到网页的内容,并对内容用正则表达式提取分析,得到我们想要的结果。
然后是Python 正则表达式,这个只能作为一个工具,后面我们会有更好的方法去匹配!
最后就是学习一下Python框架吧,我选择的框架是Scrapy框架。因为他真的很强大,有很多优点,有什么优点,大家可以去看官方文档,当然主要是因为我们实验室在用这个爬,而且效率很不错!

二、爬虫基础了解

1.什么是爬虫

朋友说程序猿是很有意思的一种人,连起名字都这么有趣!不可否认,爬虫这个名字和他实际的作用简直不要太像!爬虫,就是一只大蜘蛛,他活动在一张大网上,因特网,一旦遇到自己感兴趣的资源,就会爬下来,一张网,总是四通八达,这样就可以通过各种路径去寻找资源,然后按照规则爬取下来,当然规则是人制定的,由人来掌控!

2、浏览网页的基本过程

基本上就是根据链接去请求经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,这样就可以找到我们想要的内容了。其实我们爬取得就是这些html代码,然后在这些代码中将内容提取出来!

3、URL的含义

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等
爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。

4、环境的配置

学习Python,当然少不了环境的配置,最初我用的是Notepad++,不过发现它的提示功能实在是太弱了,于是,我就用了PyCharm!

多走路,多思考,越努力,越幸运!
———————————————YoungerFary

微信打赏

赞赏是不耍流氓的鼓励