爬虫技术简介（简单的爬虫原理与页面构造讲解）

爬虫原理

1. 网络连接

网络连接就像在火车站买票一样：旅客选择好目的地，投入硬（纸）币或者刷卡，售票机就会给我们一张带有列车信息的车票。

计算机(乘客)带着请求头和消息体（目的地，车次等信息）向服务器(售票机)发起一次请求（购买车票），相应的服务器（售票机）会返回给计算机相应的HTML文件作为Response(相应的车票)。

这里是一个GET请求。我们常见的还有POST请求。

爬虫技术简介（简单的爬虫原理与页面构造讲解）(1)

2. 爬虫原理

在了解了网络连接的基本原理后，爬虫原理就好理解了。网络连接需要计算机一次Request请求和服务器端的Response回应。爬虫同样也需要做两件事：

但是我们要获取的信息通常不是只在一个页面上，这时就需要设计一个爬虫的执行流程。我们常用的有两种：

1. 多页面爬虫流程

通常这样的网站有很多页面，且每个页面的构造都类似。因此，可以使用如下流程：

爬虫技术简介（简单的爬虫原理与页面构造讲解）(2)

2. 跨页面爬虫流程

爬虫技术简介（简单的爬虫原理与页面构造讲解）(3)

页面构造

1. HTML语言

我们常说的网页大部分都是用HTML语言来写的。HTML是按层级规定所属关系。

爬虫技术简介（简单的爬虫原理与页面构造讲解）(4)

上面的段代码，就是HTML代码了。
我们通常称<div>这样的代码为标签，即这是一个div标签。

2. 查询网信息

我们在打开要爬取的目标网站，然后通过F12快捷键即可看到如下页面：

爬虫技术简介（简单的爬虫原理与页面构造讲解）(5)

在这里我们可以很方便的查看目标网站的页面构成。