介于本人有点懒的原因,想知道下我自己的博客的访问量,故有了这篇博文,今天小编就来聊一聊关于python爬数据速度?接下来我们就一起去研究一下吧!

python爬数据速度(抓取51cto自己博客访问量)

python爬数据速度

介于本人有点懒的原因,想知道下我自己的博客的访问量,故有了这篇博文。

用到的库有BeautifulSoup、requests、re、ssl,主要是抓取博客的标题及阅读量,其它大家可以看着增加,这里只是一个例子,下面是干货上来:

注:本文是抓取51cto的博客,其它博客系统,需要大家自己更改下,我这里只提供下思路,希望可以帮到大家

#!/usr/local/python3/bin/python3 import re,ssl # 全局取消证书验证 ssl._create_default_https_context = ssl._create_unverified_context import requests from bs4 import BeautifulSoup url = "https://blog.51cto.com/xxxxxx" data = [] head = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/71.0.3578.98 Safari/537.36"} req = requests.get(url,headers=head) html = req.text bs = BeautifulSoup(html,'html.parser') con = bs.find_all('ul',class_="artical-list") #获取自己博客的文章名称 pat = re.compile(r'<a class="con" href="javascript:;">(.*?)</a>') #获取自己博客文章的评论数 findTl = re.compile(r'<p class="read fl">(.*)</p>') for i in con: i = str(i) title = re.findall(pat,i) data.append(title) yd = re.findall(findTl,i) data.append(yd) a = data[0] b = data[1] c = [] for i in range(0,len(a)): c.append(a[i] " " b[i]) for i in c: print(i)

最终效果如下:

aaaaa 阅读 64

我的自己 阅读 600

。。。。。。。。

,