介于本人有点懒的原因,想知道下我自己的博客的访问量,故有了这篇博文,今天小编就来聊一聊关于python爬数据速度?接下来我们就一起去研究一下吧!
python爬数据速度
介于本人有点懒的原因,想知道下我自己的博客的访问量,故有了这篇博文。
用到的库有BeautifulSoup、requests、re、ssl,主要是抓取博客的标题及阅读量,其它大家可以看着增加,这里只是一个例子,下面是干货上来:
注:本文是抓取51cto的博客,其它博客系统,需要大家自己更改下,我这里只提供下思路,希望可以帮到大家
#!/usr/local/python3/bin/python3
import re,ssl
# 全局取消证书验证
ssl._create_default_https_context = ssl._create_unverified_context
import requests
from bs4 import BeautifulSoup
url = "https://blog.51cto.com/xxxxxx"
data = []
head = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}
req = requests.get(url,headers=head)
html = req.text
bs = BeautifulSoup(html,'html.parser')
con = bs.find_all('ul',class_="artical-list")
#获取自己博客的文章名称
pat = re.compile(r'<a class="con" href="javascript:;">(.*?)</a>')
#获取自己博客文章的评论数
findTl = re.compile(r'<p class="read fl">(.*)</p>')
for i in con:
i = str(i)
title = re.findall(pat,i)
data.append(title)
yd = re.findall(findTl,i)
data.append(yd)
a = data[0]
b = data[1]
c = []
for i in range(0,len(a)):
c.append(a[i] " " b[i])
for i in c:
print(i)
最终效果如下:
aaaaa 阅读 64
我的自己 阅读 600
。。。。。。。。
,