python pdf变html（40行Python代码把html网页保存为pdf）

python pdf变html（40行Python代码把html网页保存为pdf）(1)

最近临近开学了，大家都在忙着准备各种学习的资料，准备在新的学期好好学习，充实自己。小编身边的同学也是如此，最近，小编的同学小丽就遇到了一个很棘手的问题。

她想将一个网页的Python学习的教程打印下来，方便自己来学习，但是上千页的教程，如果通过手动的方式，一个一个的去转成pdf并保存到本地，实在是麻烦的不。

这就是一个html转pdf的问题，其实网上有很多不错的html资源，但是苦于学习起来，不方便！于是小编就跟小丽保证，这点小事包在我身上。今天，小编就跟分享一下如何用Python把html资料变成pdf。

01.抓取的学习资料

如今网上的在线学习资料可谓是多如牛毛，为了方便讲解，小编就利用Python3.9.2的中文文档作为演示的例子，来将其抓取并保存到本地，其网页链接如下：

https://docs.python.org/zh-cn/3.9/tutorial/index.html

打开上述链接后，大家会在网页中找到不同内容的链接地址，包括了基础的python字符、python语法等内容。

python pdf变html（40行Python代码把html网页保存为pdf）(2)

02.获取网页链接

在上图中，我们需要格外关注的是红色方格标注的链接，每个链接都会跳转到对应的子网页中，而在子网页中，就是我们想要保存的内容。

python pdf变html（40行Python代码把html网页保存为pdf）(3)

可以看到，上图中，在python速览子页面中，包含了我们需要提取的文字内容。所以将html内容保存为pdf的第一步便是获取到子页面的链接。由于教程大都是固定内容，因此对于教程的网页，大都采用的是静态页面，在网页源代码中可以很轻松地找到子页面的网页链接。

python pdf变html（40行Python代码把html网页保存为pdf）(4)

对于子网页的链接抓取，程序如下图所示:

python pdf变html（40行Python代码把html网页保存为pdf）(5)

程序中，通过BeautifulSoup库来解析网页源代码，然后提取所有的子页面链接地址并返回，如果抓取失败，则直接返回None。

03.html转pdf

在得到子网页的链接后，接下来就是将html的子网页保存为pdf文件。小编使用的pdfkit库，pdfkit库可以将网页保存为pdf文档。首先小编来介绍一下pdfkit库的安装。

下载https://github.com/wkhtmltopdf/packaging/releases/download/0.12.6-1/wkhtmltox-0.12.6-1.mxe-cross-win64.7z 并解压到本地文件中。(后台输入：pdf) 直接获取。
将解压文件中的bin文件路径添加到系统变量Path中。
执行pip install pdfkit
执行pip install wkhtmltopdf

按照上述的操作流程，就可以安装pdfkit库。对于pdfkit库的使用，常见的用法有以下三种：

python pdf变html（40行Python代码把html网页保存为pdf）(6)