获取html代码方法（网页代码中提取文字）

通过上一章的内容，现在网页文件中，我们还须要去除的就是HTML代码了。

下面我们要研究一下HTML代码的主要特点，不管什么样的html代码，他们均被左右尖括号所包围，就像这个样子<代码>，因此，我们就有了去除的方法，把括号中的内容和联通括号一起去除掉，就可以了。

下面开始，根据我们的想法，可以写出，下面这样的主程序

获取html代码方法（网页代码中提取文字）(1)

看上图，再上一张定义的函数，我们把它移动到了通用函数库中

第21行，这是我们新增的代码，执行完这个代码，就去除掉了HTML标记，剩下的就应该是纯文字内容了。在这里，我们定义了一个函数，名字叫做去除html代码。

下面我们研究一下，这个函数的内容，如下图

获取html代码方法（网页代码中提取文字）(2)

因为使用了正则表达式，因此，在程序运行前，必须导入模块re

第3行，导入我们所需要的re模块，我们想用到正则表达式

第5行，定义函数

第6行，用右尖括号分格隔成列表

第8行，对列表元素进行遍历

第9行，使用正则挑出有效的内容，其实就是去除以前孤立的右尖括号的内容。

第10行，对有效的内容进行左尖括号分隔

第11行，左尖括号前面的内容就是有效的文字内容

完整的程序如下

获取html代码方法（网页代码中提取文字）(3)

下面我们对程序进行下测试，在上一章中，程序运行后得到如下的内容（内容太长，只截取一小部分）

获取html代码方法（网页代码中提取文字）(4)

本次程序改造后，运行得到下面的内容

获取html代码方法（网页代码中提取文字）(5)

获取html代码方法（网页代码中提取文字）(6)

从上面两个图片可以看出，我们确实把文字内容提取出来了。