通过上一章的内容,现在网页文件中,我们还须要去除的就是HTML代码了。

下面我们要研究一下HTML代码的主要特点,不管什么样的html代码,他们均被左右尖括号所包围,就像这个样子<代码>,因此,我们就有了去除的方法,把括号中的内容和联通括号一起去除掉,就可以了。

下面开始,根据我们的想法,可以写出,下面这样的主程序

获取html代码方法(网页代码中提取文字)(1)

看上图,再上一张定义的函数,我们把它移动到了通用函数库中

第21行,这是我们新增的代码,执行完这个代码,就去除掉了HTML标记,剩下的就应该是纯文字内容了。在这里,我们定义了一个函数,名字叫做去除html代码。

下面我们研究一下,这个函数的内容,如下图

获取html代码方法(网页代码中提取文字)(2)

因为使用了正则表达式,因此,在程序运行前,必须导入模块re

第3行,导入我们所需要的re模块,我们想用到正则表达式

第5行,定义函数

第6行,用右尖括号分格隔成列表

第8行,对列表元素进行遍历

第9行,使用正则挑出有效的内容,其实就是去除以前孤立的右尖括号的内容。

第10行,对有效的内容进行左尖括号分隔

第11行,左尖括号前面的内容就是有效的文字内容

完整的程序如下

获取html代码方法(网页代码中提取文字)(3)

下面我们对程序进行下测试,在上一章中,程序运行后得到如下的内容(内容太长,只截取一小部分)

获取html代码方法(网页代码中提取文字)(4)

本次程序改造后,运行得到下面的内容

获取html代码方法(网页代码中提取文字)(5)

获取html代码方法(网页代码中提取文字)(6)

从上面两个图片可以看出,我们确实把文字内容提取出来了。

,