通过上一章的内容,现在网页文件中,我们还须要去除的就是HTML代码了。
下面我们要研究一下HTML代码的主要特点,不管什么样的html代码,他们均被左右尖括号所包围,就像这个样子<代码>,因此,我们就有了去除的方法,把括号中的内容和联通括号一起去除掉,就可以了。
下面开始,根据我们的想法,可以写出,下面这样的主程序
看上图,再上一张定义的函数,我们把它移动到了通用函数库中
第21行,这是我们新增的代码,执行完这个代码,就去除掉了HTML标记,剩下的就应该是纯文字内容了。在这里,我们定义了一个函数,名字叫做去除html代码。
下面我们研究一下,这个函数的内容,如下图
因为使用了正则表达式,因此,在程序运行前,必须导入模块re
第3行,导入我们所需要的re模块,我们想用到正则表达式
第5行,定义函数
第6行,用右尖括号分格隔成列表
第8行,对列表元素进行遍历
第9行,使用正则挑出有效的内容,其实就是去除以前孤立的右尖括号的内容。
第10行,对有效的内容进行左尖括号分隔
第11行,左尖括号前面的内容就是有效的文字内容
完整的程序如下
下面我们对程序进行下测试,在上一章中,程序运行后得到如下的内容(内容太长,只截取一小部分)
本次程序改造后,运行得到下面的内容
从上面两个图片可以看出,我们确实把文字内容提取出来了。
,