前军教程网

中小站长与DIV+CSS网页布局开发技术人员的首选CSS学习平台

用python进行html标签剔除,以及标签闭合补全

在写博客系统过程中,经常遇到文章某些恶意标签,一写html标签不能闭合的文章被提交,导致网页错乱。这个时候必须有一种保障机制。

而当文章需要显示一些摘要的时候,不需要显示标签,只想显示一些堆叠的内容。避免摘要产生行距或者换行,影响美观。

代码如下:

标签闭合,该方式除了引入bs4库,还要安装lxml,否则会无法执行

from bs4 import BeautifulSoup as bs
def prettify_html(content):
 """
 html标签补全
 :param content: 一个html补全的文档
 :return:
 """
 return bs(content, 'lxml').prettify()

标签删除代码如下:

import re
def delete_html_tag(html):
 """
 清楚html标签
 :param html:一个html文档
 :return:
 """
 pattern = re.compile(r'<[^>]+>', re.S)
 result = pattern.sub('', html)
 return result

还算简单把,简单做个笔记。

Django博客源码参考:https://gitee.com/bsxbl/author_manager

发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言