在我平时的工作中,偶尔会用 Java 做一些解析HTML的工作。有的时候我需要删除所有的HTML标签,只保留纯文字内容。这个问题在做过一些爬虫工作的朋友来说很简单。下面来说说,我们平时使用到的集中解析的方法。
2024年10月20日
在我平时的工作中,偶尔会用 Java 做一些解析HTML的工作。有的时候我需要删除所有的HTML标签,只保留纯文字内容。这个问题在做过一些爬虫工作的朋友来说很简单。下面来说说,我们平时使用到的集中解析的方法。
2024年10月20日
第一种:按照class类型删除
1、取出要删除的标签,这里对应tagName变量
2、可能有多个,所以需要遍历所有取到的标签
3、如果标签中的className和需要删除的变量名称相同,删除该标签
4、这里需要用到标签的父标签进行删除
第二种:按照Id值删除
1、利用方法getElementById得到标签
2、不会有多个相同Id的标签,所以直接删除就行
3、需要判断存在不存在,只有存在情况下才可以删除,不然会报错
2024年10月20日
经常扒别人网站文章的坑们;我是指那种批量式采集的压根不看内容的;少不了都会用到删除html标签的函数;这里介绍3种不同用途上的方法;
$str='<div><p>这里是p标签</p><img src="" alt="这里是img标签"><a href="">这里是a标签</a><br></div>';