如何删除<style>标记之间的所有文本？

Yoav 发表于 Dev

约夫

我正在R上进行文本挖掘作业，并且有一个包含一些html文档的语料库。我想删除<style>标签及其之间的所有文本，最好使用gsub函数。

例：

转这个：

<style>
.s4-tn{
border-left: 1px #0071C5 solid;
padding: 0px;
margin: 0px;
font-family: "Intel Clear", Verdana, verdana, san-serif;
font-size: 15px;
font-weight: lighter;
color: #0071C5; }

.s4-toplinks .s4-tn a.selected:hover{
    color:#1F497D;
    text-decoration: none;
}
</style>
<img id="corner" src="/sites/HR_ETM/SitePages/img/bottom_bar.png"/>

对此：

<img id="corner" src="/sites/HR_ETM/SitePages/img/bottom_bar.png"/>

杰达里森

我会用 removeNodes

library(XML)
doc <- htmlParse(txt,asText=TRUE)
styleNodes <- getNodeSet(doc, "//style")
removeNodes(styleNodes)
doc

> removeNodes(styleNodes)
NULL
> doc
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html>
<head></head>
<body><img id="corner" src="/sites/HR_ETM/SitePages/img/bottom_bar.png"></body>
</html>

>

要保存编辑的内容XML，可以使用saveXML：

> saveXML(doc)
[1] "<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN\" \"http://www.w3.org/TR/REC-html40/loose.dtd\">\n<html>\n<head></head>\n<body><img id=\"corner\" src=\"/sites/HR_ETM/SitePages/img/bottom_bar.png\"></body>\n</html>\n"

要选择评论节点，请使用：

commentNodes <- getNodeSet(doc, "//comment()")

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-10

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何删除<ul>元素内标记对之间的所有空格

来自分类Dev

如何删除文件中两个标记之间的所有内容？

来自分类Dev

如何使用 C# 删除两个括号标记之间的所有内容

来自分类Dev

删除标记之间的文本块

来自分类Dev

如何删除多行文本文件中大括号之间的所有文本？

来自分类Dev

如何删除多行文本文件中嵌套大括号之间的所有文本？

来自分类Dev

如何删除 element.style

来自分类Dev

Java JSOUP库（1.6.3）删除<style>标记

来自分类Dev

PHP Regex匹配<body style = ...>和</ body>标记之间的所有内容

来自分类Dev

如何获取HTML标记之间的所有字符

来自分类Dev

如何在Notepad ++中选择标记之间的所有内容？

来自分类Dev

如何在vim中删除所有大括号{}之间的文本

来自分类Dev

如何删除字符串中外括号之间的所有文本？

来自分类Dev

如何删除一行中所有匹配项之间的文本？

来自分类Dev

如何删除字符串中外括号之间的所有文本？

来自分类Dev

如何删除两个已知点之间除可变子串之外的所有文本？

来自分类Dev

删除两个方括号之间的所有文本

来自分类Dev

删除方括号之间包含特定文本的所有行

来自分类Dev

删除两个方括号之间的所有文本

来自分类Dev

删除所有HTML标记

来自分类Dev

如何删除HTML标记中的所有属性

来自分类Dev

如何使用PHP从内容中删除所有锚标记

来自分类Dev

如何删除HTML标记中的所有属性

来自分类Dev

如何从 sklearn TfidfVectorizer 中删除所有非英语标记？

来自分类Dev

以<uid> </ uid>删除角度标记之间的文本

来自分类Dev

仅删除jsoup中标记之间的文本

来自分类Dev

如何使用DOM删除<style>标签？

来自分类Dev

RegEx - 如何选择支持之间的所有文本（多行）

来自分类Dev

如何删除变量之间的文本

Related 相关文章

文章