如何删除<style>标记之间的所有文本?

约夫

我正在R上进行文本挖掘作业,并且有一个包含一些html文档的语料库。我想删除<style>标签及其之间的所有文本,最好使用gsub函数。

例:

转这个:

<style>
.s4-tn{
border-left: 1px #0071C5 solid;
padding: 0px;
margin: 0px;
font-family: "Intel Clear", Verdana, verdana, san-serif;
font-size: 15px;
font-weight: lighter;
color: #0071C5; }

.s4-toplinks .s4-tn a.selected:hover{
    color:#1F497D;
    text-decoration: none;
}
</style>
<img id="corner" src="/sites/HR_ETM/SitePages/img/bottom_bar.png"/>

对此:

<img id="corner" src="/sites/HR_ETM/SitePages/img/bottom_bar.png"/>
杰达里森

我会用 removeNodes

library(XML)
doc <- htmlParse(txt,asText=TRUE)
styleNodes <- getNodeSet(doc, "//style")
removeNodes(styleNodes)
doc

> removeNodes(styleNodes)
NULL
> doc
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html>
<head></head>
<body><img id="corner" src="/sites/HR_ETM/SitePages/img/bottom_bar.png"></body>
</html>

> 

要保存编辑的内容XML,可以使用saveXML

> saveXML(doc)
[1] "<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN\" \"http://www.w3.org/TR/REC-html40/loose.dtd\">\n<html>\n<head></head>\n<body><img id=\"corner\" src=\"/sites/HR_ETM/SitePages/img/bottom_bar.png\"></body>\n</html>\n"

要选择评论节点,请使用:

commentNodes <- getNodeSet(doc, "//comment()")

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何删除<ul>元素内标记对之间的所有空格

来自分类Dev

如何删除文件中两个标记之间的所有内容?

来自分类Dev

如何使用 C# 删除两个括号标记之间的所有内容

来自分类Dev

删除标记之间的文本块

来自分类Dev

如何删除多行文本文件中大括号之间的所有文本?

来自分类Dev

如何删除多行文本文件中嵌套大括号之间的所有文本?

来自分类Dev

如何删除 element.style

来自分类Dev

Java JSOUP库(1.6.3)删除<style>标记

来自分类Dev

PHP Regex匹配<body style = ...>和</ body>标记之间的所有内容

来自分类Dev

如何获取HTML标记之间的所有字符

来自分类Dev

如何在Notepad ++中选择标记之间的所有内容?

来自分类Dev

如何在vim中删除所有大括号{}之间的文本

来自分类Dev

如何删除字符串中外括号之间的所有文本?

来自分类Dev

如何删除一行中所有匹配项之间的文本?

来自分类Dev

如何删除字符串中外括号之间的所有文本?

来自分类Dev

如何删除两个已知点之间除可变子串之外的所有文本?

来自分类Dev

删除两个方括号之间的所有文本

来自分类Dev

删除方括号之间包含特定文本的所有行

来自分类Dev

删除两个方括号之间的所有文本

来自分类Dev

删除所有HTML标记

来自分类Dev

如何删除HTML标记中的所有属性

来自分类Dev

如何使用PHP从内容中删除所有锚标记

来自分类Dev

如何删除HTML标记中的所有属性

来自分类Dev

如何从 sklearn TfidfVectorizer 中删除所有非英语标记?

来自分类Dev

以<uid> </ uid>删除角度标记之间的文本

来自分类Dev

仅删除jsoup中标记之间的文本

来自分类Dev

如何使用DOM删除<style>标签?

来自分类Dev

RegEx - 如何选择支持之间的所有文本(多行)

来自分类Dev

如何删除变量之间的文本

Related 相关文章

  1. 1

    如何删除<ul>元素内标记对之间的所有空格

  2. 2

    如何删除文件中两个标记之间的所有内容?

  3. 3

    如何使用 C# 删除两个括号标记之间的所有内容

  4. 4

    删除标记之间的文本块

  5. 5

    如何删除多行文本文件中大括号之间的所有文本?

  6. 6

    如何删除多行文本文件中嵌套大括号之间的所有文本?

  7. 7

    如何删除 element.style

  8. 8

    Java JSOUP库(1.6.3)删除<style>标记

  9. 9

    PHP Regex匹配<body style = ...>和</ body>标记之间的所有内容

  10. 10

    如何获取HTML标记之间的所有字符

  11. 11

    如何在Notepad ++中选择标记之间的所有内容?

  12. 12

    如何在vim中删除所有大括号{}之间的文本

  13. 13

    如何删除字符串中外括号之间的所有文本?

  14. 14

    如何删除一行中所有匹配项之间的文本?

  15. 15

    如何删除字符串中外括号之间的所有文本?

  16. 16

    如何删除两个已知点之间除可变子串之外的所有文本?

  17. 17

    删除两个方括号之间的所有文本

  18. 18

    删除方括号之间包含特定文本的所有行

  19. 19

    删除两个方括号之间的所有文本

  20. 20

    删除所有HTML标记

  21. 21

    如何删除HTML标记中的所有属性

  22. 22

    如何使用PHP从内容中删除所有锚标记

  23. 23

    如何删除HTML标记中的所有属性

  24. 24

    如何从 sklearn TfidfVectorizer 中删除所有非英语标记?

  25. 25

    以<uid> </ uid>删除角度标记之间的文本

  26. 26

    仅删除jsoup中标记之间的文本

  27. 27

    如何使用DOM删除<style>标签?

  28. 28

    RegEx - 如何选择支持之间的所有文本(多行)

  29. 29

    如何删除变量之间的文本

热门标签

归档